دادگان (Data Set) مجموعه ای از داده های گردآوری شده در رابطه با یک موضوع واحد بوده و بیشتر ین کاربرد آن در داده کاوی (Data Mining) است اما یکی از ابزارهای بسیارمناسب و کارآمد برای آزمون و ارزیابی الگوریتم های طراحی شده در یک حوزه خاص نیز به شمار می رود برای مثال دادگان 99 Kdd CUP با هدف آزمون الگوریتم های تشخیص نفوذ (Intrusion Detection) گردآوری و طراحی شده است این مجموعه داده با استفاده از حجم عظيم داده هاي گرد آوري شده در پروژه DIDE یا Darpa Intrusion Detection Evalution که با همکاري سازمان پروژه هاي تحقيقاتي پيشرفته دفاعي ، وزارت دفاع ايالات متحده آمريکا و آزمايشگاه لينکلن دانشگاه MIT انجام شد ، تهيه گرديده است هدف از تهیه اين دادگان ، ايجاد يک مجموعه داده استاندارد براي ارزيابي سيستم هاي تشخيص نفوذ (Intrusion Detection System) است.
از این روکليه رکوردهاي موجود در اين مجموعه داده ، توسط افراد خبره در حوزه امنيت اطلاعات برچسب گذاري شده است بگونه اي که تعلق هر رکورد به کلاس خاصي از حمله و يا عادي بودن رکورد به آساني قابل تشخيص است. اين دادگان از دو مجموعه داده جداگانه تشکيل مي شود که عبارتند از : مجموعه داده های آموزشي (Training) که مجموعه يادگيري نيز ناميده مي شود و مجموعه آزمون (Test) که از مجموعه يادگيري براي تحليل دقيق رفتار حمله و تدوين قوانين موثر و کارآمد استفاده می شود و براي آزمون و ارزیابی الگوریتم پيشنهادي نيز از هردو مجموعه يادگيري و آزمون استفاده می شود. یکی از دادگان های مطرح برگرفته شده از KDD CUP 99 دادگان NLS-KDD است که توسط تولايي و همکاران(M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani) با انجام تحليلهاي آماري دقيق در خصوص دادگان Kdd Cup 99 و براي حل برخي از مشکلات ذاتي دادگان Kdd Cup 99 تهیه گردیده است که نسبت به Kdd Cup 99 داراي برتری های زیر است:
1-هردو مجموعه داده هاي يادگيري و آزمون فاقد رکورد تکراري هستند که اين ويژگي موجب بالاتر رفتن دقت و کارآيي الگوريتمهاي داده کاوي و يادگيري ماشيني شده و مانع ازتاثير منفي رکوردهاي تکراري بر خروجي الگوريتم خواهد شد.
2-تعداد رکوردها در مجموعه يادگيري و آزمون مناسب و خردمندانه انتخاب شده است که اين ويژگي سرعت الگوريتمهاي يادگيري ماشيني و داده کاوي را افزايش ميدهد.
مجموعه داده NLS-KDD شامل 42 ويژگي یا فیلد است که عبارتند از: 41 ويژگي عادي مربوط به اتصالات شبکه و يک ويژگي کلاس که در آن 5 کلاس مختلف شامل يک کلاس عادي و 4 کلاس حمله تعريف شده است. کلاسهاي حمله عبارتند از : DoS ، U2R ، R2L و Prob
براي ارزيابي الگوریتم تشخيص نفوذ پيشنهادي ، با استفاده از دادگان NLS KDD کافی است تا برچسب حمله که توسط افراد خبره به هر رکورد موجود در این دادگان ، نسبت داده شده است را با برچسبي که توسط الگوریتم پيشنهادي به رکوردهاي موجود در اين دادگان ، نسبت داده مي شود مقايسه کنید . بر اساس تشخيص درست يا نادرست رکوردها توسط الگوریتم پيشنهادي ، رخ دادن حالتهاي خلاصه شده در جدول زیر قابل پيش بيني است:
معيار TN : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.
معيار TP : درصد رکوردهاي حمله که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.
معيار FP : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به اشتباه از نوع رکورد حمله تشخيص داده شده است
معيار FN : درصد رکوردهاي حمله که توسط سيستم پيشنهادي به اشتباه از نوع رکورد عادي تشخيص داده شده است.
معيار دقت (Accuracy) : اين معيار بيانگر آن است که الگوریتم پيشنهادي چند درصد از کل رکوردهای موجود در دادگان را بدرستي تشخيص داده شده است. اين معيار دقت کل الگوریتم پيشنهادي را محاسبه مي کند:
بنا براين دو معيار TN و TP مهمترين مقاديري هستند که بايد بيشينه شوند تا دقت الگوریتم پيشنهادي بيشينه گردد.
زمان پاسخ گویی روز های شنبه الی چهارشنبه ساعت 9 الی 18
فقط به موضوعات مربوط به محصولات آموزشی و فروش پاسخ داده می شود