محمد مرادی
پژوهشگر و تحلیلگر داده

معرفی دیتاست برای پروژه های داده کاوی و یادگیری ماشین

مهمترین راه عملیاتی برای یادگیری و تسلط بر فرایندهای داده کاوی، یادگیری ماشین و دیتا ساینس تمرین است و تمرین و در واقع هیچ راه جایگزین موثری برای آن وجود ندارد. تا اینجای کار مشکلی وجود ندارد و تقریبا همه با این گفته موافق هستند ولی مساله زمانی ایجاد می شود که می خواهیم شروع به انجام تمرین کنیم و دانسته های خود را ارزیابی کنیم.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

شاید چالشی ترین مساله در این زمان به دست آوردن داده های مناسب برای تمرین و آزمایش روش ها و الگوریتم ها می باشد. شاید تصور بشود که جمع آوری داده کار چندان دشواری نیست و به راحتی می توان - مثلا- چند صد رکورد داده ای را جمع آوری کرد و آزمایش ها را شروع نمود. حال اینکه، دوستانی که تجربه جمع آوری داده ها را دارند به خوبی می دانند که این کار بسیار دشوار، زمانبر و در برخی موارد رنج آور می شود، به خصوص زمانی که به سرعت نیاز به حجم قابل توجهی از داده ها داریم.

اینجاست که مساله استفاده از دیتاست ها (مجموعه های داده ای) - که غالبا زحمات زیادی برای جمع آوری آن ها کشیده شده و توسط سازمانها و گروه های معتبر ارائه می شوند- اهمیت بسیار زیادی پیدا می کند. علاوه بر مسائلی که پیشتر گفته شد، استفاده از دیتاست ها برای پیش نمایش خروجی الگوریتم ها (ارائه گزارش های اولیه در قالب مثال از آنچه در انتظار مشتری خواهد بود) و البته فعالیت های پژوهشی و نگارش پایان نامه و مقاله، ضروری می باشد.

در اینجا قصد نداریم ویژگی های یک دیتاست خوب را بررسی کنیم چرا که پرداختن به این موضوع مهم به تنهایی احتیاج به نوشتاری دیگر دارد ولی اهمیت این مساله را به هیچ عنوان نباید فراموش کرد. چرا که، وجود مشکلات عدیده در یک دیتاست شامل فرایند نامناسب جمع آوری داده ها و عدم توزیع مناسب، وجود داده های مفقود (Missing Data) و مواردی از این دست بر کیفیت دیتاست و به تبع آن خروجی الگوریتم ها تاثیر به سزایی می گذارد. بر این اساس، در انتخاب دیتاست ها باید توجه کافی به خرج داده شود.

اگرچه زبان های برنامه نویسی معمولا به همراه خود نمونه دیتاست های خوبی را ارائه می کنند ( همانند کتابخانه های مختلف زبان R که به همراه خود دیتاست های متعددی را برای آزمایش روش ها در اختیار قرار می دهند)، دسترسی به مجموعه های کاملی از دیتاست ها می تواند خیال برنامه نویس ها را تا حدود زیادی راحت کند.

بر همین اساس، در این مقاله چند مجموعه مهم از دیتاست های معروف که می توانند در فرایندهای دیتا ساینس بسیار مفید واقع شوند را معرفی می کنیم.

 

مجموعه های داده ای دانشگاه کالیفرنیا - ارواین

این مجموعه را شاید بتوان یکی از کامل ترین و در عین حال معتبرترین مجموعه دیتاست ها دانست که با طبقه بندی مناسب مجموعه های داده ای برای کاربردهای مختلف، طیف گسترده ای از دیتاست ها را در اختیار پژوهگشران قرار می دهد.

معرفی دیتاست برای پروژه های داده کاوی و یادگیری ماشین

Kaggle

Kaggle به عنوان یکی از بزرگترین جامعه های مجازی در حوزه دیتا ساینس اطلاعات و ابزارهای قدرتمندی را به فعالان این حوزه ارائه می کند. دیتاست های جالبی که این مجموعه در اختیار پژوهشگران قرار می دهد می تواند برای انجام پروژه های مختلف راهگشا باشد. امکان جالب این مجموعه، قابلیت افزودن دیتاست هایی است که خود کاربران ایجاد کرده اند.

دیتاست های یادگیری ماشین

AWS Public Data sets

از مجوعه بزرگی مثل آمازون که مدعی فعالیت در بیشتر حوزه های مرتبط با فناوری است انتظار می رود که دیتاست های متنوعی را نیز در اختیار پژوهگشران قرار دهد. خوشبختانه، آمازون به این نیاز پاسخ داده  و مجموعه قابل توجهی از دیتاست ها در حوزه های مختلف را به صورت رایگان در اختیار برنامه نویس ها و پژوهشگران قرار داده است.  همانگونه که در شکل زیر هم مشاهده می کنید، در حال حاضر 250 دیتاست در این مجموعه در دسترس علاقه مندان می باشد.

دیتاست های یادگیری ماشین

علاوه بر موارد فوق، مجموعه دیتاست های گوگل (شکل زیر) و مجموعه دیتاست های ارائه شده در وب سایت datasciencedojo می تواند بسیاری از نیازهای ما را در تمرین و آزمایش الگوریتم ها و روش های یادگیری ماشین و دیتا ساینس مرتفع نماید.

دیتاست های یادگیری ماشین


محمد مرادی
محمد مرادی

پژوهشگر و تحلیلگر داده

کارشناس ارشد مهندسی نرم افزار، پژوهشگر، نویسنده، تحلیلگر داده و طراح وب. علاقه مند به یادگیری و به اشتراک گذاری آموخته ها.

نظرات