کاظم تقندیکی
استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

داده کاوی چیست؟ مروری کوتاه بر بحث Data Mining به زبان ساده

داده کاوی یا Data Mining چیست و چه کاربردهایی دارد؟ داده کاوی زیر مجموعه از کاربردهای فیلد علم داده می باشد که امکان استخراج اطلاعات با اهمیت (دانش) را از دل داده های حجیم فراهم می آورد. از آنجا که تکنیک های داده کاوی بر روی داده های ساختار یافته مانند پایگاه داده ها تمرکز دارد به آن روش استخراج دانش از پایگاه داده یا به اختصار KDD نیز گفته می شود. از جمله اصطلاحات دیگری که برای داده کاوی به کار گرفته می شود عبارتست از استخراج دانش و استخراج اطلاعات.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

داده کاوی

کاربردهای داده کاوی

بسیاری از شرکت‌ها و موسسات دارای حجم زیادی از داده های خام می باشند که اگر بتوانیم تکنیک‌ها و الگوریتم های مختلف داده‌کاوی را بر روی آن ها بکار بگیریم ما را به نتایج جالبی در راستای اهداف یک شرکت و سازمان می رساند. به عنوان مثال با استفاده از الگوریتم های داده کاوی بر روی پایگاه داده یک فروشگاه می‌توان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند؟ فروش کدام محصولات به صرفه نمی باشد؟ مشتریان هر منطقه علاقه مند به خرید چه محصولاتی می باشند؟ و ... نیز پاسخ داد.  لازم به ذکر است که فیلد علم داده یکی از جذابترین شغل ها در قرن 21 می باشد.

یکی از کاربردهای خیلی مهم داده کاوی استفاده از آن برای تأمین امنیت ملی می باشد. با استفاده از الگوریتم های داده کاوی به راحتی می توان فعالیت‌های افراد خرابکار شامل جابه جایی پول و ارتباطات بین آن‌ها را شناسایی کرد. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود، موفقیت داده کاوی در گرو بهره‌گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توانایی کافی برای طبقه‌بندی تحلیل‌ها و تغییر آن‌ها برخوردار هستند.

بهره‌برداری از داده کاوی در دو بخش دولتی و بخش خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت. و بازاریابی آن را عموماً برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بوده‌است اما امروزه دامنه بهره‌برداری از آن گسترش روزافزونی یافته و سنجش و بهینه‌سازی برنامه‌ها را نیز در بر می‌گیرد. بررسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تأمین امنیت ملی به کار می‌روند، نشان دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند.

الگوریتم های یادگیری ماشین استفاده شده در داده کاوی:

یادگیری ماشین عموماً به دو دسته یادگیری بانظارت و بدون نظارت تقسیم می شود، که در دسته بانظارت هدف پیش بینی و دسته بندی متغییرهای گسسته و پیوسته با دو روش Classification و Regression می باشد. همچنین الگوریتم های بدون نظارت نیز به دو دسته Clustring و Association تقسیم شده که هدف آن طبقه بندی داده ها برحسب شباهت و کشف رابطه ها به متغییر های مختلف می باشد. در ادامه بیشتر توضیح داده ایم:

داده کاوی برای کشف اطلاعات و دانش های پنهان از دل داده های بزرگ، معمولاً از الگوریتم های یادگیری ماشین استفاده می کند، از جمله این الگوریتم ها در ادامه ذکر شده اند.

  • الگوریتم های قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ.
  • الگوریتم های ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد همیشه خرید پوشک را در پی دارد.
  • الگوریتم های پیش‌بینی(Prediction): هدف استفاده از این الگوریتم ها، پیش‌بینی یک متغیر پیوسته می‌باشد. مانند پیش‌بینی نرخ ارز یا هزینه‌های درمانی.
  • الگوریتم های رده‌بندی یا طبقه‌بندی (Classification): هدف استفاده از این الگوریتم ها، پیش‌بینی مقدار یک متغیر گسسته‌است. مانند پیش بینی جنسیت یک نوزاد متولد شده.
  • الگوریتم های خوشه‌بندی (Clustering):هدف گروه‌بندی مجموعه‌ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند.
  • الگوریتم های مصورسازی (visualization): این الگوریتم های امکان مصورسازی نتایج و دانش های کشف شده را می دهد.

از جمله ابزارهایی که برای داده‌کاوی می توان استفاده نمود، عبارتند از:

  1. زبان برنامه نویسی R
  2. زبان برنامه نویسی پایتون
  3. نرم افزار رپیدماینر
  4. نرم‌افزار وکا
  5. نرم افزار متلب

کاظم تقندیکی
کاظم تقندیکی

استاد دانشگاه فني و حرفه اي و مجری پروژه های علم داده (داده کاوی، یادگیری ماشین، پردازش زبان طبیعی و ...)

استاد دانشگاه فنی و حرفه ای، فعال در حوزه های علم داده، يادگيري ماشين، داده کاوی، بازیابی اطلاعات، متن کاوی و پایگاه داده ها با بیش از صد ساعت تدریس آنلاین و صدها پروژه موفق در حوزه علم داده، برای آموزش يا سفارش انجام پروژه با شماره 09157202653 (واتس اپ، تلگرام و تماس تلفنی) و ایمیل taghandiky@gmail.com در تماس باشید.

نظرات