
کلان داده چیست؟ منظور از داده های کلان یا Big Data چیست؟ Big data اصطلاحی است برای مجموعه داده های حجیم که بزرگ ، متنوع ، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، پردازشهای بیشتر یا نتایج میباشد. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها ، تجزیه و تحلیل big data نامیده میشود.
این اطلاعات مفید برای سازمانها وشرکتها در جهت کسب بینش غنی تر و عمیق تر و موفقیت در رقابت کمک میکند. به همین دلیل اجراهای big data نیاز دارند تا در صورت امکان ، تحلیل شوند و به طور دقیق اجرا شوند. این گزارش خلاصه ای از محتوای big data ، هدف ، مثالها ، روشها ، منافع و چالش ها ارائه میدهد و در خصوص نگرانیهای حفظ حریم خصوصی در big data بحث میکند.
Big data و تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهای online ، email ها ، ویدئوها ، صوتها ، کلیک کردن ها ، log ها و ارسالها ، درخواستهای جستجو ، یادداشتهای درست ، تعاملات شبکه های اجتماعی ، داده های علمی ، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. آنها بر روی پایگاه داده ها که به شکل حجیم رشد میکنند ، ذخیره میشوند و ضبط ، شکل دهی ، ذخیره سازی ، مدیریت ، به اشتراک گذاری ، تحلیل و نمایش آنها از طریق ابزارهای نوعی نرم افزار پایگاه داده ها ، دشوار میشود.
پنج اگزا بایت (10 به توان 18 بایت) دیتا تا سال 2003 به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال 2012 داده های دنیای دیجیتال به 2.72 زتا بایت ( 10 به توان 21 بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود 8 زتا بایت داده در سال 2015 میرسیم.
IBM نشان داد که هر روز 2.5 اگزا بایت داده تولید میشود و همچنین %90 از داده ها در 2 سال اخیر تولید شده است. یک کامپیوتر شخصی حدود 500 گیگا بایت (10 به توان 9 بایت) داده نگه میدارد ، بنابراین برای ذخیره سازی همه داده های دنیا به حدود 20 میلیارد PC نیاز است.
در گذشته پروسه آشکارسازی ژنهای بشر تقریباً 10 سال وقت میگرفت ، هم اکنون بیشتر از یک هفته نمیشود. داده های چند رسانه ای وزن بزرگی در ترافیک اینترنت دارند و انتظار میرود به %70 در سال 2013 افزایش یابد. فقط google بیش از یک میلیون سرور در دور جهان دارد. 6 میلیارد اشتراک موبایل در دنیا وجود دارد و هر روز 10 میلیارد متن پیام (message) ارسال میشود. در سال 2020 ، 50 میلیارد دستگاه به شبکه ها و اینترنت متصل خواهند بود.
در سال 2012 مواجهه بشر با big data به عنوان یک پروژه جهانی انجام شد با مرکزیت مجموعه ای بلادرنگ که مقدار بزرگی از داده ها را نمایش میدهد و تحلیل میکند. بر اساس این پروژه خیلی آمارها نتیجه گرفته شد. Facebook ، نهصد و نود و پنج میلیون حساب کاربری فعال ماهانه با 70 زبان دارد ، 140 میلیارد تصویر آپلود شده است ، 125 میلیارد اتصالات دوستها و روزانه 30 میلیارد قطعه های با محتوا و 2.7 میلیارد like و comment ارسال میشود.
هر دقیقه 48 ساعت ویدئو آپلود میشود و هر روز 4 میلیارد view در YouTube اجرا میشود. Google خدمات بسیاری را پشتیبانی میکند از جمله 7.2 میلیارد page را هر روز مونیتور میکند و همچنین 20 پتا بایت (10 به توان 15 بایت) داده را روزانه به 66 زبان ترجمه میکند.
یک میلیارد Tweet هر 72 ساعت از بیشتر از 140 میلیون کاربر فعال در Twitter داریم. 571 وبسایت جدید در هر دقیقه ساخته میشود. در حدود دهه بعد ، تعداد اطلاعات 50 برابر افزایش پیدا خواهد کرد اما تعداد متخصصان تکنولوژی اطلاعات که همه آن اطلاعات را کنترل میکنند ، 1.5 برابر افزایش پیدا خواهد کرد.در قسمت 1 پیامدهای اساسی ، مزایا ، چالشها ، بررسی نتایج ، مثالها ، روشها و اکتشاف دانش از big data ارائه داده شده است و در قسمت 2 پیامدهای مهم در پیامدهای امنیتی بازبینی میشود و قسمت 3 مزایا ، موانع بالفعل ، چالشها و موانع big data را ارائه میدهد و قسمت 4شامل کارها میباشد.
در این قسمت پیامدهای مهم بازبینی میشوند و در بخشهای مختلف شرح داده میشوند.
1-1.پیامد های مهم
Big Data به یک گام چرخشی رو به جلو از تحلیل داده های سنتی نیاز دارد که با سه مؤلفه اصلی اش توصیف میشود: variety (تنوع یا گوناگونی) ، volume (حجم) ، velocity (سرعت).
برخی سؤال و جوابهای مهم وجود دارد که در زیر خلاصه شده است که توسط مؤسسه TDWI جهت مدیریت حرفه ای داده ، پرسیده شده و مورد بررسی قرار گرفته است.
همانطور که از بررسی ها دیده میشود ، تجزیه و تحلیل داده های حجیم هنوز به توجه بیشتر نیاز دارد. تجزیه و تحلیل داده های حجیم متواند به صدها سرور نیاز داشته باشد که با نرم افزار موازی به شکل انبوه اجرا میشود. آن چیزی که داده های حجیم را جدا از تنوع و حجم و سرعت آن واقعاً متمایز میکند، پتانسیل تحلیل آن برای آشکارسازی بینش های جدید جهت بهینه سازی تصمیم گیری است.
نمونه های واقعاً در دسترس از داده های حجیم عبارتند از : در ستاره شناسی ، علوم جوی ، ژنومیک(علم تجزیه وتحلیل داده های ژنتیکی) ، بیوژئوشیمی (شیمی زیستی جغرافیایی) ، علوم و تحقیقات زیستی ، دولت ، حوادث طبیعی ، منابع مدیریت ، بخش خصوصی ، مراقبت نظامی ، خدمات مالی ، جزئیات ، شبکه های اجتماعی ، وبلاگها ، متون ، اسناد ، عکاسی ، صوت ، ویدئو ، جریان کلیک کردن ، جستجو ، اندیس گذاری ، سوابق جزئیات تماس ، اطلاعات اعتباری ، شناسایی فرکانس رادیویی(RFID) ، تلفنهای همراه ، شبکه های حسگر و ارتباطات از راه دور. سازمانها در هر صنعتی که دارای داده های حجیم هستند ، میتوانند از تحلیل های دقیق خود در کسب بینش و دقیق بینی جهت حل مشکلات واقعی نفع ببرند.مؤسسه جهانی McKinsey پتانسیل داده های حجیم را در 5 موضوع اصلی مشخص کرده است:
Web همچنین نوعی از فرصت ها را برای داده های حجیم فراهم میکند. به عنوان مثال ، تحلیل شبکه های اجتماعی جهت درک هوش کاربر برای تبلیغات هوشمندتر ، کمپینهای بازاریابی و برنامه ریزی ظرفیت ، رفتار مشتری و الگوهای خرید و همچنین تجزیه و تحلیل احساسات. بر اساس این استنتاجها، شرکتها محتوای خود را و تدبیر توصیه خود را بهینه سازی میکنند. برخی از شرکتها نظیر گوگل و آمازون، مقالات مربوط به کار خود را چاپ میکنند. با الهام از نوشته های چاپ شده ، توسعه دهندگان تکنولوژی های مشابهی نظیر نرم افزارهای open source از قبیل Lucene ، Solr ، Hadoop و HBase را توسعه دادند.
Facebook ، Twitter و LinkedIn یک قدم جلوتر رفتند بدین شکل که پروژه های open source را برای داده های حجیم را چاپ کردند. مثل Cassandra ، Hive ، Pig ، Voldemort ، Storm ، IndexTank.علاوه بر این ، تجزیه و تحلیل های پیش گویانه بر روی جریان ترافیک و یا شناسایی خلافکارها و تهدید کردن از طریق ویدئوهای مختف و صدا و بازخورد های داده از مزایای داده های حجیم هستند.در سال 2012 دولت اوباما اعلام کرد در طرحهای Big Data بیش از 200 میلیون دلار در تحقیق و توسعه برای بنیاد ملی علوم ، مؤسسه ملی بهداشت ، وزارت دفاع ، وزارت انرژی ، سازمان زمین شناسی ایالات متحده ، سرمایه گذاری شده است. این سرمایه گذاریها برای کسب یک گام رو به جلو در ابزارها و روشها برای دستیابی ، سازماندهی و جمع آوری یافته ها از حجم زیادی از داده های دیجیتال ، انجام شده است.
اکثر شرکتها با مقدار زیادی داده های جدید که در اشکال مختلف بسیاری دریافت میشوند ، روبرو هستند. Big Data این پتانسیل را دارد که بینش هایی ایجاد کند که میتوند هر کسب و کاری را دگرگون کند. Big Data یک صنعت کاملاً جدید از معماری های پشتیبانی کننده نظیر MapReduce ایجادکرده است. MapReduce یک framework برنامه نویسی است برای محاسبات توزیع شده که به وسیله Google تولید شده و از روش تقسیم و غلبه استفاده میکند جهت درهم شکستن مسائل داده های حجیم مختلط به بخشهای کاری کوچک و پردازش موازی آنها. MapReduce میتواند به 2 مرحله تقسیم شود:
Hadoop با الهام از جدول بزرگ(Big Table) که سیستم ذخیره سازی داده های google است ، سیستم فایل google و MapReduce به وجود آمد. Hadoop یک framework مبتنی بر جاوا و سکوی متن باز ناهمگون (heterogeneous open source platform) است. Hadoop جایگزینی برای database ، انبار (warehouse) یا استراتژی ( Extract , Transform , Load ) نیست.
Hadoop شامل یک سیستم فایل توزیع شده ، تجزیه و تحلیل و سکوی ذخیره سازی داده میباشد و یک لایه ای که محاسبات موازی، گردش کار و مدیریت پیکربندی را اداره میکند. Hadoop برای پردازش رویدادهای مختلط بلادرنگ مثل رشته ها طراحی نشده است.( HDFS (Hadoop Distributed File System یا سیستم فایل توزیع شده Hadoop ، درمیان گره ها در یک خوشه Hadoop ، اجرا میشود و سیستمهای فایل تعدادی داده ورودی و خروجی را به هم متصل میکندتا آنها را به صورت یک سیستم فایل بزرگ درست کند.همانطور که در شکل زیر می بینید ، Hadoop ارائه میدهد:
سیستم HPCC یا کلاسترهای محاسباتی با سرعت بالا ، سکوی محاسباتی متن باز متمرکز داده ها را توزیع میکند و خدمات مدیریتی جریان کار داده های حجیم را فراهم می آورد. بر خلاف Hadoop ، مدل داده ای HPCC به وسیله کاربر تعریف میشود. کلیدی برای مشکلات پیچیده که میتواند به راحتی توسط زبان ECL سطح بالا شرح داده شود. HPCC تضمین میکند که ECL در حداکثر زمان سپری شده ، انجام شود و نودها به شکل موازی پردازش شوند. بعلاوه سکوی HPCC به ابزارهای بخش ثالث نظیر GreenPulm ، Cassandra ، RDBMS ، Oozie و ... نیاز ندارد.سه مؤلفه اصلی HPCC:
شکل صفحه قبل مقایسه بین سکوی سیستمهای HPCC و Hadoop را از نظر معماری و استک نشان میدهد. بر اساس منابع ، تفاوتها در زیر خلاصه شده است:
کشف دانش از داده های حجیم عبارت است از تعدادی عملگر که برای دریافت اطلاعات از مجموعه های داده پیچیده ، طراحی شده اند.رئوس کلی اکتشاف دانش از داده های حجیم:
رفرنس 6 ، کشف دانش از داده های حجیم با استفاده از Hadoop را در 3 اصل تحلیل میکند که عبارتنداز:
1) کشف دانش از داده ها ، شامل روشهای تحلیلی متنوعی میباشد مانند برنامه نویسی توزیع شده، الگوشناسی ، داده کاوی ، پردازش زبان طبیعی ، تجزیه و تحلیل احساسات ، تجزیه و تحلیل آماری و تصویری و تعاملات کامپیوتری بشر. بنابراین معماری باید روشهای تحلیل ومتدهای متنوعی را پشتیبانی کند.
2) یک معماری KDD جامع باید نگهداری و به کار انداختن خط پردازش را تأمین کند.
3) این یک اصل است که نتایج ساده و در دسترس باشند. به همین دلیل ، روشهای زیر جهت رسیدن به این موضوع ، استفاده میشوند:
در May 2012 مرکز فناوری اطلاعات Intel ، 200 مدیر IT در شرکتهای بزرگ را بررسی کرد تا بفهمد آنها چگونه تجزیه وتحلیل Big Data را انجام میدهند. آنها پرسیدند که مدیران IT به چه استانداردهایی جهت تجزیه و تحلیل Big Data علاقه مند هستند و جوابها بودند: امنیت داده ها ، تکنولوژی نگهداری داده های خصوصی کاربران ، شفافیت داده ها ، تعیین معیار عملکرد ، داده ها و قابلیت همکاری سیستم.
پاسخهایی وجود داشت که در مورد عرضه کنندگان ابر شخص ثالث ، نگران بودند. نگرانیهای امنیت داده ها وحریم خصوصی و خط مشئ شرکت ، از برون سپاری ذخیره سازی داده ها و تجزیه و تحلیلها جلوگیری میکند و در کل، هزینه ها و من تجزیه و تحلیل داده ها را درخانه انجام میدهم و در مورد برون سپاری ، برنامه ریزی نمیکنم. بر این اساس دغدغه های معمول درباره امنیت را بررسی میکنیم.
با توجه به خرابی های محیط های دفاعی سنتی به همراه توانایی های حمله کننده ها به نجات از سیستمهای امنیتی سنتی ، لازم است سازمانها ، یک مدل امنیتی هوشمند اتخاذ کنند که دورتر از خطر، متنی و سریع باشد . امنیت هوشمندی که مبتنی بر تجزیه و تحلیل داده های حجیم است. داده های حجیم ، شامل هر دو مورد وسعت منابع و عمق اطلاعات میباشد که مورد نیاز برنامه هاست جهت مشخص کردن خطرات، به طور دقیق و حمایت کردن در مقابل فعالیتهای غیر مجاز و تهدیدات سایبری پیشرفته. یک مدل امنیتی مبتنی بر داده های حجیم ، دارای مشخصه های زیر میباشد:
با توجه به رفرنس 5 ، چگونگی توسعه یک روش جامع و مطمئن برای داده های حجیم عبارت است از:
از طریق نگهداری داده ها در یک مکان ، یک هدف برای حمله کننده ها جهت خرابکاری در سازمان ایجاد میشود. این نیاز دارد که انبارهای داده های حجیم به درستی کنترل شوند. جهت تضمین تصدیق ، یک framework ارتباط امن رمز شده اجرا میشود. کنترلها باید اصل امتیاز کاهش را استفاده کنند مخصوصاً برای قوانین دسترسی به جز برای یک مدیر (administrator) که اجازه دسترسی فیزیکی به داده ها را دارد.
برای کنترلهای دسترسی مؤثر ، آنها باید به طور ممتد مشاهده شوند و تغییر داده شوند. مانند تغییر نقشهای کارمندان سازمان. بنابراین کارمندان ، حقوق افراطی که میتواند مورد سوء استفاده قرار گیرد ، جمع نمیکنند. دیگر روشهای امنیتی ، نیاز به ضبط و تجزیه و تحلیل ترافیک شبکه دارند.
از قبیل فرا داده ، گرفتن بسته ، جریان و ورود اطلاعات به سستم. سازمانها باید سرمایه گذاری در محصولات امنیتی را با استفاده از تکنولوژی های سریع مبتنی بر تجزیه و تحلیل تجهیزات غیر ایستا ، تضمین کنند. مشکل دیگر مربوط به سازماندهی منطبق با قوانین حفاظت از داده ها میباشد. سازمانها باید برای ذخیره سازی داده ها ، انشعابات حقوقی را در نظر داشته باشند.
به هر جهت ، داده های حجیم ، مزایای امنیتی دارند. زمانیکه سازمانها دانش را طبقه بندی میکنند، آنها داده را بطور خاص از طریق مقررات کنترل میکنند. نظیر تحمیل دوره های ذخیره سازی. این به سازمانها اجازه انتخاب داده ای را میدهد که نه مقدار کوچک دارد و نه هیچ نیازی به نگهداری. بطوریکه به طور طولانی جهت سرقت در دسترس نیست. مزیت دیگر این است که داده های حجیم میتواند از تهدیدهایی نظیر شواهدی از نرم افزارهای مخرب ، ناهنجاریها یا دزدی های اینترنتی درامان باشد.
حجم داده ها افزایش پیدا کرده است وتجزیه و تحلیل مجموعه داده ها ، رقابتی تر شده است. چالش فقط جمع آوری و مدیریت حجم وسیعی از انواع مختلفی از داده نیست ، بلکه استخراج ارزش معنادار از داده است. همچنین نیاز است به مدیران و تحلیلگرانی با بینش عالی از اینکه چگونه میتوان داده های حجیم را به کار برد. شرکتها باید در بکارگیری برنامه ها شتاب کنند درحین اینکه سرمایه گذاری های قابل توحهی در آموزش و پرورش پرسنل کلیدی انجام دهند.
با توجه به نتایج تجزیه وتحلیل داده های بزرگ توسط TDWI ، مزایای داده های حجیم عبارتند از: بازاریابی هدفمندتر ، بینش درون بینی کسب و کار بطور صریح تر ، تقسیم بندی مبتنی بر مشتری ، تشخیص فروشها و شانس بازار ، خود کاری سازی تصمیم گیری ، تعریف رفتارهای مشتری ، بازگشت بیشتر سرمایه گذاری ، تعریف خطرها و روند بازار ، فهم تغییر تجارت و کسب و کار ، برنامه ریزی و پیش بینی بهتر ، شناسایی رفتار مصرف کننده از جریان کلیک و گسترش عملکرد تولید.
بعلاوه ، TDWI موانع بالقوه تجزیه وتحلیل داده های حجیم را ارائه داده است. مانند چیزهای غیر متخصص و عدم توانایی در یافتن کارشناسان داده های حجیم جهت بکارگیری ، هزینه ، محرومیت از ضمانت و حمایت از کسب و کار ، سختی طراحی سیستمهای تجزیه و تحلیل ، فقدان نرم افزار پایگاه داده فعلی در زمینه تجزیه و تحلیل و زمان پردازش سریع ، مشکلات مقیاس پذیری ، ناتوانی در ساخت داده های حجیم قابل استفاده برای کاربران نهایی ، بارگذاری داده ها در نرم افزار پایگاه داده فعلی سریع نیست ، فقدان مورد کسب وکار قانع کننده.بر اساس نتایج مرکز فناوری اطلاعات تجزیه و تحلیل داده های حجیم Intel ، چالش های متعددی برای داده های حجیم وجود دارد:
رشد داده ها ، زیرساخت های داده ، سیاست داده ها ، اجتماع داده ها ، سرعت داده ها ، تنوع داده ها ، مقررات یا انطباق داده ها ، تجسم داده ها(تصویرسازی).بعلاوه ، مرکز فناوری اطلاعات Intel ، موانع داده های حجیم را مشخص کرده است: نگرانیهای امنیتی ، هزینه های عملیاتی ، افزایش گلوگاه های شبکه ای ، کمبود متخصصان ماهر علم اطلاعات ، نرخ داده غیر قابل کنترل و مدیریت ، قابلیت تکرار داده ها ، نبود قابلیت های متراکم سازی رکود شبکه ای بزرگتر و نارسایی قدرت پردازنده. با وجود موانع بالقوه و چالشهای داده های حجیم ، Big Data هم اکنون و همچنین در آینده از اهمیت زیادی برخوردار خواهد بود.
در این بازبینی ، یک نمای کلی از محتوای داده های حجیم ، حوزه ، نمونه ها ، روشها ، مزایا ، چالشها و بحث های نگرانی های حریم خصوصی مرور شده است .نتایج نشان دادند که حتی اگر داده ها و ابزارها و تکنیکها واقعاً در دسترس باشند ، نکات بسیاری جهت رسیدگی ، بحث ، بهبود ، توسعه ، تجزیه و تحلیل و ... وجود دارند.گذشته از این ، موضوع فهم حفظ حریم خصوصی و امنیت داده های حجیم ، پیامد بزرگی است که در آینده بیشتر بحث خواهد شد.
بیگ دیتا یا کلاه داده در واقع به روشی برای تجزیه و تحلیل کردن سیستماتیک و خارج کردن اطلاعات از داده هایی است که آنقدر حجیم و زیاد هستند که با سیستم های سنتی پردازش داده و نرم افزارهای سنتی پردازش داده امکان تجزیه و تحلیل و خروج اطلاعات از آنها وجود ندارد
حجم بیگ دیتا می تواند تا یک زتابایت ( Zettabyte ) برسد که یعنی هزار به توان هفت یا عددی معادل (1,000,000,000,000,000,000,000 ) بایت داده ...
زمان پاسخ گویی روز های شنبه الی چهارشنبه ساعت 9 الی 18
فقط به موضوعات مربوط به محصولات آموزشی و فروش پاسخ داده می شود