Data Deduplication اغلب به نام های Intelligent Compression(فشرده سازی هوشمند) و یا Single-Instance storage(اینو واقعا نمیتونم معادل فارسیشو پیدا کنم!) نیز مشهور است. Data deduplication فرآیندی است که از افزونگی ناشی از کپی شدن اطلاعات تکراری و در نهایت از overhead شدن دستگاه های ذخیره سازی اطلاعات جلوگیری به عمل می آورد. تکنیک Data deduplication از این اطمینان حاصل میکند که تنها یک نمونه از داده یا همان Data در دستگاه ذخیره سازی اطلاعات یا مدیا ( دیسک ، فلش مموری ، tape و ... ) نگهداری شده است. بلوک های اطلاعاتی redundant شده جایگزین یک نمونه اصلی و اولیه ی ساخته شده اطلاعات میشوند. تصویر زیر بخوبی مفهوم آنچه که گفتم را بیان میکند :
اگر با روش بکاپ گیری به طریق Incremental یا افزایشی آشنایی دارید مکانیزم کاری data Deduplication به طور تنگاتنگی با Incremental Backup مطابقت دارد، که تنها داده هایی که تغییر یافته جایگزین backup قبلی میشود و کل اطلاعات بکاپ تحت تاثیر قرار نمی گیرد.برای مثال یک سیستم email به طور معمول ممکن است شامل 100 نمونه از فایل هایی باشد که هر کدام مانند هم 1 مگابایت حجم دارند و عینا مانند هم هستند و هیچ تفاوتی در محتوای آنها وجود ندارد.
در حین اگر از email هایمان بکاپ یا آرشیو گرفته شود کل 100 نمونه باید ذخیره شود که نیازمند 100 مگابایت فضای ذخیره سازی میباشد.با بکارگیری Data Deduplication تنها یک نمونه از آن همه فایل های یکسان ذخیره می شود با یک حساب سرانگشتی ما 99 مگابایت در فضای ذخیره سازی مان صرفه جویی کردیم.حال این تنها یک مثال کوچک بود اما اگر در محیط های Enterprise که از فضاهای ذخیره سازی بسیار کلان استفاه میکنند این شرایط پیش بیاید بدون شک هزینه های یک سازمان را برای فراهم سازی فضای ذخیره سازی افزایش میدهد.
فرآیند Data Deduplication میتواند در دو سطح Source-based dedupe و Target-based dedupe اتفاق بیفتد که به توضیح هر یک میپردازیم ...
دو متد اصلی برای Deduplicate کردن برای داده های Redundant شده وجود دارد که عبارتند از Inline Deduplication و Post-processing Deduplication
در محیط های عملیاتی Backup گیری از اطلاعات به شما به طور وضوح مشخص میکند که از کدام یک از این دو نوع تکنیک استفاده کنید.
Data deduplication میتواند در دو سطح Block Level و File Level عمل کند :
Hash collisions یک مشکل اساسی در فرآیند deduplication است. وقتی تکه ای از یک داده یک شماره Hash منحصر بفرد را بخود اختصاص میدهد آن hash با hash ]ای دیگر در داخل index مقایسه میشود،اگر آن شماره hash در index موجود بود آن تکه از داده duplicate در نظر گرفته شده و نیاز به ذخیره سازی مجدد آن نمیباشد.بر خلاف این قضیه،hash نامبر جدید در index اضافه میشود و داده جدید ذخیره میشود. در موارد نادر Hash نامبر تولید شده برای دو chunk از داده یکسان ایجاد میشود در این حین اگر فرآیندHash Collision رخ دهد سیستم داده جدید را ذخیره نمیکند
زیرا سیستم اینگونه در نظر میگیرد که دو Hash نامبر هم اکنون در index وجود دارد و نیاز به ذخیره سازی داده جدید نیست. این اتفاق بد data loss را برایمان به وجود می آورد.تعدای از Vendor ها از الگوریتم های Hash ترکیبی استفاده میکنند تا از فرآیند hash collision تا حد مناسبی جلوگیری به عمل آورند. این کار باعث بالارفتن امنیت در ذخیره سازی داده ها هم میشود . همچنین تعدای از Vendor ها metadata ها را بررسی می کنند تا داده ها را تمیز دهند و از وقوع collisions جلوگیری کنند.
مدیر ارشد وب سایت توسینسو و مدرس و متخصص سرویس های مایکروسافت
امیرحسین کریم پور هستم ، مدیر ارشد وب سایت توسینسو ، متخصص در حوزه سیستم عامل های کلاینت و سرور شرکت مایکروسافت و سرویس های مربوطه ، سیستم عامل لینوکس ، مجازی سازی سرور ، فایروال و ... سابقه کار با سازمان ها و شرکت های مختلف در زمینه سرویس های مایکروسافت در قالب پروژه ، مشاوره و آموزش. علاقه مند به حوزه امنیت اطلاعات و تست نفوذ سنجی
زمان پاسخ گویی روز های شنبه الی چهارشنبه ساعت 9 الی 18
فقط به موضوعات مربوط به محصولات آموزشی و فروش پاسخ داده می شود