جشنواره تخفیف های جمعه سیاه
محمد نصیری
بنیانگذار انجمن تخصصی فناوری اطلاعات ایران ، هکر کلاه خاکستری ، کارشناس امنیت اطلاعات و ارتباطات

آشنایی با مفاهیم Crawler و Spider در موتورهای جستجو

به نظر شما چگونه است که موتورهای جستجو در عرض تنها چند میلی ثانیه میلیون ها وب سایت را جستجو می کنند و به ما نتیجه کار را نمایش می دهند ؟ آیا به محض اینکه شما کلید واژه ای را در موتور جستجو وارد کنید تمامی صفحات وب جستجو می شوند ؟ جواب این مسئله قطعا خیر است ، اگر چنین مسئله ای وجود داشت زمان پاسخگویی موتورهای جستجو به شدت بالا می رفت.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران
سرفصل های این مطلب
  1. Spider یا Crawler در SEO به چه معناست ؟

موتورهای جستجو در واقع تمامی صفحات موجود در اینترنت را برای شما در پایگاه داده خود ایندکس یا Index می کنند و بعد از اینکه شما جستجویی را انجام می دهید در واقع موتور جستجو در این پایگاه داده و صفحات ایندکس شده خود به دنبال نتیجه می گردد نه در وب سایت ها . اما سئوال اصلی اینجا پیش می آید که چگونه این صفحات در پایگاه داده های موتورهای جستجو قرار می گیرند و چگونه این پایگاه داده بروز می شود ؟ جواب این مسئله در واقع همان تعریفی است که ما از Spider ها یا Crawler ها می خواهیم در این مقاله ارائه دهیم.

آشنایی با مفاهیم Crawler و Spider در موتورهای جستجو

Spider یا Crawler در SEO به چه معناست ؟

یک Spider ، یک Crawler از نظر لغوی به معنی عنکبوت و خزیدن است. Spider ها یا Crawler ها هر دو در واقع یک چیز هستند ، آنها نرم افزار یا اسکریپت اتوماتیکی هستند که لینک های اینترنتی را به یک الگوریتم مشخص و هدفمند دنبال می کنند و به وب سایت های مختلف سر می زنند و محتوای موجود در صفحات وب سایت را برای پایگاه داده های موتورهای جستجو ایندکس می کنند تا این پایگاه داده همیشه به روز باشد. در واقع Crawler ها یک نوع روبات هستند که بصورت روزانه همین عملیات را انجام می دهند.

تمامی اسامی از قبیل Crawler ، Spider ، Web Spider ، Automatic Indexer همه و همه در واقع یک چیز هستند و تفاوتی با هم ندارند ، حتی اسامی ممکن است در موتورهای جستجوی مختلف متفاوت باشد برای مثال موتور جستجوی AltaVisat به Crawler خود Scooter می گوید . تمامی واژه هایی که در طبیعت مشاهده می کنید و در مباحث فنی مورد استفاده قرار می گیرد یک منشاء منطفی دارند ، زمانیکه ما صحبت از Spider و لینک ها می کنیم باید توجه کنیم که عنکبوت ها در طبیعت برای منتقل شدن از یک تار به یک تار دیگر از نخ ها یا لینک ها استفاده می کنند.

آشنایی با مفاهیم Crawler و Spider در موتورهای جستجو

Spider ها در موتورهای جستجو هم دقیقا به همین شکل عملی می کنند آنها فقط می توانند لینک ها را از صفحه ای به صفحه دیگر پیگیری کنند و از یک وب سایت به یک وب سایت دیگر بروند به این لینک های در اصطلاح SEO فید یا Feed گفته می شود ، این دقیقا همان نکته مهمی است که لینک هایی که به وب سایت شما انجام می شود در فرآیند سئو و عملکرد خود سایت شما در موتورهای جستجو تاثیر مستقیم دارند. لینک های مستقیم از وب سایت های دیگر به وب سایت شما به Spider ها تغذیه بهتری می دهد . هر چقدر بیشتر به شما لینک داده شود Spider ها بیشتر در وب سایت شما باقی می مانند و بیشتر از صفحات وب سایت شما بازدید می کنند.

موتور جستجوی گوگل برای ایجاد ایندکس ها و پایگاه داده جستجوگر خود وابسه به این Spider ها می باشد. Spider ها و Crawler ها از طریق لینک هایی که از سایر وب سایت ها به وب سایت شما داده شده است وارد صفحات وب سایت شما می شوند اما شما می توانید صفحات وب سایت خود را نیز بصورت دستی به این Spider ها و موتورهای جستجو معرفی کنید تا Spider های آن موتور جستجو به صفحه وب سایت شما مراجعه کنند. در صورتیکه می خواهید وب سایت خود را بصورت دستی در موتورهای جستجوی google و Bing ثبت کنید می توانید به مطلب مهندس پویا فضلعلی با عنوان معرفی سایت به موتورهای جستجو مراجعه کنید.

آشنایی با مفاهیم Crawler و Spider در موتورهای جستجو

البته در این حین یک نکته را نیز در نظر داشته باشید ، با اینکه این قابلیت که شما می توانید وب سایت خود را بصورت دستی به موتورهای جستجو معرفی کنید بسیار مفید است اما معمولا اینکار برای موتورهای جستجویی مثل google پیشنهاد نمی شود زیرا این موتورهای جستجوی اینترنتی بصورت خودکار وب سایت شما را پیدا می کنند و آنها را در خود ثبت می کنند هر چند برای Yahoo ممکن است اینکار به درستی انجام نشود. اینکار برای وب سایت شما از نظر سئو بسیار خوب است که در چندین موتور جستجوی مختلف وب سایت خود را ثبت کنید اما توجه کنید که موتورهای جستجوگری که دارای نرم افزار Spider و Crawler خوبی باشند نیازی به ثبت کردن وب سایت بصورت دستی ندارند.

بعد از اینکه Crawler های موتورهای جستجو لینک های موجود در وب سایت ها را برای پایگاه داده مربوطه Index کردند ؛ باید هر چند وقت یکبار این لینک ها را مجددا بررسی کنند و به همین دلیل مجبور هستند مجددا به لینک مربوطه سر بزنند. این سرکشی مجدد از لینک های وب سایت ها که Revisit نام دارد بر اساس یک سری خط مشی یا Policy انجام می شود. Policy هر موتورجستجوی اینترنتی ممکن است با Policy سایر موتورهای جستجو متفاوت باشد.

آشنایی با مفاهیم Crawler و Spider در موتورهای جستجو

Crawler ها کار آسانی ندارند و مشکلات متعددی در فرآیند عملکرد آنها ممکن است پیش بیاید که کاملا مرتبط با پیچیدگی ها و ویژگی های اینترنت دارد ، همین مسئله باعث می شود به روز نگه داشتن Index ها در پایگاه داده کار چندان آسانی نیز نباشد ، مهمترین ویژگی های اینترنت که باعث سخت شدن کار Crawler ها می شود به سه قسمت تقسیم می شوند.به دلیل حجم و تعداد زیاد صفحات وب در اینترنت سرعت و وهله های زمانی که صفحات تغییر می کنند بسیار زیاد است ، در این حین اضافه شدن صفحات به وب سایت های Dynamic را هم اضافه کنید که باعث سخت شدن و زمانگیر شدن عملیات Crawl می شود.

متنوع بودن لینک ها و URL های اینترنتی باعث می شود که Crawler ها برای هر یک از لینک های صفحات وب موجود در مجموعه خود اولویت بندی یا Prioritization انجام دهند. انجام عملیات اولویت بندی صفحات وب که بصورت مستقیم مربوط به ترتیب نمایش آنها در نتایج جستجو می باشد توسط چهار عدد Policy مخصوص Crawler ها انجام می شود که معمولا این Policy ها برای همه موتورهای جستجو یکسان هستند و تنها کمی تفاوت دارند ، این Policy ها به شرح زیر هستند :

  • خط مشی انتخاب یا Selection Policy : این Policy تعیین می کند که چه صفحاتی برای Crawl باید دانلود شوند؟
  • خط مشی بازدید مجدد یا Re-Visit Policy : این Policy تعیین می کند چه زمانی برای تغییرات صفحات وب باید بررسی شوند؟
  • خط مشی ادب یا Politeness Policy : این Policy تعیین می کند چگونه وب سایت ها Crawl شوند که Overload نداشته باشند؟
  • خط مشی موازی کاری یا Parallelization Policy : این Policy تعیین می کند چگونه Distributed Crawler ها هماهنگ باشند ؟

Crawler های موتورهای جستجو علاوه بر اینکه از Policy هایی که گفته شد برای اولویت بندی و به حداقل رساندن فرآیند انجام کار برای بهینه سازی استراتژی Crawling خود استفاده می کنند ، نیاز به یک معماری بسیار بهینه سازی شده برای کار خود نیز دارند. همین معماری بسیار قدرتمند و بسیار بهینه سازی شده است که باعث می شود سیستم های مورد استفاده در موتورهای جستجو قادر باشند میلیون ها صفحه وب را تنها در عرض چند هفته دانلود کنند و به لیست Index های خود اضافه کنند.

این معماری ممکن است به نظر کاربران ساده به نظر برسد اما باید پس زمینه کار را نیز دید. در یک Crawler حرفه ای که در موتورهای جستجو استفاده می شود ، هر صفحه وب ابتدا از اینترنت یا بهتر بگوییم از محیط World Wide Web جدا می شود و در یک نرم افزار downloader بسیار قوی قرار می گیرد. آدرس های URL ای که توسط این downloader دریافت می شوند در یک صف یا queue قرار می گیرند و بعد بصورت زمانبندی شده و اولویت بندی شده دانلود می شوند و به همراه متن و MEAT data ها در درون سیستم ذخیره سازی موتورهای جستجو قرار می گیرند. امروزه Crawler های حرفه ای در دنیا دیده می شود که مشهورترین و قدرتمند ترین آنها بدون شکر google crawler است . بدون استفاده از Search Engine Crawler ها یا همان Spider ها دیگر نه نتیجه ای در موتورهای جستجو به شما نمایش داده می شود و نه صفحه ای در این نتایج بروز رسانی می شود. امیدوارم مورد توجه شما دوستا قرار گرفته باشد. توسینسو باشید.


محمد نصیری
محمد نصیری

بنیانگذار انجمن تخصصی فناوری اطلاعات ایران ، هکر کلاه خاکستری ، کارشناس امنیت اطلاعات و ارتباطات

محمد نصیری هستم ، بنیانگذار انجمن تخصصی فناوری اطلاعات ایران و مجموعه توسینسو ، هکر قانونمند و کارشناس امنیت سایبری ، سابقه همکاری با بیش از 80 سازمان دولتی ، خصوصی ، نظامی و انتظامی در قالب مشاور ، مدرس و مدیر و ناظر پروژه ، مدرس دوره های تخصص شبکه ، امنیت ، هک و نفوذ ، در حال حاضر در ایران دیگه رسما فعالیتی غیر از مشاوره انجام نمیدم ، عاشق آموزش و تدریس هستم و به همین دلیل دوره های آموزشی که ضبط می کنم در دنیا بی نظیر هستند.

نظرات