وب کراولر

خزش یا کراول (Crawl) چیست؟ کراولر چه کار میکند؟

خزش یا کراول شباهت‌هایی به زندگی زیرزمینی موش‌ها داره. اون‌ها توی شبکه‌های فاضلاب زندگی می‌کنند‌ و از همه قسمت‌های فاضلاب رد میشن. اگه موش‌ها موجودات هوشمندی بودند، بخاطر رفت و آمدهایی که توی مسیر فاضلاب دارند، میتونستند نقشه شبکه فاضلاب رو به صورت کامل حفظ کنند تشخیص بدن هر دریچه به کدوم کوچه، خیابون یا حتی خونه باز میشه! 

کراولرها یا خزنده‌ها هم مثل موش‌هایی هستند که توی شبکه اینترنت می‌چرخند، سایت‌های مختلف رو بررسی می‌کنند، از لینک‌هایی که توی هر صفحه هست، به سایت‌ها یا صفحه‌های دیگه راه پیدا می‌کنند و خلاصه که به سراسر وب دسترسی دارند. این موش‌های هوشمند، اطلاعاتی که به دست میارن رو آرشیو می‌کنند.

نتیجه خزش یا کراول کردن اینه که موتورهای جستجو اطلاعات سایت‌های مختلف رو در اختیار دارند و می‌تونند بر اساس الگوریتم‌ها، دسته‌بندیش کنند. بنابراین وقتی کاربر عبارتی رو سرچ می‌کنه، بهترین نتیجه رو بهش نشون می‌دن. توی این مقاله از میزفا تولز بررسی می‌کنیم خزش چطور انجام میشه و چطوری می‌تونیم توجه کراولرها رو به سایتمون جلب کنیم و به رتبه‌های اول سرپ (SERP) برسیم.

راستی شما که دارید این مقاله رو میخونید حتما باید میزفا تولز رو بشناسید و یا اگر درباره سئو کمی بیشتر تحقیق کرده باشید حتما اسم ما رو شنیدید. میزفا تولز یک ابزار جامع سئو ایرانی هست که خدمات مختلفی در زمینه بهینه‌سازی سایت و سئو به متخصصین سئو و مدیران سایت‌ها ارائه می‌ده. به کمک این ابزار سئو متوجه می‌شید توی کلمات کلیدی مختلف چه جایگاهی دارید و آمار و ارقام و ورودی‌های سایتتون به چه صورته. بر این اساس، می‌تونید برای رسیدن به جایگاه‌های بهتر برنامه‌ریزی کنید و نتایجی که به دست میارید رو بسنجید.

خزش یا کراول چیست؟

وقتی برنامه‌ها و اسکریپت‌های خودکار داده‌های موجود توی سایت‌ها رو ایندکس می‌کنند، می‌گیم خزش یا کراول انجام شده. بهتره با مثال این مفهوم رو بهتر توضیح بدیم. یه دایره‌المعارف جامع رو تصور کنید که توی اون اطلاعاتی با موضوع‌های مختلف نوشته شده. وقتی دنبال موضوع خاصی می‌گردید، کل صفحه‌های کتاب رو نمی‌خونید. شما اول به فهرست مراجعه می‌کنید، موضوع مورد نظرتون رو پیدا می‌کنید و شماره صفحه‌ای که درباره این موضوع نوشته رو می‌بینید. بعد سراغ همون صفحه می‌رید تا اطلاعات مورد نیازتون رو به دست بیارید.

کراولینگ چیست؟

اگه وب رو یه دایره‌المعارف در نظر بگیریم، کراولرها وظیفه فهرست‌بندی این دایره‌المعارف رو برعهده دارند. موتورهای جستجو هم عبارت مورد نظر کاربر رو با چیزی که کراولرها فهرست کردند، مطابقت می‌دن و بهترین نتیجه رو به کاربر نشون می‌دن.

هدف اصلی کراول یا خزش وب‌سایت‌ها، درک محتوای صفحه‌های سایت و ارائه اون‌ها به کاربرهاییه که بهش نیاز دارند.

اصطلاحات مربوط به خزش یا کراول

برای کار کردن با گوگل و بهینه‌سازی سایت برای موتورهای جستجو، لازمه که با یه سری اصطلاحات آشنا باشید. توی این مقاله درباره اصطلاحات مربوط به خزش یا کراول صحبت می‌کنیم. این اصطلاحات معمولا معادل فارسی ندارند و توی زبان فارسی هم با همون واژه انگلیسیشون شناخته می‌شن.

کراولر (Crawler)

کراولر یا خزنده، ربات‌هایی هستند که وظیفه خزش در سایت‌ها و ایندکس کردن محتوای اون‌ها رو برعهده دارند. توی قسمت‌های بعدی توضیح می‌دیم که این کار رو چطوری انجام میدن.

بودجه خزش (Crawl budget)

بودجه خزش به معنی تعداد صفحه‌هایی از یک سایته که کراولرها توی یه بازه زمانی مشخص، بررسی و ایندکس می‌کنند. موتورهای جستجو وظیفه مشخص کردن بودجه خزش رو برعهده دارند.

بودجه خزش

 

عملکردهای ربات‌های کراولر، محدودیت داره؛ یعنی اگه خزش بیشتر از یه مقدار مشخصی انجام بشه، گوگل یا هر موتور جستجوی دیگه‌ای، به مشکل می‌خوره. به خاطر این محدودیت، خزش، باید بین سایت‌های مختلف به شیوه عادلانه‌ای تقسیم بشه. پس سایت‌هایی که قدرت بیشتری دارند و اطلاعات بهتری در اختیار مخاطب‌هاشون قرار می‌دن، بودجه خزش بیشتری می‌گیرن.

ایندکسینگ (Indexing)

ایندکس توی فارسی به عنوان «شاخص» معنی میشه و به بیان ساده، به معنی معرفی یک صفحه به گوگله. این کار رو کراولرها انجام می‌دن. اون‌ها در حین خزش، اطلاعات موجود توی صفحه‌ها رو به صورت هوشمند پردازش می‌کنند تا تشخیص بدن صفحه مورد نظر درباره چه موضوعی محتوا داره، به چه پیج‌ها و سایت‌هایی لینک داده و کدوم بخش‌های محتواش مهم‌تره. بعد از تشخیص این موارد، صفحه رو ایندکس می‌کنه

در نهایت موتور جستجو بر اساس داده‌هایی که از کراولرها و الگوریتم‌ها به دست میاره، تصمیم می‌گیره که اون صفحه رو موقع جستجوی مرتبط کاربر، به عنوان اولین نتیجه سرپ (SERP و به معنی صفحه نتایج موتور جستجو) نشون بده یا خیر.

وب اسکرپینگ (Web Scaping)

وب اسکرپینگ به معنی جمع‌آوری اطلاعات از یک سایته. وب اسکرپینگ با کراولینگ متفاوته، اما این تفاوت بیشتر برای برنامه‌نویس‌ها اهمیت داره. برای سئوکارها، همین که بدونن اسکرپینگ چیه و چه تأثیری توی خزش داره، کافیه.

به بیان ساده می‌تونیم بگیم وب اسکرپینگ روی استخراج داده‌های یک صفحه یا سایت متمرکزه اما خزش یا کراول، روی جستجوی URLها یا لینک‌ها کار می‌کنه. پس می‌تونیم بگیم فرایند خزش در گوگل ترکیبی از کراولینگ و اسکرپینگه.

خزنده‌ها چطور کار می‌کنند؟

کراولرها قبل از هرچیزی، فایل robot.txt سایت‌ها رو دانلود می‌کنند. توی این فایل، سایت مپ یا نقشه سایت به همراه URLها قرار داره، در نتیجه کراولرها می‌تونن وارد صفحه‌های سایت بشن و خزش رو انجام بدن.

روش کار وب کراولرها

وقتی خزنده‌ها وارد یه صفحه میشن، لینک‌های موجود توی اون صفحه رو هم بررسی می‌کنند و از طریق اون‌ها به صفحه‌‌های دیگه هم راه پیدا می‌کنند. خزش از طریق URLهای موجود توی صفحه‌ها تا آخرین صفحه ادامه پیدا می‌کنه و تمام صفحه‌ها ایندکس میشن. به همین خاطره که لینکسازی توی سئو تا این اندازه اهمیت داره. در واقع با این قابلیت، خزنده‌های موتورجستجو می‌تونن به همه صفحه‌های سایت دسترسی داشته باشند و اون‌ها رو ایندکس کنند.

همونطور که می‌دونید، بروزرسانی محتواهای صفحه‌های مختلف، یکی از مهم‌ترین بخش‌‌‌های استراتژی سئو هست. به همین خاطر کراولرها، باید در زمان مناسب دوباره به صفحه‌های ایندکس شده برگردند و اون‌ها رو بررسی کنند. اون‌ها برای تعیین این زمان، از الگوریتم‌های گوگل مثل پاندا، الگوریتم پنگوئن، کافئین و موارد دیگه استفاده می‌کنند. هرکدوم از این الگوریتم‌ها فاکتورهای خاصی رو مورد بررسی قرار می‌دن و در نهایت موتور جستجوی مورد نظر (معمولا گوگل)، تصمیم می‌گیره هر سایت چند وقت یکبار کراول بشه یا کدوم صفحه‌هاش ایندکس بشن.

خزنده‌های مشهور

ما توی مقالات سئو بیشتر درباره گوگل صحبت می‌کنیم، چون هدف اصلی ما بهینه‌سازی سایت برای گوگل به عنوان محبوب‌ترین موتور جستجوی جهانه. اما باید بدونید که هرکدوم از موتورهای جستجوی فعال، کراولرهای مخصوص به خودشون رو دارند. در ادامه به چند مورد از خزنده‌های مشهور دنیا اشاره می‌کنیم.

  • گوگل بات: برای گوگل
  • آمازون بات: برای بررسی محتواها و بک‌لینک‌های آمازون
  • بید اسپایدر (Baiduspider) : برای موتور جستجوی Baidu
  • بینگ بات (Bingbot): خزنده مایکروسافت برای موتور جستجوی بینگ
  • داک داک بات (DuckDuckBot): برای جستجوگر DuckDuckGo
  • اگزا بات (Exabot): کراولر سایت‌هایی که به زبان فرانسه کار می‌کنند
  • یاهو (Yahoo): برای یاهو
  • یاندکس (Yandex): یاندکس

چطور از کراولرها رتبه بگیریم؟

برای ایندکس کردن صفحه‌ها نیازی نیست کار خاصی انجام بدید. همونطور که گفتیم، خزنده‌ها لینک‌ها رو بررسی می‌کنند و محتواهایی که مشخص می‌کنه صفحه درباره چی صحبت می‌کنه رو شاخص می‌کنند. پس لینک سازی و محتوا دو عملکرد مهم برای خزنده‌هاست.

نکته: اصولا وبمستران و مدیران سئو سایت ها برای اینکه به خزنده‌های گوگل (ربات‌های گوگل) بگن سریع‌تر بیا صفحاتی که ما میخوایم رو خزش کن تا بعدش ایندکس بشه از سرچ کنسول استفاده میکنن. اگر سایت داری حتمااااااا آموزش های سرچ کنسول رایگان میزفا تولز رو نگاه کن.

ایندکس کردن صفحه‌های سایت

گوگل هیچوقت به شما نمی‌گه که سایتتون کراول و ایندکس شده یا نه. شما خودتون باید بفهمید و میزفا تولز این کار رو به راحتی براتون انجام می‌ده. با استفاده از میزفا تولز می‌تونید هر اطلاعاتی که درباره صفحه‌های مختلف سایتتون لازم دارید رو به دست بیارید. به نوعی شما با میزفا تولز، امکان کراول کردن سایتتون رو به دست میارید و می‌تونید با بررسی محتوا و لینک‌های موجود توی صفحه‌ها، اون‌ها رو  طوری بروزرسانی کنید که برای ربات‌های خزنده و موتورهای جستجو خوشایند باشه.

ابزار خزش میزفا تولز

میزفا تولز ابزاری برای خزش داره که شبیه به کراولرهای موتور جستجو کار می‌کنه، با این تفاوت که نتیجه رو به صورت کامل به شما ارائه میده. بعضی از اطلاعاتی که توی خزش‌های میزفا تولز به دست میارید رو در ادامه نام می‌بریم.

  • آدرس‌ها و صفحه‌های خزش شده
  • مدت زمان و آخرین تاریخ خزش سایت
  • تاریخچه خزش‌ها
  • توزیع محتوا، عکس‌ و عمق خزش

این ابزار قابلیت‌های خیلی بیشتری هم داره، اما با این اطلاعات شما هم خطاهای سایتتون رو پیدا می‌کنید و هم متوجه می‌شید کدوم صفحه‌های سایتتون ایندکس شده و کدوم یکی هنوز بودجه خزش نگرفته. بنابراین می‌تونید برنامه‌ریزی مناسبی برای صفحه‌های خزش‌ شده داشته باشید و با استفاده از اون‌ها، بقیه پیج‌های سایتتون رو هم به خزنده‌ها  نشون بدید.

میزفا تولز یه حریف تمرینی مناسب برای شماست که همه ایرادهاتون رو بهتون میگه و کمکتون می‌کنه سایتی با کم‌ترین مشکل به کاربرها و موتورهای جستجو ارائه بدید. بنابراین کرالورهای واقعی وقتی به سراغ سایتتون میان که مشکلی وجود نداره و سایتتون در بهینه‌ترین حالت ممکنه.

آیا همه صفحه‌های سایت باید کراول شوند؟

این یکی از مهم‌ترین سوالات سئوکارها و به خصوص افراد تازه‌وارده. یه سری از صفحه‌های سایت صرفا برای رابط کاربری ساخته میشن و نیازی نیست به گوگل نمایش داده بشن. تعیین این صفحه‌ها هم به سئوکار، طراح سایت و کارفرما و برنامه‌هایی که برای سایت‌ دارند، برمی‌گرده.

برای راهنمایی بیشتر شما، ما یه لیست از صفحه‌هایی که معمولا ایندکس نمیشن رو جمع‌آوری کردیم و ارائه می‌دیم:

صفحه آرشیو نویسنده‌ها 

بعضی از سایت‌ها برای هر نویسنده یه پنل می‌سازند. مقالات نویسنده، علاوه بر اینکه توی وبلاگ منتشر میشه، توی آرشیو همون نویسنده هم قرار می‌گیره. پس ایندکس کردن اون آرشیو اهمیت چندانی نداره.

پست‌های خاص 

این پست‌ها معمولا بر اساس استراتژی سئو یا تصمیم‌گیری طراح سایت مشخص میشن. مثلا ممکنه شما یه سایت فروش فیلم داشته باشید و توی اون، نسخه‌های مختلف دوبله هر فیلم رو قرار بدید. شما صفحه مربوط به کل فیلم رو ایندکس می‌کنید، اما ممکنه نیاز نداشته باشید صفحه مربوط به هر دوبله رو هم به گوگل معرفی کنید.

سایر صفحه‌هایی که نباید ایندکس بشن

  • صفحه‌های مربوط به نتیجه جستجوی داخلی سایت
  • صفحه‌های تشکر از خرید
  • صفحه‌ ورود به پنل کاربری یا مدیریت پنل

 شما با قرار دادن تگ نو ایندکس (No index) برای چنین صفحه‌هایی، توی بودجه خزشی که گوگل به سایتتون اختصاص میده، صرفه‌جویی می‌کنید و می‌تونید کراولرها رو به سمت صفحه‌های مهم سایتتون هدایت کنید. پس خیلی اهمیت داره که صفحه‌‌های نو ایندکس رو به درستی انتخاب کنید.

چطور صفحات نوایندکس سایتم رو پیدا کنم؟

یکی از ۸ ابزار میزفا تولز ابزار خزش سایت هست که در بررسی خطاهای سئو داخلی سایت به شما کمک زیادی میکنه. در این بخش از ابزار ما میتونیم تمام صفحاتی که ایندکس نیستن رو پیدا کنیم.

ابزار کاوش میزفا تولز برای پیدا کردن خطاهای سایت
در بخش اطلاعیه و مورد اول رو اگر نگاه کنید متوجه میشید که صفحات نوایندکس یک سایت رو نمایش میده و میگه ۳۲۲ صفحه وجود داره که نوایندکس هستند.

کلام آخر

پیش‌بینی‌ها نشون میده که حجم داده‌های تولید شده در سراسر جهان تا سال ۲۰۲۵ به یک زتابایت (Zetta Byte) معادل یک تریلیون گیگابایت، می‌رسه. خیلی سعی نکنید بفهمید این عدد دقیقا چقدره، چون نمیشه تصورش کرد! مسئله مهم دیگه اینه که ۸۰ درصد از داده‌ها، دسته‌بندی خاصی ندارند و در سطح وب پراکنده هستند. بنابراین کراولرها و موتورهای جستجو باید اطلاعات مورد نیاز کاربران رو از بین این حجم داده جدا کنند و در اختیار اون‌ها قرار بدند.

توی این مقاله توضیح دادیم کراول یا خزش چیه، کراولرها چطور کار می‌کنند و چطور باید سایتمون رو ایندکس کنیم تا بتونیم بهترین نتیجه رو از خزش کراولرها به دست بیاریم. توی وبلاگ میزفا تولز در بخش آموزش های تخصصی سئو می‌تونید اطلاعات کاربردی سئویی رو یاد بگیرید. اگه سوالی درباره بحث کراول دارید، توی بخش کامنت‌ها مطرح کنید.

سوالات متداول
ربات‌های خزنده یا کراولر، URLهای مختلف موجود توی سایت‌ها و محتوای صفحه‌ها رو بررسی می‌کنند. بعد از اون موضوع صفحه و محتوای اون رو ایندکس می‌کنند تا موتور جستجو در صورت جستجوی مرتبط کاربر، اون صفحه رو بهش نشون بده.
خزش به صورت خودکار انجام میشه و شما نیازی نیست کار خاصی انجام بدید. همین که صفحه‌ای رو با محتوا و URL مشخص می‌سازید، برای خزش آماده میشه. وقتی نوبت به کراولینگ سایت شما برسه، اون صفحه هم دیده و ایندکس میشه.
سوال 1 از 2
منظور از بودجه خزش کدوم گزینه‌ست؟

تعداد دفعاتی که سایت کراول میشه

تعداد صفحه‌هایی که توی یک بازه زمانی مشخص کراول میشه

تعداد کراولرهایی که برای خزش به هر سایت اختصاص داده میشه

مدت زمانی که کراولرها سایت رو خزش می‌کنند

مشارکت کنندگان در این مقاله