خزش یا کراول (Crawl) چیست؟ کراولر چه کار میکند؟
خزش یا کراول شباهتهایی به زندگی زیرزمینی موشها داره. اونها توی شبکههای فاضلاب زندگی میکنند و از همه قسمتهای فاضلاب رد میشن. اگه موشها موجودات هوشمندی بودند، بخاطر رفت و آمدهایی که توی مسیر فاضلاب دارند، میتونستند نقشه شبکه فاضلاب رو به صورت کامل حفظ کنند تشخیص بدن هر دریچه به کدوم کوچه، خیابون یا حتی خونه باز میشه!
کراولرها یا خزندهها هم مثل موشهایی هستند که توی شبکه اینترنت میچرخند، سایتهای مختلف رو بررسی میکنند، از لینکهایی که توی هر صفحه هست، به سایتها یا صفحههای دیگه راه پیدا میکنند و خلاصه که به سراسر وب دسترسی دارند. این موشهای هوشمند، اطلاعاتی که به دست میارن رو آرشیو میکنند.
نتیجه خزش یا کراول کردن اینه که موتورهای جستجو اطلاعات سایتهای مختلف رو در اختیار دارند و میتونند بر اساس الگوریتمها، دستهبندیش کنند. بنابراین وقتی کاربر عبارتی رو سرچ میکنه، بهترین نتیجه رو بهش نشون میدن. توی این مقاله از میزفا تولز بررسی میکنیم خزش چطور انجام میشه و چطوری میتونیم توجه کراولرها رو به سایتمون جلب کنیم و به رتبههای اول سرپ (SERP) برسیم.
راستی شما که دارید این مقاله رو میخونید حتما باید میزفا تولز رو بشناسید و یا اگر درباره سئو کمی بیشتر تحقیق کرده باشید حتما اسم ما رو شنیدید. میزفا تولز یک ابزار جامع سئو ایرانی هست که خدمات مختلفی در زمینه بهینهسازی سایت و سئو به متخصصین سئو و مدیران سایتها ارائه میده. به کمک این ابزار سئو متوجه میشید توی کلمات کلیدی مختلف چه جایگاهی دارید و آمار و ارقام و ورودیهای سایتتون به چه صورته. بر این اساس، میتونید برای رسیدن به جایگاههای بهتر برنامهریزی کنید و نتایجی که به دست میارید رو بسنجید.
خزش یا کراول چیست؟
وقتی برنامهها و اسکریپتهای خودکار دادههای موجود توی سایتها رو ایندکس میکنند، میگیم خزش یا کراول انجام شده. بهتره با مثال این مفهوم رو بهتر توضیح بدیم. یه دایرهالمعارف جامع رو تصور کنید که توی اون اطلاعاتی با موضوعهای مختلف نوشته شده. وقتی دنبال موضوع خاصی میگردید، کل صفحههای کتاب رو نمیخونید. شما اول به فهرست مراجعه میکنید، موضوع مورد نظرتون رو پیدا میکنید و شماره صفحهای که درباره این موضوع نوشته رو میبینید. بعد سراغ همون صفحه میرید تا اطلاعات مورد نیازتون رو به دست بیارید.
اگه وب رو یه دایرهالمعارف در نظر بگیریم، کراولرها وظیفه فهرستبندی این دایرهالمعارف رو برعهده دارند. موتورهای جستجو هم عبارت مورد نظر کاربر رو با چیزی که کراولرها فهرست کردند، مطابقت میدن و بهترین نتیجه رو به کاربر نشون میدن.
هدف اصلی کراول یا خزش وبسایتها، درک محتوای صفحههای سایت و ارائه اونها به کاربرهاییه که بهش نیاز دارند.
اصطلاحات مربوط به خزش یا کراول
برای کار کردن با گوگل و بهینهسازی سایت برای موتورهای جستجو، لازمه که با یه سری اصطلاحات آشنا باشید. توی این مقاله درباره اصطلاحات مربوط به خزش یا کراول صحبت میکنیم. این اصطلاحات معمولا معادل فارسی ندارند و توی زبان فارسی هم با همون واژه انگلیسیشون شناخته میشن.
کراولر (Crawler)
کراولر یا خزنده، رباتهایی هستند که وظیفه خزش در سایتها و ایندکس کردن محتوای اونها رو برعهده دارند. توی قسمتهای بعدی توضیح میدیم که این کار رو چطوری انجام میدن.
بودجه خزش (Crawl budget)
بودجه خزش به معنی تعداد صفحههایی از یک سایته که کراولرها توی یه بازه زمانی مشخص، بررسی و ایندکس میکنند. موتورهای جستجو وظیفه مشخص کردن بودجه خزش رو برعهده دارند.
عملکردهای رباتهای کراولر، محدودیت داره؛ یعنی اگه خزش بیشتر از یه مقدار مشخصی انجام بشه، گوگل یا هر موتور جستجوی دیگهای، به مشکل میخوره. به خاطر این محدودیت، خزش، باید بین سایتهای مختلف به شیوه عادلانهای تقسیم بشه. پس سایتهایی که قدرت بیشتری دارند و اطلاعات بهتری در اختیار مخاطبهاشون قرار میدن، بودجه خزش بیشتری میگیرن.
ایندکسینگ (Indexing)
ایندکس توی فارسی به عنوان «شاخص» معنی میشه و به بیان ساده، به معنی معرفی یک صفحه به گوگله. این کار رو کراولرها انجام میدن. اونها در حین خزش، اطلاعات موجود توی صفحهها رو به صورت هوشمند پردازش میکنند تا تشخیص بدن صفحه مورد نظر درباره چه موضوعی محتوا داره، به چه پیجها و سایتهایی لینک داده و کدوم بخشهای محتواش مهمتره. بعد از تشخیص این موارد، صفحه رو ایندکس میکنه
در نهایت موتور جستجو بر اساس دادههایی که از کراولرها و الگوریتمها به دست میاره، تصمیم میگیره که اون صفحه رو موقع جستجوی مرتبط کاربر، به عنوان اولین نتیجه سرپ (SERP و به معنی صفحه نتایج موتور جستجو) نشون بده یا خیر.
وب اسکرپینگ (Web Scaping)
وب اسکرپینگ به معنی جمعآوری اطلاعات از یک سایته. وب اسکرپینگ با کراولینگ متفاوته، اما این تفاوت بیشتر برای برنامهنویسها اهمیت داره. برای سئوکارها، همین که بدونن اسکرپینگ چیه و چه تأثیری توی خزش داره، کافیه.
به بیان ساده میتونیم بگیم وب اسکرپینگ روی استخراج دادههای یک صفحه یا سایت متمرکزه اما خزش یا کراول، روی جستجوی URLها یا لینکها کار میکنه. پس میتونیم بگیم فرایند خزش در گوگل ترکیبی از کراولینگ و اسکرپینگه.
خزندهها چطور کار میکنند؟
کراولرها قبل از هرچیزی، فایل robot.txt سایتها رو دانلود میکنند. توی این فایل، سایت مپ یا نقشه سایت به همراه URLها قرار داره، در نتیجه کراولرها میتونن وارد صفحههای سایت بشن و خزش رو انجام بدن.
وقتی خزندهها وارد یه صفحه میشن، لینکهای موجود توی اون صفحه رو هم بررسی میکنند و از طریق اونها به صفحههای دیگه هم راه پیدا میکنند. خزش از طریق URLهای موجود توی صفحهها تا آخرین صفحه ادامه پیدا میکنه و تمام صفحهها ایندکس میشن. به همین خاطره که لینکسازی توی سئو تا این اندازه اهمیت داره. در واقع با این قابلیت، خزندههای موتورجستجو میتونن به همه صفحههای سایت دسترسی داشته باشند و اونها رو ایندکس کنند.
همونطور که میدونید، بروزرسانی محتواهای صفحههای مختلف، یکی از مهمترین بخشهای استراتژی سئو هست. به همین خاطر کراولرها، باید در زمان مناسب دوباره به صفحههای ایندکس شده برگردند و اونها رو بررسی کنند. اونها برای تعیین این زمان، از الگوریتمهای گوگل مثل پاندا، الگوریتم پنگوئن، کافئین و موارد دیگه استفاده میکنند. هرکدوم از این الگوریتمها فاکتورهای خاصی رو مورد بررسی قرار میدن و در نهایت موتور جستجوی مورد نظر (معمولا گوگل)، تصمیم میگیره هر سایت چند وقت یکبار کراول بشه یا کدوم صفحههاش ایندکس بشن.
خزندههای مشهور
ما توی مقالات سئو بیشتر درباره گوگل صحبت میکنیم، چون هدف اصلی ما بهینهسازی سایت برای گوگل به عنوان محبوبترین موتور جستجوی جهانه. اما باید بدونید که هرکدوم از موتورهای جستجوی فعال، کراولرهای مخصوص به خودشون رو دارند. در ادامه به چند مورد از خزندههای مشهور دنیا اشاره میکنیم.
- گوگل بات: برای گوگل
- آمازون بات: برای بررسی محتواها و بکلینکهای آمازون
- بید اسپایدر (Baiduspider) : برای موتور جستجوی Baidu
- بینگ بات (Bingbot): خزنده مایکروسافت برای موتور جستجوی بینگ
- داک داک بات (DuckDuckBot): برای جستجوگر DuckDuckGo
- اگزا بات (Exabot): کراولر سایتهایی که به زبان فرانسه کار میکنند
- یاهو (Yahoo): برای یاهو
- یاندکس (Yandex): یاندکس
چطور از کراولرها رتبه بگیریم؟
برای ایندکس کردن صفحهها نیازی نیست کار خاصی انجام بدید. همونطور که گفتیم، خزندهها لینکها رو بررسی میکنند و محتواهایی که مشخص میکنه صفحه درباره چی صحبت میکنه رو شاخص میکنند. پس لینک سازی و محتوا دو عملکرد مهم برای خزندههاست.
نکته: اصولا وبمستران و مدیران سئو سایت ها برای اینکه به خزندههای گوگل (رباتهای گوگل) بگن سریعتر بیا صفحاتی که ما میخوایم رو خزش کن تا بعدش ایندکس بشه از سرچ کنسول استفاده میکنن. اگر سایت داری حتمااااااا آموزش های سرچ کنسول رایگان میزفا تولز رو نگاه کن.
گوگل هیچوقت به شما نمیگه که سایتتون کراول و ایندکس شده یا نه. شما خودتون باید بفهمید و میزفا تولز این کار رو به راحتی براتون انجام میده. با استفاده از میزفا تولز میتونید هر اطلاعاتی که درباره صفحههای مختلف سایتتون لازم دارید رو به دست بیارید. به نوعی شما با میزفا تولز، امکان کراول کردن سایتتون رو به دست میارید و میتونید با بررسی محتوا و لینکهای موجود توی صفحهها، اونها رو طوری بروزرسانی کنید که برای رباتهای خزنده و موتورهای جستجو خوشایند باشه.
میزفا تولز ابزاری برای خزش داره که شبیه به کراولرهای موتور جستجو کار میکنه، با این تفاوت که نتیجه رو به صورت کامل به شما ارائه میده. بعضی از اطلاعاتی که توی خزشهای میزفا تولز به دست میارید رو در ادامه نام میبریم.
- آدرسها و صفحههای خزش شده
- مدت زمان و آخرین تاریخ خزش سایت
- تاریخچه خزشها
- توزیع محتوا، عکس و عمق خزش
این ابزار قابلیتهای خیلی بیشتری هم داره، اما با این اطلاعات شما هم خطاهای سایتتون رو پیدا میکنید و هم متوجه میشید کدوم صفحههای سایتتون ایندکس شده و کدوم یکی هنوز بودجه خزش نگرفته. بنابراین میتونید برنامهریزی مناسبی برای صفحههای خزش شده داشته باشید و با استفاده از اونها، بقیه پیجهای سایتتون رو هم به خزندهها نشون بدید.
میزفا تولز یه حریف تمرینی مناسب برای شماست که همه ایرادهاتون رو بهتون میگه و کمکتون میکنه سایتی با کمترین مشکل به کاربرها و موتورهای جستجو ارائه بدید. بنابراین کرالورهای واقعی وقتی به سراغ سایتتون میان که مشکلی وجود نداره و سایتتون در بهینهترین حالت ممکنه.
آیا همه صفحههای سایت باید کراول شوند؟
این یکی از مهمترین سوالات سئوکارها و به خصوص افراد تازهوارده. یه سری از صفحههای سایت صرفا برای رابط کاربری ساخته میشن و نیازی نیست به گوگل نمایش داده بشن. تعیین این صفحهها هم به سئوکار، طراح سایت و کارفرما و برنامههایی که برای سایت دارند، برمیگرده.
برای راهنمایی بیشتر شما، ما یه لیست از صفحههایی که معمولا ایندکس نمیشن رو جمعآوری کردیم و ارائه میدیم:
صفحه آرشیو نویسندهها
بعضی از سایتها برای هر نویسنده یه پنل میسازند. مقالات نویسنده، علاوه بر اینکه توی وبلاگ منتشر میشه، توی آرشیو همون نویسنده هم قرار میگیره. پس ایندکس کردن اون آرشیو اهمیت چندانی نداره.
پستهای خاص
این پستها معمولا بر اساس استراتژی سئو یا تصمیمگیری طراح سایت مشخص میشن. مثلا ممکنه شما یه سایت فروش فیلم داشته باشید و توی اون، نسخههای مختلف دوبله هر فیلم رو قرار بدید. شما صفحه مربوط به کل فیلم رو ایندکس میکنید، اما ممکنه نیاز نداشته باشید صفحه مربوط به هر دوبله رو هم به گوگل معرفی کنید.
سایر صفحههایی که نباید ایندکس بشن
- صفحههای مربوط به نتیجه جستجوی داخلی سایت
- صفحههای تشکر از خرید
- صفحه ورود به پنل کاربری یا مدیریت پنل
شما با قرار دادن تگ نو ایندکس (No index) برای چنین صفحههایی، توی بودجه خزشی که گوگل به سایتتون اختصاص میده، صرفهجویی میکنید و میتونید کراولرها رو به سمت صفحههای مهم سایتتون هدایت کنید. پس خیلی اهمیت داره که صفحههای نو ایندکس رو به درستی انتخاب کنید.
چطور صفحات نوایندکس سایتم رو پیدا کنم؟
یکی از ۸ ابزار میزفا تولز ابزار خزش سایت هست که در بررسی خطاهای سئو داخلی سایت به شما کمک زیادی میکنه. در این بخش از ابزار ما میتونیم تمام صفحاتی که ایندکس نیستن رو پیدا کنیم.
کلام آخر
پیشبینیها نشون میده که حجم دادههای تولید شده در سراسر جهان تا سال ۲۰۲۵ به یک زتابایت (Zetta Byte) معادل یک تریلیون گیگابایت، میرسه. خیلی سعی نکنید بفهمید این عدد دقیقا چقدره، چون نمیشه تصورش کرد! مسئله مهم دیگه اینه که ۸۰ درصد از دادهها، دستهبندی خاصی ندارند و در سطح وب پراکنده هستند. بنابراین کراولرها و موتورهای جستجو باید اطلاعات مورد نیاز کاربران رو از بین این حجم داده جدا کنند و در اختیار اونها قرار بدند.
توی این مقاله توضیح دادیم کراول یا خزش چیه، کراولرها چطور کار میکنند و چطور باید سایتمون رو ایندکس کنیم تا بتونیم بهترین نتیجه رو از خزش کراولرها به دست بیاریم. توی وبلاگ میزفا تولز در بخش آموزش های تخصصی سئو میتونید اطلاعات کاربردی سئویی رو یاد بگیرید. اگه سوالی درباره بحث کراول دارید، توی بخش کامنتها مطرح کنید.