چطور با robots.txt مسیر ربات‌های گوگل رو کنترل کنیم؟

سئو فنی | ۱۴۰۴-۱-۷

در یکی از پروژه‌ها، مقالات به‌سختی ایندکس می‌شدن، انگار گوگل با سایت ما قهر کرده بود! بعداً فهمیدیم تنظیم اشتباه robots.txt باعث هدررفت بودجه خزش شده و در نهایت، پروژه سئو توسط کارفرما کنسل شد.

این تجربه تلخ یکی از مشتریان میزفا تولز، دلیل نوشتن این مقاله شد تا یاد بگیریم چگونه این فایل را درست تنظیم کنیم و از آسیب به کسب‌وکارها جلوگیری کنیم.

در این مقاله قراره به این بپردازیم که فایل robots.txt چطور کار می‌کنه و چرا استفاده از این فایل برای بهینه‌سازی سایت و جلوگیری از ایندکس شدن اطلاعات حساس اهمیت زیادی داره. همچنین، یکی از افزونه‌های کاربردی مثل میزفا تولز رو به شما معرفی می‌کنیم که به راحتی می‌تونید فایل robots.txt سایت‌تون رو مشاهده و مدیریت کنید، بدون اینکه نیاز به تخصص خاصی داشته باشید.

فايل robots.txt چيست؟

robots.txt يك فايل متنی سادست كه که به موتورهای جستجو می‌گه کدوم صفحات رو بخزن یا کراول (crawl) کنن و کدوم صفحات رو نادیده بگیرن.

چجوری میتونیم فایل robots.txt رو ببینیم؟ فرض کنیم سایت ما mizfa.tools هست، پس آدرس فایل ربات به صورت زیر میشه:

mizfa.tools/robots.txt

حالا بعد از اینکه robots.txt رو به انتهای آدرس سایت اضافه کردین، با یه صفحه مشابه عکس پایین مواجه می‌شید👇. البته این فقط یه نمونه‌ست و همه سایت‌ها ممکنه فایلشون متفاوت باشه.

User-agent: *
Disallow: /my-divar/*
Disallow: /manage/*
Disallow: /new
Disallow: /s/*/*?*q=*
Disallow: /adminbot

یه راه ساده‌تر برای برای دیدن فایل robots.txt هر سایتی، کافیه افزونه گوگل کروم میزفا تولز رو نصب کنین. بعد از نصب، سایت مورد نظر رو جستجو کنید، مثلاً دیجیکالا، و از قسمت robots.txt که در افزونه هست استفاده کنید تا فایل robots.txt سایت رو ببینین. به راحتی با این روش می‌تونین فایل رو مشاهده کنین.

بررسی robots.txt در اکستنشن میزفا تولز

فایل robots.txt مثل یک تابلو راهنمایی تو خیابونه که به ربات‌ها می‌گه کجاها برن و کجاها نرن. ربات‌های خوب (مثل موتور جستجو) این قوانین رو رعایت می‌کنن، ولی ربات‌های بد (مثل اسپم‌ها) ممکنه نادیده بگیرن. این فایل نمی‌تونه به‌طور قطعی قوانین رو اجرا کنه، بلکه فقط دستورالعمل‌هایی می‌ده.

چرا فایل robots.txt مهمه؟

1. مسدود کردن صفحات غیرعمومی

گاهی اوقات، در سایت صفحاتی دارید که نمی‌خواید در نتایج جستجو نمایش داده بشن، مانند:

  • نسخه آزمایشی (Staging) صفحات
  • صفحات ورود (Login Pages)
  • نتایج جستجوی داخلی

این صفحات باید در سایت وجود داشته باشن، اما نیازی نیست کاربران تصادفی از طریق جستجوی گوگل به اون‌ها دسترسی داشته باشن. در این حالت، میتونید از robots.txt برای جلوگیری از خزیدن این صفحات توسط موتورهای جستجو استفاده کنید.

2. بهینه‌سازی بودجه خزش (Crawl Budget)

اگر متوجه شدید که بعضی از صفحات مهم سایت شما ایندکس نمیشن، ممکنه دچار مشکل بودجه خزش باشید. با استفاده از robots.txt میتونید صفحات غیرضروری رو مسدود کنید، تا بودجه خزش هدر نره.

3. جلوگیری از ایندکس شدن منابع خاص توسط موتورهای جستجو

با استفاده از متا تگ robots: noindex, nofollow می‌تونید از ایندکس شدن صفحات جلوگیری کنید. اما این روش برای فایل‌های چندرسانه‌ای مثل تصاویر و PDFها کارایی نداره. در چنین مواردی، بهتره از robots.txt استفاده کنید.

robots.txt چگونه کار میکنه؟

اول ببینیم موتورهای جستجو چجوری کار میکنن. موتورهای جستجو دو كار اصلی انجام میدن:

  1. خزيدن (Crawling): ربات‌های گوگل وارد صفحات وب می‌شن و از طریق لینک‌ها و URLهای جدید به صفحات دیگه راه پیدا می‌کنن. بات‌ها محتواهایی مثل متن، عکس‌ها و ویدیوها را مشاهده و تجزیه و تحلیل می‌کنن.
  2. ايندکس کردن (Indexing): گوگل اطلاعاتی رو که دیده آنالیز و تحلیل میکنه و برای نشون دادن تو نتایج گوگل ذخیره‌سازی انجام میده.
  3. قبل از شروع خزيدن، ربات‌ها اول فايل robots.txt را بررسی میكنن. اگر تو اين فايل اجازه دسترسی داده شده باشه، به خزيدن ادامه میدن، در غير اين صورت اون بخش از سايت رو ناديده می گيرن.

در بعضی ابزارهای سئو و خزنده‌ها، مثل ابزار خزش میزفا تولز، گزینه‌ای برای رعایت یا نادیده گرفتن robots.txt وجود داره. در قسمت تنظیمات ابزار خزش میزفا تولز مشخص شده “به فایل robots.txt توجه داشته باش” یعنی اینکه ابزار خزش باید به دستورالعمل‌های فایل robots.txt سایت توجه کنه.

اگر این گزینه فعال باشد:
خزنده از قوانین و محدودیت‌های تعیین‌شده در robots.txt پیروی می‌کنه.

اگر غیرفعال باشد:
ابزار خزنده بدون توجه به robots.txt می‌تونه همه‌ی صفحات سایت رو بررسی کنه، حتی اگر در فایل robots.txt محدود شده باشن.

بررسی robots.txt توسط ابزار میزفا تولز

نکته: بهتره تیک گزینه «به فایل robots.txt توجه داشته باش» رو نزنید. برای ما فرقی نداره، ولی چون خودتون دارید سایتتون رو بررسی می‌کنید، نیازی به محدودیت اضافی نیست. این گزینه بیشتر برای مواقعی کاربرد داره که نمی‌خواید ربات‌های دیگه بخش‌هایی از سایت رو ببینن، اما در میزفا تولز خودتون داده‌ها رو بررسی می‌کنید، پس نیازی به فعال‌سازی نیست.

چه دستوراتی در فایل robots.txt وجود داره؟

ممکنه براتون سوال پیش بیاد چجوری میشه با robots.txt اجازه دسترسی رو بست یا باز گذاشت؟

  1. User-agent: در این بخش رباتی که دستورات برای اون نوشته شده رو مشخص می‎کنیم.
  2. Allow: اجازه خزيدن به ربات‌ها داده میشه.
  3. Disallow: از خزيدن ربات‌ها جلوگيری میشه.
  4. Sitemap: از این دستور برای نشون دادن آدرس فایل نقشه سایت به ربات‌ها استفاده می‎کنیم.
  5. Crawl-delay: دستوری که به ربات‌ها می‌گه باید چند ثانیه قبل از درخواست بعدی صبر کنند تا از فشار زیاد روی سرور سایت جلوگیری بشه.
User-agent: *
allow: /
disallow: /search/userssitemap: https://mizfa.tools.com/sitemapindex.xml

حالا میخوام با یک مثال این دستورات رو براتون جا بندازم:

تصور کنید یه فروشگاه دارید، یه جای بزرگ و شلوغ که کلی قفسه، اتاق و بخش مختلف داره. مشتری‌ها (همون ربات‌های موتور جستجو) میان توی فروشگاه و می‌خوان همه‌جا رو ببینن، اما خب، شاید نخواید به همه‌جا دسترسی داشته باشن! مثلاً، انبار یا دفتر مدیریت رو که نباید بگردن، درسته؟ میتونیم چند تا قانون برای فروشگاهمون بذاریم.

🔹user agent: اول از همه، باید مشخص کنید این قوانین برای کدوم مشتری (ربات) هست. اگه بخوای یه قانون کلی برای همه بذاری، می‌گی:

User-agent:*

یعنی هر کی می‌خواد بیاد، این قانون براش اعمال می‌شه. ولی اگه بخوای یه مشتری خاص، مثلاً فقط گوگل رو هدف بگیری، می‌گی:

User-agent:Googlebot

یعنی فقط گوگل، این قانون برای توئه!


🔹 Disallow: اگه یه بخش خاصی از فروشگاه رو نمی‌خواید کسی ببینه، درش رو قفل می‌کنید! مثلاً:

Disallow: /admin یعنی آهای رباتا دفتر مدیریت ممنوعه
Disallow: /private یعنی اینجا اطلاعات شخصیه، نباید ببینید



🔹 Allow: حالا فرض کن گفتی کسی نباید بره توی انبار (Disallow)، ولی یه قفسه از انبار رو دوست داری نشون بدی، مثلاً محصولات جدید. می‌تونی یه استثنا قائل بشی:

Disallow: /storage
Allow: /storage/new-products.html

این یعنی کلاً به انبار نیاید، ولی این بخش جدید مشکلی نداره، ببینید!


🔹 Sitemap: خب، حالا که فروشگاه داری، شاید بد نباشه یه نقشه راهنما هم به مشتریا بدی، نه؟ توی سایت هم همینطوره، با این دستور به موتورهای جستجو می‌گی که نقشه کلی سایت رو از کجا پیدا کنن:

Sitemap: https://mizfa.tools.com/sitemap.xml

همچنین میتونید site map رو از طریق سرچ کنسول بسازید و ثبت کنید.


🔹 Crawl-delay: بعضی وقتا فروشگاه شلوغ می‌شه و نمی‌خواید مشتری‌ها یهویی حمله کنن و همه‌جا رو پر کنن. اینجا می‌تونی بگی که هر چند ثانیه یه بار بیان، نه پشت سر هم! مثلاً:

Crawl-delay:1

یعنی هر ۱۰ ثانیه یه بار بیا، عجله نکن! (البته گوگل از این پشتیبانی نمی‌کنه)

نکته: یک نکته مهم اینه که همه زیر دامنه‌ها باید فایل robots.txt خود را داشته باشند. مثلا اگر سایت شما mizfa.com باشه و مقالات شما mizfa.tools.com باشه، باید برای هر دو یک فایل robots.txt جداگانه ایجاد کنید.

نمونه مناسب فایل robots.txt برای وردپرس

User-agent: *
Disallow:
Sitemap: https://mizfa.tools/sitemap_index.xml

5 روش حذف صفحات از نتایج گوگل

۱. متا تگ Noindex

استفاده از متا تگ noindex بهترین روش برای جلوگیری از ایندکس شدن صفحه در نتایج جستجوست و به موتورهای جستجو می‌گه که صفحه نباید ایندکس بشه.

متا تگ robots در میزفا تولز

۲. خطای 410 و 404

اگر قصد دارید صفحه‌ای را کاملا حذف کنید و دیگه هیچ ارزشی برای شما نداره، می‌تونید از خطای ۴۱۰ یا ۴۰۴ استفاده کنید.

  • خطای ۴۱۰ برای حذف دائمی صفحه از نتایج جستجو مناسب‌تره چون سریع‌تر عمل می‌کنه.
  • خطای ۴۰۴ به معنای “صفحه پیدا نشد” است و برای حذف دائمی مناسب نیست، چون ممکنه گوگل اون رو به‌عنوان یک مشکل موقت در نظر بگیره.

۳. فایل Robots.txt

این فایل به موتورهای جستجو دستور می‌ده که از کرال کردن برخی صفحات خودداری کنند، اما گاهی نتیجه دلخواه رو نمی‌ده.

۴. خطای 403

در بعضی سایت‌های اختصاصی، برای صفحاتی که نباید در نتایج جستجو بیان، از خطای 403 استفاده می‌شه. این خطا نشان می‌ده که دسترسی به صفحه ممنوعه و هیچ‌کس نمی‌تونه اون رو مشاهده کنه. خطا ۴۰۳ بیشتر برای مسائل امنیتی استفاده می‌شه.

۵. ابزار Removals سرچ کنسول

ابزار Removals سرچ کنسول برای حذف موقت صفحات از نتایج جستجو به کار می‌ره و روش دائمی نیست، بنابراین برای حذف قطعی از روش‌های بالا استفاده کنید.

فایل‌های JavaScript و CSS رو از طریق robots.txt مسدود نکنید

از مسدود کردن دسترسی به فایل‌های JavaScript و CSS از طریق فایل robots.txt خودداری کنید مگر اینکه ضروری باشه (مثلا محدود کردن دسترسی به داده‌های حساس).

اگر به ربات‌های گوگل اجازه ندید فایل‌های JavaScript و CSS رو کرال کنن باعث می‌شه موتورهای جستجو نتونن ساختار و محتوای سایت شما را به درستی درک کنن، که درنهایت می‌تونه به رتبه‌بندی شما آسیب بزنه.

چطور بفهمیم ربات‌ گوگل سایت ما رو چطور می‌بینه؟

برای بررسی اینکه ربات‌ها سایت شما رو چطور می‌بینن، مراحل زیر رو دنبال کنین:

  1. وارد سرچ کنسول بشید.
  2. از قسمت URL Inspection سرچ کنسول آدرس صفحه‌ای که می‌خواید بررسی کنید رو وارد کنین.
  3. بعد از وارد کردن آدرس، گزینه‌ای به اسم Test Live Url در سرچ کنسول ظاهر میشه. روی اون کلیک کنین.
  4. چند ثانیه صبر کنین تا تست انجام بشه.
  5. بعد از انجام تست، از بخش Screenshot می‌تونین ببینید که ربات‌های گوگل صفحه شما رو چطور می‌بینن.

اگر اینجا صفحه بهم ریخته یا درست نمایش داده نشد، بهتره دلیلش رو پیدا کنین و اصلاحش کنین.

دیدن اسکرین شات سایت از طریق url inspection

در نهایت چرا به robots.txt نیاز داریم؟

✅ جلوگیری از خزیدن محتوای تکراری

✅ محدود کردن دسترسی به بخش‌های خصوصی

✅ مشخص کردن نقشه سایت (site map) برای موتورهای جستجو

✅ تنظیم سرعت خزیدن (Delay Crawl) برای کاهش فشار روی سرور

و در آخر اینکه نام فایل حساس به حروف بزرگ و کوچکه. حتما از robots.txt با حرف کوچک استفاده کنید مثلا نباید بنویسید Robot.txt یا robot.TXT و…. . فایل robots.txt رو در ریشه (Root) سایت خود قرار بدید تا موتورهای جستجو بتونن فایل رو پیدا کنن.

سوال 1 از 3

فایل robots.txt دقیقا چه نقشی در سئو سایت داره؟

افزایش سرعت بارگذاری صفحات

کنترل دسترسی ربات‌ها به بخش‌های مختلف سایت

بهبود طراحی گرافیکی سایت

افزایش نرخ تبدیل کاربران

مشارکت کنندگان در این مقاله

میزفا تولز

میزفا تولز
جامع ترین ابزار سئو ایرانی
با کیفیت جهانی (۸ ابزار در ۱ ابزار)

رایگان عضو شو