5/5 - (2 امتیاز)

فایل robots.txt چیست؟

فایل robots.txt فایلی است که به عنکبوت‌های موتورهای جستجو دستور می‌دهد تا صفحات یا بخش‌های خاصی از یک وب‌سایت را crawl (دنبال نکنند). اکثر موتورهای جستجوی بزرگ (از جمله گوگل، بینگ و یاهو) درخواست‌های robots.txt را شناسایی و اجرا می‌کنند.

راهنمای جامع فایل robots.txt

چرا robots.txt مهم است؟

اکثر وب‌سایت‌ها به فایل robots.txt نیاز ندارند. دلیل این است که گوگل به طور معمول می‌تواند تمام صفحات مهم سایت شما را پیدا و ایندکس (فهرست‌نویسی) کند. همچنین، گوگل به طور خودکار صفحاتی را که مهم نیستند یا نسخه‌های تکراری از سایر صفحات هستند ایندکس نمی‌کند.

با این حال، سه دلیل اصلی وجود دارد که بخواهید از فایل robots.txt استفاده کنید:

۱. مسدود کردن صفحات غیرعمومی: گاهی اوقات در سایت خود صفحاتی دارید که نمی‌خواهید ایندکس شوند. برای مثال، ممکن است یک نسخه آزمایشی از یک صفحه یا یک صفحه ورود به سیستم داشته باشید. این صفحات باید وجود داشته باشند، اما نمی‌خواهید افراد تصادفی به آن‌ها برسند. این موردی است که در آن از robots.txt برای مسدود کردن این صفحات از خزنده‌ها و ربات‌های موتورهای جستجو استفاده می‌کنید.

۲. حداکثر کردن بودجه خزیدن (Crawl Budget): اگر در ایندکس کردن همه صفحات خود مشکل دارید، ممکن است مشکل “بودجه خزیدن” داشته باشید. با مسدود کردن صفحات غیرمهم با robots.txt، گوگل‌بات می‌تواند بخش بیشتری از بودجه خزیدن خود را صرف صفحاتی کند که واقعاً مهم هستند.

۳. جلوگیری از ایندکس شدن منابع: استفاده از متادیریکتیوها (meta directives) می‌تواند به اندازه robots.txt برای جلوگیری از ایندکس شدن صفحات مؤثر باشد. با این حال، متادایرکتیوها برای منابع چندرسانه‌ای مانند PDF و تصاویر به خوبی کار نمی‌کنند. اینجاست که robots.txt وارد بازی می‌شود.

نتیجه نهایی: robots.txt به عنکبوت‌های موتور جستجو می‌گوید که صفحات خاصی از وب‌سایت شما را دنبال نکنند (crawl نکنند).

می‌توانید تعداد صفحاتی را که ایندکس کرده‌اید در کنسول جستجوی گوگل بررسی کنید.

robots.txt چیست؟

اگر تعداد صفحات ایندکس شده با تعداد صفحاتی که می‌خواهید ایندکس شوند مطابقت دارد، نیازی به فایل robots.txt ندارید. اما اگر این عدد بیشتر از حد انتظار شماست (و متوجه URLهای ایندکس شده‌ای می‌شو شوید که نباید ایندکس شوند)، پس وقت آن است که یک فایل robots.txt برای وب‌سایت خود ایجاد کنید.

ایجاد فایل robots.txt

اولین قدم شما برای ایجاد یک استراتژی سئو قوی، ساختن یک فایل robots.txt است. این فایل یک متن ساده است و به راحتی با استفاده از نرم افزار Notepad در ویندوز قابل ایجاد است.

فارغ از اینکه چگونه فایل robots.txt را ایجاد می‌کنید، فرمت آن همیشه یکسان است:

  • User-agent: این بخش، کاربر (ربات) خاصی را که می‌خواهید با آن صحبت کنید، مشخص می‌کند.
  • Disallow: همه چیزهایی که بعد از Disallow می‌آید، صفحاتی یا بخش‌هایی هستند که می‌خواهید از دسترسی ربات‌ها مسدود کنید.

برای مثال:

User-agent: googlebot
Disallow: /images

این قانون به گوگل‌بات می‌گوید که پوشه تصاویر وب‌سایت شما را ایندکس نکند.

همچنین می‌توانید از علامت ستاره (*) برای صحبت با تمام ربات‌هایی که به وب‌سایت شما سر می‌زنند، استفاده کنید.

برای نمونه:

User-agent: *
Disallow: /images

این علامت به تمام خزنده‌های وب می‌گوید که پوشه تصاویر شما را کrawl نکنند.

این تنها یکی از روش‌های متعدد استفاده از فایل robots.txt است. راهنمای مفید گوگل [راهنمای ایجاد و ارسال یک فایل robots.txt](link to Google Search Central robots.txt creation guide) اطلاعات بیشتری در مورد قوانین مختلفی که برای مسدود کردن یا اجازه دادن به ربات‌ها برای کروال صفحات مختلف سایت خود می‌توانید استفاده کنید، در اختیار شما قرار می‌دهد.

فایل robots.txt خود را به راحتی قابل دسترس کنید

پس از ایجاد فایل robots.txt، زمان آن است که آن را فعال کنید.

از نظر فنی، می‌توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.

اما برای افزایش احتمال یافتن فایل robots.txt، توصیه می‌کنم آن را در اینجا قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt شما حساس به حروف کوچک و بزرگ است. بنابراین حتماً از حرف “r” کوچک در نام فایل استفاده کنید)

بررسی خطاها و اشتباهات

فایل robots.txt شما باید به درستی تنظیم شده باشد، زیرا یک اشتباه کوچک می تواند باعث حذف کل سایت شما از فهرست جستجوی گوگل شود.

خوشبختانه، نیازی نیست که امیدوار باشید کد شما به درستی تنظیم شده است. گوگل یک ابزار مفید تست ربات ها دارد که می توانید از آن استفاده کنید:

Robots.txt – نتایج تست

این ابزار فایل robots.txt شما را به همراه هرگونه خطا و هشداری که پیدا می کند به شما نشان می دهد:

Robots.txt – خطاها

همانطور که مشاهده می کنید، ما از عنکبوت ها می خواهیم که صفحه مدیریت وردپرس ما را خزش نکنند.

ما همچنین از robots.txt برای جلوگیری از خزش صفحات برچسب خودکار تولید شده توسط وردپرس (برای محدود کردن محتوای تکراری) استفاده می کنیم.

Robots.txt در مقابل دستورات متا

چرا باید از robots.txt استفاده کرد در حالی که می توان صفحات را با استفاده از تگ متا “بدون فهرست” در سطح صفحه مسدود کرد؟

همانطور که قبلاً گفتم، پیاده سازی تگ “بدون فهرست” در منابع چندرسانه ای مانند فیلم ها و PDF ها دشوار است.

علاوه بر این، اگر هزاران صفحه برای مسدود کردن دارید، گاهی اوقات مسدود کردن کل بخش آن سایت با robots.txt به جای اضافه کردن دستی تگ “بدون فهرست” به هر صفحه آسان تر است.

همچنین موارد حاشیه ای وجود دارد که نمی خواهید هیچ بودجه خزیدن را در Google برای فرود آمدن در صفحات با تگ “بدون فهرست” هدر دهید.

با این حال:

به غیر از این سه مورد حاشیه ای، من استفاده از دستورات متا به جای robots.txt را توصیه می کنم. آنها آسان تر برای پیاده سازی هستند و احتمال وقوع فاجعه (مانند مسدود کردن کل سایت شما) کمتر است.

5/5 - (2 امتیاز)

مقاله های دیگر

نظر شما چیه؟