فایل robots.txt فایلی است که در دامنه ریشه شما قرار دارد.
این یک فایل متنی ساده است که هدف اصلی آن این است که به خزندههای وب و روباتها بگوید از کدام فایلها و پوشهها دوری کنند.
ربات های موتورهای جستجو برنامه هایی هستند که از سایت شما بازدید می کنند و لینک های موجود در آن را دنبال می کنند تا در مورد صفحات شما اطلاعات کسب کنند. یک مثال خزنده وب گوگل است که Googlebot نام دارد.
ربات ها معمولاً فایل robots.txt را قبل از بازدید از سایت شما بررسی می کنند. آنها این کار را انجام می دهند تا ببینند که آیا آنها مجاز به خزیدن در سایت هستند و آیا مواردی وجود دارد که باید از آنها اجتناب کنند.
robots.txt باید در دایرکتوری سطح بالای دامنه شما ، مانند example.com/robots.txt قرار گیرد.
بهترین راه برای ویرایش آن این است که از طریق یک سرویس گیرنده FTP رایگان مانند FileZilla وارد میزبان وب خود شوید ، سپس فایل را با یک ویرایشگر متن مانند Notepad (ویندوز) یا TextEdit (Mac) ویرایش کنید.
اگر نمی دانید چگونه از طریق FTP به سرور خود وارد شوید، با شرکت میزبانی وب خود تماس بگیرید تا دستورالعمل ها را بپرسید.
برخی از افزونه ها مانند Yoast SEO به شما امکان می دهند فایل robots.txt را از داشبورد وردپرس خود ویرایش کنید.
[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: / [/message_box]
چگونه همه با استفاده از robots.txt غیرمجاز شویم
اگر میخواهید به همه رباتها دستور دهید که از سایت شما دور بمانند، این کدی است که باید در robots.txt خود قرار دهید تا همه موارد را غیرمجاز کنید:
بخش “کاربر-عامل: *” به این معنی است که برای همه ربات ها اعمال می شود. بخش “Disallow: /” به این معنی است که برای کل وب سایت شما اعمال می شود.
در واقع، این به همه رباتها و خزندههای وب میگوید که اجازه دسترسی یا خزیدن به سایت شما را ندارند.
مهم: غیر مجاز کردن همه رباتها در یک وبسایت زنده میتواند منجر به حذف سایت شما از موتورهای جستجو و از دست رفتن ترافیک و درآمد شود. فقط در صورتی از این استفاده کنید که بدانید در حال انجام چه کاری هستید!
چگونه به همه اجازه می دهد
Robots.txt در درجه اول با حذف کار می کند. شما فایلها و پوشههایی را که نمیخواهید به آنها دسترسی داشته باشید را حذف میکنید، هر چیز دیگری مجاز تلقی میشود.
اگر می خواهید ربات ها بتوانند کل سایت شما را بخزند، می توانید به سادگی یک فایل خالی یا بدون فایل داشته باشید.
یا می توانید این را در فایل robots.txt خود قرار دهید تا به همه اجازه دهید:
[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: [/message_box]
نحوه غیر مجاز کردن فایل ها و پوشه های خاص
میتوانید از دستور «Disallow:» برای مسدود کردن فایلها و پوشهها استفاده کنید.
شما به سادگی یک خط جداگانه برای هر فایل یا پوشه ای که می خواهید غیرمجاز کنید قرار دهید.
در اینجا یک مثال است:
[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html[/message_box]
نحوه غیرمجاز کردن ربات های خاص
اگر فقط می خواهید خزیدن یک ربات خاص را مسدود کنید، این کار را به صورت زیر انجام می دهید:
[message_box bg=”#hex or http://imageurl”] User-agent: Bingbot
Disallow: /
User-agent: *
Disallow: [/message_box]
این کار ربات موتور جستجوی بینگ را از خزیدن در سایت شما مسدود می کند، اما ربات های دیگر اجازه خواهند داشت همه چیز را بخزند.
می توانید همین کار را با Googlebot با استفاده از “User-agent: Googlebot” انجام دهید.
همچنین می توانید ربات های خاصی را از دسترسی به فایل ها و پوشه های خاص مسدود کنید.
یک فایل robots.txt خوب برای وردپرس
کد زیر همان چیزی است که من در فایل robots.txt خود استفاده می کنم. این یک تنظیم پیش فرض خوب برای وردپرس است.
[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://searchfacts.com/sitemap.xml [/message_box]
این فایل robots.txt به ربات ها می گوید که می توانند همه چیز را به جز پوشه /wp-admin/ بخزند. با این حال، آنها اجازه دارند یک فایل را در پوشه /wp-admin/ به نام admin-ajax.php بخزند.
دلیل این تنظیم این است که کنسول جستجوی Google اگر قادر به خزیدن در فایل admin-ajax.php نبود خطا را گزارش میکرد.
Googlebot تنها رباتی است که “Allow:” را می فهمد — برای اجازه دادن به خزیدن یک فایل خاص در داخل یک پوشه غیرمجاز استفاده می شود.
همچنین میتوانید از خط «Sitemap:» استفاده کنید تا به رباتها بگویید نقشه سایت XML خود را کجا پیدا کنند. این نقشه سایت باید شامل لیستی از تمام صفحات سایت شما باشد، بنابراین خزنده های وب را آسان تر می کند تا همه آنها را پیدا کنند.
چه زمانی به جای ربات از noindex استفاده کنیم
اگر می خواهید کل سایت یا صفحات خاص خود را از نمایش در موتورهای جستجو مانند گوگل مسدود کنید، robots.txt بهترین راه برای انجام این کار نیست.
موتورهای جستجو همچنان میتوانند فایلهایی را که توسط روباتها مسدود شدهاند فهرستبندی کنند، فقط برخی از متا دادههای مفید را نشان نمیدهند.
در عوض، توضیحات در نتایج جستجو میگوید: «توضیحی برای این نتیجه به دلیل robots.txt این سایت در دسترس نیست.»
اگر فایل یا پوشهای را با robots.txt مخفی کنید، اما بعداً شخصی به آن پیوند داده شود، احتمالاً Google آن را در نتایج جستجو نشان میدهد مگر بدون شرح.
در این مواقع بهتر است از تگ noindex استفاده کنید تا موتورهای جستجو نتوانند آن را در نتایج جستجو نمایش دهند.
در وردپرس، اگر به تنظیمات -> خواندن بروید و گزینه “ از موتورهای جستجو درخواست کن تا محتوای سایت را بررسی نکنند” را علامت بزنید، یک تگ noindex به تمام صفحات شما اضافه می شود.
به نظر می رسد این است:
[message_box bg=”#hex or http://imageurl”][/message_box]
حقایق مهم در مورد فایل robots.txt
به خاطر داشته باشید که روباتها میتوانند فایل robots.txt شما را نادیده بگیرند، بهویژه رباتهای سوءاستفادهکننده مانند رباتهایی که توسط هکرهایی اجرا میشوند که به دنبال آسیبپذیریهای امنیتی هستند.
همچنین، اگر میخواهید پوشهای را از وبسایت خود مخفی کنید، قرار دادن آن در فایل robots.txt ممکن است رویکرد هوشمندانهای نباشد.
هر کسی اگر فایل robots.txt را در مرورگر خود تایپ کند، میتواند ببیند و ممکن است بتواند بفهمد که شما چه چیزی را میخواهید پنهان کنید.
در واقع، میتوانید به برخی از سایتهای محبوب نگاه کنید تا ببینید فایلهای robots.txt آنها چگونه تنظیم شدهاند. فقط سعی کنید /robots.txt را به URL صفحه اصلی وب سایت های مورد علاقه خود اضافه کنید.
اگر می خواهید مطمئن شوید که فایل robots.txt شما کار می کند، می توانید از کنسول جستجوی گوگل برای آزمایش آن استفاده کنید. در اینجا دستورالعمل ها وجود دارد.