فایل Robots.txt چیست ،نحوه استفاده درست از این فایل

فایل روبوت

فایل robots.txt فایلی است که در دامنه ریشه شما قرار دارد.

این یک فایل متنی ساده است که هدف اصلی آن این است که به خزنده‌های وب و روبات‌ها بگوید از کدام فایل‌ها و پوشه‌ها دوری کنند.

ربات های موتورهای جستجو برنامه هایی هستند که از سایت شما بازدید می کنند و لینک های موجود در آن را دنبال می کنند تا در مورد صفحات شما اطلاعات کسب کنند. یک مثال خزنده وب گوگل است که Googlebot نام دارد.

ربات ها معمولاً فایل robots.txt را قبل از بازدید از سایت شما بررسی می کنند. آنها این کار را انجام می دهند تا ببینند که آیا آنها مجاز به خزیدن در سایت هستند و آیا مواردی وجود دارد که باید از آنها اجتناب کنند.

robots.txt باید در دایرکتوری سطح بالای دامنه شما ، مانند example.com/robots.txt قرار گیرد.

بهترین راه برای ویرایش آن این است که از طریق یک سرویس گیرنده FTP رایگان مانند FileZilla وارد میزبان وب خود شوید ، سپس فایل را با یک ویرایشگر متن مانند Notepad (ویندوز) یا TextEdit (Mac) ویرایش کنید.

اگر نمی دانید چگونه از طریق FTP به سرور خود وارد شوید، با شرکت میزبانی وب خود تماس بگیرید تا دستورالعمل ها را بپرسید.

برخی از افزونه ها مانند Yoast SEO به شما امکان می دهند فایل robots.txt را از داشبورد وردپرس خود ویرایش کنید.

[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: / [/message_box]

چگونه همه با استفاده از robots.txt غیرمجاز شویم

اگر می‌خواهید به همه ربات‌ها دستور دهید که از سایت شما دور بمانند، این کدی است که باید در robots.txt خود قرار دهید تا همه موارد را غیرمجاز کنید:

بخش “کاربر-عامل: *” به این معنی است که برای همه ربات ها اعمال می شود. بخش “Disallow: /” به این معنی است که برای کل وب سایت شما اعمال می شود.

در واقع، این به همه ربات‌ها و خزنده‌های وب می‌گوید که اجازه دسترسی یا خزیدن به سایت شما را ندارند.

مهم: غیر مجاز کردن همه ربات‌ها در یک وب‌سایت زنده می‌تواند منجر به حذف سایت شما از موتورهای جستجو و از دست رفتن ترافیک و درآمد شود. فقط در صورتی از این استفاده کنید که بدانید در حال انجام چه کاری هستید!

چگونه به همه اجازه می دهد

Robots.txt در درجه اول با حذف کار می کند. شما فایل‌ها و پوشه‌هایی را که نمی‌خواهید به آنها دسترسی داشته باشید را حذف می‌کنید، هر چیز دیگری مجاز تلقی می‌شود.

اگر می خواهید ربات ها بتوانند کل سایت شما را بخزند، می توانید به سادگی یک فایل خالی یا بدون فایل داشته باشید.

یا می توانید این را در فایل robots.txt خود قرار دهید تا به همه اجازه دهید:

[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: [/message_box]

 

نحوه غیر مجاز کردن فایل ها و پوشه های خاص

می‌توانید از دستور «Disallow:» برای مسدود کردن فایل‌ها و پوشه‌ها استفاده کنید.

شما به سادگی یک خط جداگانه برای هر فایل یا پوشه ای که می خواهید غیرمجاز کنید قرار دهید.

در اینجا یک مثال است:

[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: /topsy/
Disallow: /crets/
Disallow: /hidden/file.html[/message_box]

نحوه غیرمجاز کردن ربات های خاص

اگر فقط می خواهید خزیدن یک ربات خاص را مسدود کنید، این کار را به صورت زیر انجام می دهید:

[message_box bg=”#hex or http://imageurl”] User-agent: Bingbot
Disallow: /

User-agent: *
Disallow: [/message_box]

این کار ربات موتور جستجوی بینگ را از خزیدن در سایت شما مسدود می کند، اما ربات های دیگر اجازه خواهند داشت همه چیز را بخزند.

می توانید همین کار را با Googlebot با استفاده از “User-agent: Googlebot” انجام دهید.

همچنین می توانید ربات های خاصی را از دسترسی به فایل ها و پوشه های خاص مسدود کنید.

یک فایل robots.txt خوب برای وردپرس

کد زیر همان چیزی است که من در فایل robots.txt خود استفاده می کنم. این یک تنظیم پیش فرض خوب برای وردپرس است.

[message_box bg=”#hex or http://imageurl”] User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://searchfacts.com/sitemap.xml [/message_box]

این فایل robots.txt به ربات ها می گوید که می توانند همه چیز را به جز پوشه /wp-admin/ بخزند. با این حال، آنها اجازه دارند یک فایل را در پوشه /wp-admin/ به نام admin-ajax.php بخزند.

دلیل این تنظیم این است که کنسول جستجوی Google اگر قادر به خزیدن در فایل admin-ajax.php نبود خطا را گزارش می‌کرد.

Googlebot تنها رباتی است که “Allow:” را می فهمد — برای اجازه دادن به خزیدن یک فایل خاص در داخل یک پوشه غیرمجاز استفاده می شود.

همچنین می‌توانید از خط «Sitemap:» استفاده کنید تا به ربات‌ها بگویید نقشه سایت XML خود را کجا پیدا کنند. این نقشه سایت باید شامل لیستی از تمام صفحات سایت شما باشد، بنابراین خزنده های وب را آسان تر می کند تا همه آنها را پیدا کنند.

چه زمانی به جای ربات از noindex استفاده کنیم

اگر می خواهید کل سایت یا صفحات خاص خود را از نمایش در موتورهای جستجو مانند گوگل مسدود کنید، robots.txt بهترین راه برای انجام این کار نیست.

موتورهای جستجو همچنان می‌توانند فایل‌هایی را که توسط روبات‌ها مسدود شده‌اند فهرست‌بندی کنند، فقط برخی از متا داده‌های مفید را نشان نمی‌دهند.

در عوض، توضیحات در نتایج جستجو می‌گوید: «توضیحی برای این نتیجه به دلیل robots.txt این سایت در دسترس نیست.»

اگر فایل یا پوشه‌ای را با robots.txt مخفی کنید، اما بعداً شخصی به آن پیوند داده شود، احتمالاً Google آن را در نتایج جستجو نشان می‌دهد مگر بدون شرح.

در این مواقع بهتر است از تگ noindex استفاده کنید تا موتورهای جستجو نتوانند آن را در نتایج جستجو نمایش دهند.

در وردپرس، اگر به تنظیمات -> خواندن بروید و گزینه “ از موتورهای جستجو درخواست کن تا محتوای سایت را بررسی نکنند” را علامت بزنید، یک تگ noindex به تمام صفحات شما اضافه می شود.

به نظر می رسد این است:

[message_box bg=”#hex or http://imageurl”][/message_box]

 

حقایق مهم در مورد فایل robots.txt

به خاطر داشته باشید که روبات‌ها می‌توانند فایل robots.txt شما را نادیده بگیرند، به‌ویژه ربات‌های سوءاستفاده‌کننده مانند ربات‌هایی که توسط هکرهایی اجرا می‌شوند که به دنبال آسیب‌پذیری‌های امنیتی هستند.

همچنین، اگر می‌خواهید پوشه‌ای را از وب‌سایت خود مخفی کنید، قرار دادن آن در فایل robots.txt ممکن است رویکرد هوشمندانه‌ای نباشد.

هر کسی اگر فایل robots.txt را در مرورگر خود تایپ کند، می‌تواند ببیند و ممکن است بتواند بفهمد که شما چه چیزی را می‌خواهید پنهان کنید.

در واقع، می‌توانید به برخی از سایت‌های محبوب نگاه کنید تا ببینید فایل‌های robots.txt آنها چگونه تنظیم شده‌اند. فقط سعی کنید /robots.txt را به URL صفحه اصلی وب سایت های مورد علاقه خود اضافه کنید.

اگر می خواهید مطمئن شوید که فایل robots.txt شما کار می کند، می توانید از کنسول جستجوی گوگل برای آزمایش آن استفاده کنید. در اینجا دستورالعمل ها وجود دارد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

به بالای صفحه بردن