نویسنده: محمد نصیری
زمان انتشار مقاله ۱۳۹۹/۰۷/۰۸

robots.txt فایل، یک فایل متنی می باشد که در Root Directory (روت دایرکتوری) یا مسیر اصلی هاست فضای وب سایت تان قرار دارد. با استفاده از این فایل شما در حقیقت به معرفی بخش های قابل دسترس و همچنین مشخص نمودن بخش هایی که نمی خواهید ربات های جستجوگر سطح وب یا همان Web Crawlers به آن ها دسترسی داسته باشند؛ می پردازید. در واقع این خزندگان سطح وب، با بررسی این فایل، اطلاعات سایت شما را به ثبت می رسانند.

robots.txtx کاربرد فایل از نگاهی دیگر محدود کردن دسترسی ها به محتوای سایت شما می باشد. اکثر ربات ها قبل از اینکه به بررسی و Index صفحات سایت بپردازند؛ قوانینی که در این فایل گذاشته اید را نگاه می اندازند و دقیقا به آنها پایبند خواهند بود و تنها به صفحاتی مراجعه می کنند که دسترسی اشان را باز گذاشته اید. اما فراموش نکنید که ربات هایی هم هستند که اصلا توجهی به این محدودیت ها ندارند و به همه بخش ها مراجعه می کنند.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

 

برای مثال

ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند.

برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید می‌توانید با قرار دادن تگ‌ های متا در هدر صفحه دسترسی ربات‌ های گوگل را به آن محدود نمایید. robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.

robots.txt نمونه فایل,robots.txtx فایل,وردپرس robots.txt فایل

چه فایل هایی نباید Index بشوند؟

همینطور که قبلا اشاره شد، می توانیم صفحاتی را که نمی خواهیم ایندکس بشوند را در فایل روبوت قرار بدهیم. این صفحات شامل موارد زیر می باشند:

  • آن صفحاتی که محتوای تکراری دارند. Duplicate Content
  • تگ ها و برچسب هایی که محتوای تکراری را در سایت ایجاد می کنند.
  • فیلتربندی که در صفحات محصول فروشگاه تان قرار دارد مانند فیلترهای رنگ، قیمت و غیره
  • آن دسته از صفحاتی که با جستجو در سایت به وجود می آیند.
  • تمامی صفحات مربوط به ادمین و مدیریت سایت
  • صفحات پروفایل کاربران
  • صفحات چت روم
  • برخی از فایل های مربوط به تنظیمات قالب.

چگونه از این فایل استفاده کنیم؟

robots.txtx کاربرد فایل بسیار ساده و انعطاف پذیر می باشد. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.

دستور User-agent

با استفاده از این دستور تنها یک ربات خاص را مدنظر قرار می دهیم. درصورتی که ورودی آن را علامت “*” بگذاریم، تمامی ربات های خزنده شامل این دستور می شوند و همچنین در ابتدای فایل این کد را می نویسیم.

*:User-agent

 User-agent : Googlebot

تنظیمات فقط بر روی یک ربات خاص اعمال می شود.

دستور Disallow

این دستور به مانند یک کلید عمل می کند برای باز کردن پوشه ها. با این کد آدرس صفحه ای را که می خواهید ربات ها به آن دسترسی نداشته باشند، پنهان می کنید. به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید.

*:User-agent

 Disallow : /photo

پوشه تصاویر قفل می شوند.

دستور Allow

ربات Googlebot وظیفه ایندکس کردن را بر عهده دارد. با استفاده از کد allow اجازه مشاهده یک فایل در فولدری که قبلا Disallowed  شده را می دهید.

 

*:User-agent

 Disallow : /photo

  Allow : /photos/ img.png

با این دستور شما به یک تصویر خاص در پوشه ای که قفل شده است دسترسی پیدا می کنید.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

اضافه کردن sitemap به فایل

برای اینکه در وردپرس robots.txtx فایل مسیر نقشه سایت را نشان بدهیم باید مانند تصویر زیر کد Sitemap: http://www.example.com/sitemap.xml را به انتهای فایل اضافه کنیم.

robots.txt نمونه فایل,robots.txtx فایل,وردپرس robots.txt فایل

محتوای ویدیو فرمانروای گوگل شو!

ربات های گوگل را تحت اختیار خودت بگیر، بهشون دستور بده و بگو چکار کنند. می گویی چه جوری این کار را انجام بدهم. همراه من باش تا بهت بگویم که چه طوری ربات های گوگل را تحت اختیار خودت بگیری.

یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. به چه دست بزن و به چه دست نزن.

حالا مگر برای گوگل اصلا اهمیت دارد که تو به ربات اش گفته ای که چکار کند. درست است شاید به یک سری صفحات که تو بگویی که نرود، هم برود و ببنید. اما آن تاثیر ایندکس شد را ندارد. ایندکس اش نمی کند! گوگل می گوید من باشد یا نباشد کار خودم را انجام می دهم. من چرا باید ازش استفاده کنم. چرا باید بگویم که این فایل وجود دارد و اتفاقات داخل آن را گفتم.

سه دلیل مهم دارد. اولین دلیل به گوگل می گویی صفحات عمومی و خصوصی من را نبین. یا این صفحات را ایندکس نکن.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

دومین دلیل کرال بودجکت یا  crawl budget ات را افزایش می دهی. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند. این کار باعث می شود که crawl budget شما افزایش پیدا کند.

سومین نکته: شما اگر کتابهای pdf یا mp3 ها یا محصولاتی را دارید داخل هاست تان هستند و گوگل می تواند آنها را ببیند. شما می آیید دسترسی را می بینید تا با یک جستجوی ساده، در گوگل پیدا نشوند تا بقیه نتوانند از آنها استفاده کنند. به همین سادگی، دسترسی ربات های گوگل را می بندی.

نکات خیلی مهمی را گفتم. امیدوارم که از آنها بتوانید استفاده کنید. و اختیار ربات های گوگل را به دست بگیرید. فقط فراموش نکن که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. این باعث می شود که باز هم crawl budgetتو افزایش پیدا کند. موفق و پیروز باشید.

 

دیدگاه ها

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *