
robots.txt فایل، یک فایل متنی می باشد که در Root Directory (روت دایرکتوری) یا مسیر اصلی هاست فضای وب سایت تان قرار دارد. با استفاده از این فایل شما در حقیقت به معرفی بخش های قابل دسترس و همچنین مشخص نمودن بخش هایی که نمی خواهید ربات های جستجوگر سطح وب یا همان Web Crawlers به آن ها دسترسی داسته باشند؛ می پردازید. در واقع این خزندگان سطح وب، با بررسی این فایل، اطلاعات سایت شما را به ثبت می رسانند.
robots.txtx کاربرد فایل از نگاهی دیگر محدود کردن دسترسی ها به محتوای سایت شما می باشد. اکثر ربات ها قبل از اینکه به بررسی و Index صفحات سایت بپردازند؛ قوانینی که در این فایل گذاشته اید را نگاه می اندازند و دقیقا به آنها پایبند خواهند بود و تنها به صفحاتی مراجعه می کنند که دسترسی اشان را باز گذاشته اید. اما فراموش نکنید که ربات هایی هم هستند که اصلا توجهی به این محدودیت ها ندارند و به همه بخش ها مراجعه می کنند.
برای مثال
ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند.
برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.
چه فایل هایی نباید Index بشوند؟
همینطور که قبلا اشاره شد، می توانیم صفحاتی را که نمی خواهیم ایندکس بشوند را در فایل روبوت قرار بدهیم. این صفحات شامل موارد زیر می باشند:
- آن صفحاتی که محتوای تکراری دارند. Duplicate Content
- تگ ها و برچسب هایی که محتوای تکراری را در سایت ایجاد می کنند.
- فیلتربندی که در صفحات محصول فروشگاه تان قرار دارد مانند فیلترهای رنگ، قیمت و غیره
- آن دسته از صفحاتی که با جستجو در سایت به وجود می آیند.
- تمامی صفحات مربوط به ادمین و مدیریت سایت
- صفحات پروفایل کاربران
- صفحات چت روم
- برخی از فایل های مربوط به تنظیمات قالب.
چگونه از این فایل استفاده کنیم؟
robots.txtx کاربرد فایل بسیار ساده و انعطاف پذیر می باشد. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.
دستور User-agent
با استفاده از این دستور تنها یک ربات خاص را مدنظر قرار می دهیم. درصورتی که ورودی آن را علامت “*” بگذاریم، تمامی ربات های خزنده شامل این دستور می شوند و همچنین در ابتدای فایل این کد را می نویسیم.
*:User-agent
User-agent : Googlebot
تنظیمات فقط بر روی یک ربات خاص اعمال می شود.
دستور Disallow
این دستور به مانند یک کلید عمل می کند برای باز کردن پوشه ها. با این کد آدرس صفحه ای را که می خواهید ربات ها به آن دسترسی نداشته باشند، پنهان می کنید. به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید.
*:User-agent
Disallow : /photo
پوشه تصاویر قفل می شوند.
دستور Allow
ربات Googlebot وظیفه ایندکس کردن را بر عهده دارد. با استفاده از کد allow اجازه مشاهده یک فایل در فولدری که قبلا Disallowed شده را می دهید.
*:User-agent
Disallow : /photo
Allow : /photos/ img.png
با این دستور شما به یک تصویر خاص در پوشه ای که قفل شده است دسترسی پیدا می کنید.
اضافه کردن sitemap به فایل
برای اینکه در وردپرس robots.txtx فایل مسیر نقشه سایت را نشان بدهیم باید مانند تصویر زیر کد Sitemap: http://www.example.com/sitemap.xml را به انتهای فایل اضافه کنیم.
محتوای ویدیو فرمانروای گوگل شو!
ربات های گوگل را تحت اختیار خودت بگیر، بهشون دستور بده و بگو چکار کنند. می گویی چه جوری این کار را انجام بدهم. همراه من باش تا بهت بگویم که چه طوری ربات های گوگل را تحت اختیار خودت بگیری.
یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. به چه دست بزن و به چه دست نزن.
حالا مگر برای گوگل اصلا اهمیت دارد که تو به ربات اش گفته ای که چکار کند. درست است شاید به یک سری صفحات که تو بگویی که نرود، هم برود و ببنید. اما آن تاثیر ایندکس شد را ندارد. ایندکس اش نمی کند! گوگل می گوید من باشد یا نباشد کار خودم را انجام می دهم. من چرا باید ازش استفاده کنم. چرا باید بگویم که این فایل وجود دارد و اتفاقات داخل آن را گفتم.
سه دلیل مهم دارد. اولین دلیل به گوگل می گویی صفحات عمومی و خصوصی من را نبین. یا این صفحات را ایندکس نکن.
دومین دلیل کرال بودجکت یا crawl budget ات را افزایش می دهی. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند. این کار باعث می شود که crawl budget شما افزایش پیدا کند.
سومین نکته: شما اگر کتابهای pdf یا mp3 ها یا محصولاتی را دارید داخل هاست تان هستند و گوگل می تواند آنها را ببیند. شما می آیید دسترسی را می بینید تا با یک جستجوی ساده، در گوگل پیدا نشوند تا بقیه نتوانند از آنها استفاده کنند. به همین سادگی، دسترسی ربات های گوگل را می بندی.
نکات خیلی مهمی را گفتم. امیدوارم که از آنها بتوانید استفاده کنید. و اختیار ربات های گوگل را به دست بگیرید. فقط فراموش نکن که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. این باعث می شود که باز هم crawl budgetتو افزایش پیدا کند. موفق و پیروز باشید.
دیدگاه ها