آموزش استفاده از فایل robots.txt (video)

متن ویدیو فرمانروای گوگل شو!

ربات های گوگل را تحت اختیار خودت بگیر، بهشون دستور بده و بگو چکار کنند. می گویی چه جوری این کار را انجام بدهم. همراه من باش تا بهت بگویم که چه طوری ربات های گوگل را تحت اختیار خودت بگیری.

یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. به چه دست بزن و به چه دست نزن.

حالا مگر برای گوگل اصلا اهمیت دارد که تو به ربات اش گفته ای که چکار کند. درست است شاید به یک سری صفحات که تو بگویی که نرود، هم برود و ببنید. اما آن تاثیر ایندکس شد را ندارد. ایندکس اش نمی کند! گوگل می گوید من باشد یا نباشد کار خودم را انجام می دهم. من چرا باید ازش استفاده کنم. چرا باید بگویم که این فایل وجود دارد و اتفاقات داخل آن را گفتم.

سه دلیل مهم دارد. اولین دلیل به گوگل می گویی صفحات عمومی و خصوصی من را نبین. یا این صفحات را ایندکس نکن.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

دومین دلیل کرال بودجکت یا  crawl budget ات را افزایش می دهی. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند. این کار باعث می شود که crawl budget شما افزایش پیدا کند.

سومین نکته: شما اگر کتابهای pdf یا mp3 ها یا محصولاتی را دارید داخل هاست تان هستند و گوگل می تواند آنها را ببیند. شما می آیید دسترسی را می بینید تا با یک جستجوی ساده، در گوگل پیدا نشوند تا بقیه نتوانند از آنها استفاده کنند. به همین سادگی، دسترسی ربات های گوگل را می بندی.

نکات خیلی مهمی را گفتم. امیدوارم که از آنها بتوانید استفاده کنید. و اختیار ربات های گوگل را به دست بگیرید. فقط فراموش نکن من بارها در آموزش سئو وبین سئو گفتم که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. این باعث می شود که باز هم crawl budget تو افزایش پیدا کند. موفق و پیروز باشید.

robots.txt فایل، یک فایل متنی می باشد که در Root Directory (روت دایرکتوری) یا مسیر اصلی هاست فضای وب سایت تان قرار دارد. با استفاده از این فایل شما در حقیقت به معرفی بخش های قابل دسترس و همچنین مشخص نمودن بخش هایی که نمی خواهید ربات های جستجوگر سطح وب یا همان Web Crawlers به آن ها دسترسی داسته باشند؛ می پردازید. در واقع این خزندگان سطح وب، با بررسی این فایل، اطلاعات سایت شما را به ثبت می رسانند.

robots.txtx کاربرد فایل از نگاهی دیگر محدود کردن دسترسی ها به محتوای سایت شما می باشد. اکثر ربات ها قبل از اینکه به بررسی و Index صفحات سایت بپردازند؛ قوانینی که در این فایل گذاشته اید را نگاه می اندازند و دقیقا به آنها پایبند خواهند بود و تنها به صفحاتی مراجعه می کنند که دسترسی اشان را باز گذاشته اید. اما فراموش نکنید که ربات هایی هم هستند که اصلا توجهی به این محدودیت ها ندارند و به همه بخش ها مراجعه می کنند.

robots.txt نمونه فایل,robots.txtx فایل,وردپرس robots.txt فایل

 

جعبه مثال

برای مثال

ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند.

برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید می‌توانید با قرار دادن تگ‌ های متا در هدر صفحه دسترسی ربات‌ های گوگل را به آن محدود نمایید. robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

چه فایل هایی نباید Index بشوند؟

همینطور که قبلا اشاره شد، می توانیم صفحاتی را که نمی خواهیم ایندکس بشوند را در فایل روبوت قرار بدهیم. این صفحات شامل موارد زیر می باشند:

  • آن صفحاتی که محتوای تکراری دارند. Duplicate Content
  • تگ ها و برچسب هایی که محتوای تکراری را در سایت ایجاد می کنند.
  • فیلتربندی که در صفحات محصول فروشگاه تان قرار دارد مانند فیلترهای رنگ، قیمت و غیره
  • آن دسته از صفحاتی که با جستجو در سایت به وجود می آیند.
  • تمامی صفحات مربوط به ادمین و مدیریت سایت
  • صفحات پروفایل کاربران
  • صفحات چت روم
  • برخی از فایل های مربوط به تنظیمات قالب.

چگونه از این فایل استفاده کنیم؟

robots.txtx کاربرد فایل بسیار ساده و انعطاف پذیر می باشد. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.

دستور User-agent

با استفاده از این دستور تنها یک ربات خاص را مدنظر قرار می دهیم. درصورتی که ورودی آن را علامت “*” بگذاریم، تمامی ربات های خزنده شامل این دستور می شوند و همچنین در ابتدای فایل این کد را می نویسیم.

*:User-agent

 User-agent : Googlebot

تنظیمات فقط بر روی یک ربات خاص اعمال می شود.

دستور Disallow

این دستور به مانند یک کلید عمل می کند برای باز کردن پوشه ها. با این کد آدرس صفحه ای را که می خواهید ربات ها به آن دسترسی نداشته باشند، پنهان می کنید. به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید.

*:User-agent

 Disallow : /photos

پوشه تصاویر قفل می شوند.

دستور Allow

ربات Googlebot وظیفه ایندکس کردن را بر عهده دارد. با استفاده از کد allow اجازه مشاهده یک فایل در فولدری که قبلا Disallowed  شده را می دهید.

 

*:User-agent

 Disallow : /photos

  Allow : /photos/ img.png

با این دستور شما به یک تصویر خاص در پوشه ای که قفل شده است دسترسی پیدا می کنید.

robots.txt نمونه فایل,robots.txtx فایل,وردپرس robots.txt فایل

اضافه کردن sitemap به فایل

برای اینکه در وردپرس robots.txt فایل مسیر نقشه سایت را نشان بدهیم باید مانند تصویر زیر کد Sitemap: http://www.example.com/sitemap.xml را به انتهای فایل اضافه کنیم.

robots.txt دانلود فایل,robots.txt کاربرد فایل,robots.txt محل فایل

حرف دل کاربران (9)

از فرم زیر میتوانید حرف دل خودتان را در مورد این پست ثبت کنید

  • علی
    2 هفته پیش

    سلام. وقتتون بخیر باشه. در سرچ کنسول، قسمت sitemaps در status کلمه couldn’t fetch را نوشته و وقتی به فایل robots سایت نگاه کردم دیدم
    User-agent : Googlebot در دستورات نیست و اضافه کردم. بنظرتون مشکل از این موضوع می تونه باشه؟ چون URL سایت مپ سایتمم نمیاره و ۴۰۴ میده
    دستوراتی که در فایل robots از قبل بود :
    User-agent: MJ12bot
    Disallow: /
    User-agent: AhrefsBot
    Disallow: /
    User-agent: msnbot
    Disallow: /
    User-agent: amazonbot
    Disallow: /
    User-agent: bingbot
    Disallow: /
    User-agent: YandexBot
    Disallow: /

    • محمد نصیری
      2 هفته پیش

      درود وقت بخیر
      علی عزیز اصلا نیازی به اضافه کردن گوگل نیست زمانی باید اضافه کنید که قرار دسترسی به بخشی از سایت رو ببندید اما وقتی آدرس سایت مپ به طور عادی ۴۰۴ میشه پس آدرس مسئله داره و باید اول لود شدن سایت مپ رو برطرف کنید.

  • علی اصغر
    1 سال پیش

    سلام ، وقت بخیر
    ببخشید یه سوال داشتم اگه راهنمایی کنید ممنون میشم ازتون .
    تو موتور جستجوی بینگ سایت من بجای اینکه خود صفحه اصلی سایت ایندکس بشه آدرس ورود به کنترل پنل ایندکس شده به این صورت sitename.ir:2082
    تو وبمستر بینگ اجازه بلاک کردن لینک و نمیده و بخوام تو فایل robot.txt این صفحه را وارد کنم باید به چه صورت تعریف کنم ؟

    • محمد نصیری
      1 سال پیش

      درود وفت بخیر
      باید در فایل دقیقا مثل ربات های دیگه آدرس رو disallow کنید.

  • علیمرادی
    2 سال پیش

    سلام
    ممنون از راهنمایی تون

  • علیمرادی
    2 سال پیش

    سلام و خسته نباشید
    حدود ۴ سال است سایتم در گوگل، بینگ و …ایندکس است و معمولا در صفحه اول سرچ هست، اما پس از نصب افزونه المنتور و تغییر صفحه اصلی سایتم(که قصدم بهبود و زیبا کردن صفحه اصلی بود) دیگه صفحه اصلی سایت در سرچ گوگل مشاهده نمی گردد و در مروگر بینگ نیز سایتم به کلی حذف شده و قابل شناسایی نیست.
    سوال: آیا مربوط به خطای زیر است؟
    User-agent: *
    Disallow:

    • محمد نصیری
      2 سال پیش

      درود وقت بخیر
      سایت شما خطاهای زیادی داره و باید بیشتر بررسی شود برای ثبت تحلیل سئو سایت کلیک کنید.تحلیل سئو سایت

  • مبتدی
    3 سال پیش

    با سلام و خسته نباشید .. بنده مبتدی هستم گاهی وقتا مطلب جدیدی که ارسال میکنم بعد چند روز ایندکس میشه اما بعضی هاشون حذف میشن و بجاش صفحات سایت بجای اون مطلب قرار میگیرین یعنی اگه اون مطلب در صفحه ۱۲ باشه صفحه ۱۲ ایندکس میشه بجای مطلبم حالا بعضی وقتا درست میشه بعضی وقتا کلا پست رو حذف میکنم دوباره ارسال میکنم درست میشه الان من چطور باید صفحه سایتم رو نوایندکس کنم یعنی کدش چیه تا در Robots.txt قرار بدم ایا این کار یعنی نو ایندکس صفحه بندی مشکلی برای سایت پیش میاره و پنالتی میشم از نظر گوگل ؟

    • محمد نصیری
      3 سال پیش

      درود وقت بخیر
      مسئله شما ارتباطی به فایل robots نداره و باید اگر از وردپرس استفاده می کنید در تنظیمات افزونه Yoast جلوی ایندکس شدن این صفحات رو بگیرید.