توصیه گوگل: از کدهای 403 و 404 برای محدود کردن نرخ Googlebot استفاده نکنید
Google شاهد افزایش استفاده نادرست از کدهای 403 و 404 از سوی ناشران و شبکههای تولید محتوا برای محدود کردن نرخ Googlebot است. این وب سایت به دلیل افزایش استفاده نادرست از کدهای 403 و 404 که میتواند تاثیر منفی بر وبسایتها داشته باشد، راهنماییهایی در مورد چگونگی کاهش صحیح نرخ خزیدن Googlebot منتشر کرد.
در این راهنما اشاره شد که استفاده نادرست از این کد از سوی ناشران وب و شبکههای تحویل محتوا افزایش یافته است.
محدود کردن نرخ Googlebot با کدهای 403 و 404
Googlebot نرم افزار خودکار گوگل است که از وب سایت ها بازدید کرده و محتوا را دانلود میکند. محدود کردن نرخ Googlebot به معنای کاهش سرعت خزیدن گوگل در یک وب سایت است.
عبارت نرخ خزیدن گوگل به تعداد درخواست صفحات وب در ثانیه که Googlebot ارسال می کند اشاره دارد. مواقعی وجود دارد که ممکن است یک ناشر بخواهد سرعت Googlebot را کاهش دهد، برای مثال اگر باعث بارگذاری بیش از حد سرور شود.
گوگل چندین روش را برای محدود کردن نرخ خزیدن Googlebot توصیه می کند، که مهمترین آنها استفاده از کنسول جستجوی گوگل است. محدود کردن نرخ از طریق کنسول جستجو، سرعت خزیدن را برای یک دوره 90 روزه کاهش میدهد.
یکی دیگر از راههای تأثیرگذاری بر نرخ خزیدن Google، استفاده از Robots.txt برای جلوگیری از خزیدن Googlebot در صفحات، فهرستها (دستهها)، یا کل وبسایت است.
یک چیز خوب در مورد Robots.txt این است که فقط از گوگل میخواهد از خزیدن خودداری کند و از گوگل نمی خواهد یک سایت را از فهرست حذف کند. با این حال، استفاده از robots.txt میتواند منجر به «اثرات بلندمدت» روی الگوهای خزیدن گوگل شود.
شاید به همین دلیل راه حل ایده آل استفاده از کنسول جستجو باشد. Google در وبلاگ Search Central خود راهنمایی منتشر کرد و به ناشران توصیه کرد از کدهای پاسخ 4XX (به جز کد پاسخ 429) استفاده نکنند.
پست وبلاگ به طور خاص به استفاده نادرست از کدهای 403 و 404 برای محدود کردن نرخ اشاره کرد، اما این راهنمایی برای همه کدهای پاسخ 4XX به جز 429 اعمال میشود.
این توصیه ضروری است زیرا آنها شاهد افزایش ناشرینی بوده اند که از این کدهای پاسخ خطا برای محدود کردن سرعت خزیدن Google استفاده می کنند.
- کد پاسخ 403 به این معنی است که بازدید کننده (در این مورد Googlebot) از بازدید از صفحه وب منع شده است.
- کد پاسخ 404 به Googlebot می گوید که صفحه وب کاملاً از بین رفته است.
- کد پاسخ خطای سرور 429 به معنای “درخواست های بسیار زیاد” است و این یک پاسخ خطای معتبر است.
با گذشت زمان، اگر گوگل به استفاده از این دو کد پاسخ خطا ادامه دهد، ممکن است در نهایت صفحات وب را از فهرست جستجوی خود حذف کند. این بدان معناست که صفحات برای رتبه بندی در نتایج جستجو در نظر گرفته نمی شوند.
در نهایت، گوگل استفاده از کدهای پاسخ خطای 500، 503 یا 429 را توصیه میکند. کد 500 به این معنی است که یک خطای داخلی سرور وجود دارد. پاسخ 503 به این معنی است که سرور قادر به رسیدگی به درخواست یک صفحه وب نیست.
گوگل هر دوی این نوع پاسخ ها را به عنوان خطاهای موقتی در نظر میگیرد. بنابراین بعداً دوباره می آید تا بررسی کند که آیا صفحات دوباره در دسترس هستند یا خیر.
یک پاسخ خطای 429 به ربات میگوید که درخواستهای زیادی دارد و همچنین میتواند از آن بخواهد که قبل از خزیدن مجدد برای مدت زمان مشخصی منتظر بماند.