مفهوم و اهمیت Crawl Budget

Aug 28, 2024

نوت‌های درس در مورد Crawl Budget

مفهوم Crawl Budget

  • Crawl Budget: مقدار زمان و منابعی که گوگل برای کرال کردن سایت‌ها اختصاص می‌دهد.
  • کرالر (Crawler): رباتی که به جای انسان‌ها برای جستجو و دریافت اطلاعات از صفحات وب عمل می‌کند.

نحوه عملکرد کرالر

  • کرالر به سرورهای سایت‌ها درخواست می‌زند، اطلاعات را دانلود کرده و آنالیز می‌کند.
  • گوگل به دلیل حجم بالای وب نمی‌تواند به‌طور روزانه تمام صفحات را کرال کند.
  • منابع گوگل محدود هستند، بنابراین باید بین سایت‌ها تقسیم شوند.

اهمیت Crawl Budget

سایت‌های بزرگ و متوسط

  1. سایت‌های بزرگ با بیش از یک میلیون صفحه و تغییرات کم (مثلاً هفته‌ای یک بار).
  2. سایت‌های متوسط با بیش از ده هزار صفحه و تغییرات روزانه.
  3. سایت‌های با صفحات Discovered Currently Not Indexed که به دلیل محدودیت منابع کرال نشده‌اند.

برای چه سایت‌هایی مهم است؟

  • برای سایت‌های با تغییرات سریع مانند دیجی‌کالا یا دیوار، بهینه‌سازی کرال باجت مهم است.

شاخص‌های تأثیرگذار بر Crawl Budget

1. Crawl Capacity Limit

  • سرعت پاسخ‌دهی سرور: هر چه سریع‌تر پاسخ دهد، تعداد صفحات بیشتری کرال می‌شود.
  • خطاهای سرور: افزایش تعداد خطاهای 500 و 400 می‌تواند موجب کاهش کرال باجت شود.

2. Crawl Demand

  • خود سایت و فعالیت‌های آن: سایت‌های فعال و به‌روز بیشتر کرال می‌شوند.
  • کیفیت صفحات: صفحات با کیفیت و به‌روز بیشتر مورد توجه قرار می‌گیرند.

راهکارهای بهینه‌سازی Crawl Budget

  1. حذف محتواهای تکراری: از بین بردن دپلیکیت کانتنت و غیره.
  2. استفاده از Robots.txt: محدود کردن دسترسی به صفحات غیرمهم.
  3. به‌روزرسانی نقشه سایت: تأمین اطمینان از اینکه صفحات مهم به‌روز هستند.
  4. مدیریت ریدایرکت‌ها: جلوگیری از ایجاد ریدایرکت‌های زنجیره‌ای.
  5. سرعت بارگذاری صفحات: بهینه‌سازی زمان بارگذاری.
  6. نظارت بر کرالینگ سایت: بررسی این که کرالرها در کجا سر می‌زنند.

نتیجه‌گیری

  • نگهداری از صفحات مهم در نقشه سایت و بهینه‌سازی سرعت بارگذاری و کیفیت صفحات می‌تواند به بهبود کرال باجت کمک کند.
  • نظارت بر فعالیت‌های کرالر و آسیب‌شناسی مشکلات مرتبط با آن اهمیت دارد.