مقالات دیجیتال مارکتینگ پارس اوستا

بودجه خزش (Crawl Budget) چیست و راه های افزایش آن

خزش ربات های گوگل و بودجه خزش چرا باید به بودجه خزش اهمیت داد؟ راهکارهای افزایش بودجه خزش دلایل هدر رفت بودجه خزش گزارش Crawl…

وقتی سایتی بوجود میاد یا محتوایی تولید میشه باید به گوگل معرفی یا ایندکس بشه، وگرنه انگار وجود نداره و کسی اونو نمی بینه. وظیفه ایندکس کردن صفحات سایت به عهده خزنده های گوگل (Crawler) هست ولی بنظرت تا یه محتوا تولید شد گوگل سریع خزنده هاشو میفرسته تو سایت یا زمان مشخص داره؟

روزانه میلیون ها صفحه در حال اضافه شدن به گوگل هستن برا همین گوگل تصمیم گرفته خزنده هارو با زمان بندی سمت سایت ها بفرسته. یجورایی اونها رو تو صف میذاره و بررسی میکنه و در یه بازه زمانی میاد و صفحات رو چک میکنه. ولی چن صفحه رو بررسی و ایندکس میکنه؟ چرا بعضی سایت ها روزانه ۱۰۰ صفحه خزیده میشن ولی بعضی ها روزی ۲تا؟ نحوه کار موتورهای جستجو رو کامل براتون توصیح دادیم.




فهرست:




خزش ربات های گوگل و بودجه خزش

بودجه خزش

همانطور که از اسمش پیداست، ماموریت خزنده های گوگل خزیدن توی سایت هست. خزش یعنی ربات میاد محتوای آن رو صفحات سایت شما رو تجزیه و تحلیل میکنه. بدون وجود این ربات ‌ها، گوگل قادر نبود محتوای مورد نیاز کاربر رو بهش نشون بده.

ربات های گوگل دائماً دنبال محتوا و به روز رسانی های جدید هستند

هدفشون؟

هدف ربات های گوگل بررسی صفحات جدید و کمک به گوگل برای سازماندهی اونا بر اساس ارتباط موضوع با متن است.

بودجه خزیدن، یعنی تعداد صفحاتی که در یک بازه زمانی مشخص به وسیله همین ربات ها بررسی یا ایندکس میشن.

هر سایت بسته به فعالیتی که داره، تعداد صفحات، عمر دامنه، حتی تعداد کامنت ‌ها و نظرات و … بودجه خزش میگیره. اگه سایت شما تازه تاسیس هست یا صفحات کمی داره بودجه کمتری نسبت به سایت های رقیب تون با عمر بیشتر میگیره. اما نگران این موضوع نباشید. سعی کنید محتوای خوب و سئو شده تولید کنید تا توجه بیشتری از گوگل دریافت کنید. اینجوری بیشتر به چشمش میاید و رتبه سایت تون افزایش پیدا میکنه.




چرا باید به بودجه خزش اهمیت داد؟

امکانات گوگل برای بررسی سایت ها خیلی زیاده اما این عادلانه نیست که یک سایت به صورت مداوم مورد بررسی ربات‌ ها قرار بگیره ولی سایت دیگه ای توسط ربات ‌ها بررسی نشه. پس گوگل سایت ها رو بودجه بندی کرد.

با توجه به تعداد بی پایان صفحات وب موجود، خزنده ها مجبورند منابع کاوش خودش رو به تعداد محدود به هر سایت بدن. برای درک بهتر بودجه خزیدن، تکنیک ساده ای بهتون یاد میدم: تعداد صفحات جدید خزیده شده قبل و بعد از بهینه سازی مقایسه کنید. وقتی محتوای بهتر و سئو شده تولید کنید می بینید که بودجه شما کم کم افزایش پیدا میکنه.

اگر محتوای خود را به روزرسانی کنید، خزنده های گوگل بودجه خزش سایت شما را افزایش می دهند.

اگه می خواید صفحات سایت شما به سرعت ایندکس شوند پس به بهینه سازی بودجه خزیدن خود فکر کنید.




راهکارهای افزایش بودجه خزش

افزایش بودجه خزش

چند تا نکته میگم که با رعایت کردنش میتونی بودجه‌ ی خزش رو افزایش بدی:

تعداد صفحات یتیم

به اختصار بهش OP هم میگن. صفحه یتیم یعنی صفحاتی که هیچ لینکی به اون ها داده نشده. سعی کنید صفحات یتیم سایت خود را به حداقل برسانید تا بودجه خزش سایت شما افزایش پیدا کنه.

به روز رسانی سایت

محتوای قبلی را به روز رسانی کنید. گوگل عاشق به روز رسانیه چرا؟ چون داری بهش نشون میدی من محتواهای قدیمی رو فراموش نکردم و دارم آپدیت میکنم. همین کار به ظاهر کوچیک هم بودجه رو بیشتر میکنه هم تو رتبه سایت تاثیر داره.

ارورهای سایت

حالا یا ارورهای ۴۰۴ هست یا ارورهایی که توی سرچ کنسول میتونیم پیدا کنیم. هرچی ارورهای ۴۰۴ سایت کمتر باشه به نفع سایت هستش. هر چقدر که گوگل عاشق به روز رسانیه از ۴۰۴ متنفره؛ چون وقتی کاربر وارد سایت میشه و این ارور رو میبینه درواقع اعتبار گوگل زیر سوال میره که چرا صفحه خالی نمایش میده. پس حتما حواستون به ارورها باشه.

سرعت سایت

می ‌تونیم به کمک gtmetrix عیب ها رو برطرف کنیم و سرعت سایت را بالا ببریم. هرچی سرعت لود شدن صفحه کمتر باشه، کاربر ناراضی تر میشه؛ رو رتبه بندی و بودجه خزش گوگل نیز تاثیر میذاره.

فایل robot.txt

این فایل در واقع حکم نقشه و راهنما داره اما نه برای کاربر بلکه برای ربات های گوگل. در کل این فایل به ربات ها میگه کجاها خزش کنن و سمت چه قسمت هایی نره.

برای آشنایی با فایل Robots.txt به مقاله “فایل robots.txt چیست؟ روش ساخت فایل robots.txt” ما سر بزنید.




دلایل هدر رفت بودجه خزش

محتوا تولید کردی، سرعت سایت هم بیشتر کردی، ارور ها رو هم برطرف کردی ولی بازم بودجه تغییر نکرده. دلیلش رو باید توی سایت خودت پیدا کنی چون داره منابع رو هدر میده. در ادامه هشت مورد که بودجه خزش سایت شما رو هدر میدن بهتون معرفی میکنیم.

۱. صفحات کپی

از بزرگترین اشتباهاتی که مدیران سایت انجام میدن، برچسب ‌گذاری‌ های متعدد و بدون برنامه ‌ریزی هست. این برچسب ها صفحات مجزا به وجود میارن که در بیشتر مواقع محتوای تکراری دارند. همین کار باعث بوجود اومدن صفحات کپی یا duplicate content تو سایت میشه که بودجه خزش رو هدر میده.

۲. جلوگیری از ایندکس صفحات پارامتری

از جمله صفحاتی که بودجه خزش رو هدر میده، صفحاتی با URL های پارامتری هست. URL پارامتری در انتهای آدرس صفحه ش علامت هایی مثل علامت سوال و غیره ایجاد میکنه. این صفحات معمولا در سایت ‌های فروشگاهی که فیلترهای جستجو دارند بیشتر دیده میشه. برای بهینه کردن بودجه خزش نباید اجازه بدید این صفحات ایندکس بشن یا از تگ canonical یا لینک متعارف استفاده کنید.

۳. حذف صفحات زامبی

این صفحه ها که بهشون زامبی پیج میگن، از نظر محتوایی ارزش چندانی برای گوگل و کاربر ندارند. معمولا این صفحات کمتر از دویست کلمه محتوا دارن و بازدیدشون هم پایین هستش. صفحات زامبی قدرت سئو سایت رو پایین میارن و از طرفی بودجه خزش رو هم هدر میدن.

۴. تولید محتوای نامنظم

تولید محتوای مستمر در سایت باعث میشه تا گوگل سایت شما رو به عنوان یک سایت پویا شناسایی کند. هرچقدر تولید محتوا زمان بندی شده تر باشه به بودجه شما کمک بیشتری میکنه. پس حتما زمان بندی رو رعایت کنید و نامنظم کاری نکنید.

۵. لینک ‌های داخلی

لینک سازی داخلی موجب افزایش قدرت محتوا میشه. زمانی که ربات های خزنده در حال بررسی محتوا هستن به لینک‌ های داخلی اون مراجعه میکنن. اگر لینک سازی داخلی سایت شما مشکل داشته باشه در واقع بودجه ‌ی خزش سایت تون رو هدر دادید.

۶. سایت مپ

نقشه سایت یه فایل متنی با فرمت xml هست که روی هاست قرار میگیره. توی این فایل، لیست کاملی از آدرس صفحاتی که می ‌خواید ایندکس بشن رو قرار میدیم. به کمک این فایل ربات‌ های خزنده با سرعت بیشتری یک سایت رو خزش میکنند. نداشتن سایت مپ مقداری از بودجه شما رو هدر میده چون گوگل خودش باید راه رو پیدا کنه.

۷. صفحات غیرقابل ایندکس

خیلی از صفحات سایت غیرقابل ایندکس هستن اما در دسترس ربات های خزنده قرار میگیرن. در واقع موتورهای جستجو بودجه سایت رو برای ایندکس کردن این صفحات هدر میدن. با مدیریت صفحات غیرقابل ایندکس از هدر رفت بودجه خزش جلوگیری کنید.

۸. مدیریت لینک ‌های شکسته یا ریدارکت شده

لینک های شکسته به صفحاتی ارجاع میشن که وجود ندارن. لینک های ریدایرکت شده هم آدرس های صفحاتی هستن که به URL های دیگه ای هدایت میشن. زنجیره‌ ای طولانی از ریدایرکت ها و لینک های شکسته موتورهای جستجو رو به بن بست میرسونه. پس با اصلاح لینک های شکسته از هدر رفتن بودجه جلوگیری کنید.




گزارش Crawl stats در سرچ کنسول

برای فهمیدن میزان خزش ربات ها باید سایت رو به سرچ کنسول وصل کنید. زمانی که سایت تون رو به سرچ کنسول گوگل متصل کنید از قسمت Setting گزینه Crawl stats رو می بینید گزینه Open report رو بزنید تا گزارش کامل بودجه بندی رو ببینید.

این گزارش شامل نمودارها و بلوک های مختلف هست که هرکدوم رو جداگانه بررسی میکنیم.

نمودار total crawl requests

نمودار total crawl requests

این نمودار در واقع تعداد کل ریکوست های بات گوگل رو به ما نشون میده که شامل ریکوست هایی است که با پاسخ موفق و ناموفق مواجه شدند.

این بخش فقط منحصر به صفحات HTML نیست و تعداد درخواست ‌های منابع صفحه مانند فایل ‌های CSS هم شامل میشه.

نمودار بعدی total download size

نمودار بعدی total download size


مربوط به حجم بایت هایی که با crawl شدن صفحه ها هرروز دانلود میشن رو نشون میده. اگه Cache برای منابع فعال باشد فقط در اولین مرتبه درخواست حجم اونا محاسبه میشه.

نمودار average response time

نمودار average response time

مدت زمان میانگینی که به درخواست بات گوگل پاسخ داده شده رو نمایش میده.

Host status

Host status

در پایین نمودار، بخش مربوط به Host status رو بررسی میکنیم. این بخش وضعیت پاسخ ‌دهی سروری که شما خریداری کردید در برابر درخواست‌ های بات گوگل رو مشخص می‌ کنه.

by response

by response

بعد اون ۲ بلوک رو می بینید. بلوک اول بلوک by response هست که در این بلوک انواع پاسخ ‌هایی که به درخواست ‌های crawl داده شده رو نمایش میده. با کلیک کردن روی هر کدوم از اینا می‌تونیم جزییاتشو ببینیم.

گزینه ۲۰۰ یعنی ربات ها در برخورد با این صفحات مشکلی نداشتن و به راحتی خزش انجام شده. اگه صفحه‌ ای رو ریدایرکت ۳۰۱ کرده باشیم همچنین پاسخی به ما میده. در مواردی که برخی از صفحات رو حذف کرده باشیم پاسخ ۴۰۴ رو نشان میده. اگر صفحه‌ ی شما از زمان آخرین خزش تغییری نکرده باشه شما در مقابل اون پاسخ ۳۰۴ رو مشاهده می‌ کنید.

by file type

by file type

بلوک بعدی بلوک by file type هست. اینجا انواع فایل‌هایی که توسط خزنده ‌های گوگل ایندکس شده رو می‌تونید مشاهده کنید. مثلا فایل ‌های HTML، CSS، جاوا اسکریپ و فایل ‌های دیگه تو این بخش قرار میگیرن.

by purpose

by purpose

این بلوک شامل دو بخش Refresh و Discovery میشه. URL هایی که واسه اولین بار شناسایی و کرال میشن در بخش Refresh قرار می‌ گیرن و URLهایی که قبلا شناسایی شدن در بخش Discovery. روی هرکدوم که کلیک کنید جزییات اون URL ها رو می بینید.

by Googlebot type

by Googlebot type

همونطور که میدونید گوگل برای اهداف مختلف میاد از بات های مختلفی استفاده میکنه و هر کدوم رفتارهای مختص به خودشون دارن. که انواع رباتها رو اینجا گوگل به شما نشون میده.

جمع بندی

افزایش یا کاهش بودجه خزش متأسفانه یا شایدم خوشبختانه دست مدیران سایت نیست که به دلخواه خودشون کم و زیادش کنن البته راهکارهایی برای بالا بردن میزان بودجه هست ولی در آخر این گوگل هست که تعیین میکنه کدوم سایت لیاقت گرفتن بودجه بیشتر دارد.

اگه سایت نوپا هستین از بالا بودن رتبه و بودجه رقبا نترسید. اونا هم یه روزی سایت جدید بودن پس شما هم شروع کنید و اولین قدم ها رو درست و اصولی بردارید تا رفته رفته شاهد پیشرفت سایت و ربته تون باشید.

در این زمینه میتوانید از مشاوره رایگان پارس اوستا استفاده کنید. در صورت داشتن هر گونه سوال با تیم پشتیبانی ما در ارتباط باشید.

0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها