Краулинговый бюджет и как это работает

Краулинговый бюджет и как это работает


В данной статье я решил разложить по полочкам такое понятие как краулинговый бюджет и разобрать факторы, которые влияют на нормальное состояние и рост краулингового бюджета.

У каждого сайта свой краулинговый бюджет и посмотреть его можно на странице https://www.google.com/webmasters/tools/crawl-stats?hl=ru&authuser=1&siteUrl

Что такое краулинговый бюджет

Простыми словами говоря, это лимит страниц, которые поисковой робот Google например обойдет для Вашего сайта за один день. Для обычных блогов с этим как правило нет проблем, а вот для больших сервисов и порталов, где ежедневно публикуется и обновляется множество нового материала и все это роботам поисковых систем нужно обойти, часто возникают проблемы с индексированием.

Владельцы порталов просто не понимают. Почему хороший и уникальный материал не попадает быстро в индекс, почему поисковые роботы его обходят стороной и не индексируют.

Ниже на скрине представлен краулинговый бюджет моего блога - Crawl Stats или статистика сканирование как это называется в Google. Он значительно просел в последнее время и на то есть свои причины. Буду работать над тем, чтобы увеличить этот показатель.

Краулинговый бюджет и как это работает

На скрине видно, что ежедневный краулинговый бюджет моего сайта составляет всего 83 страницы. Лучше ориентироваться именно на число в среднем т.к. низкий и высокий краулинговый бюджет это просто крайности.

Получается, что Если при правильно настроенной карте сайта sitemap.xml для первоочередного и повторного сканирования роботам поисковых систем должны предлагаться не более 83 страниц в сутки.

К этим страницам относятся все новые материалы, опубликованные на сайте, все изменения страниц по контенту, вроде новых комментариев или дополнения статей содержимым. Комментарии кстати учитываются именно встроенные в сам сайт, а не сторонние сервисы вроде формы комментариев от вконтакте.

Как увеличить краулинговый бюджет сайта

Ну во-первых как было сказано выше, у Вас должна быть хорошо настроена карта сайта sitemap.xml и файл robots.txt, ведь именно на них первым делом обращают свое внимание поисковые роботы, при посещения сайта. Именно из их содержимого они узнают что не надо индексировать и на что нужно обратить внимание и обойти в первую очередь.

Если спустя определенное время, после приведения в порядок этих файлов Вас все еще не устраивает результат по цифрам краулингового бюджета можете обратить внимание на такую штуку как параметр last-modified, о котором я напишу в отдельной статье.

Если говорить простыми словами, то настроив этот параметр у себя на сайта, При посещении страницы сайта поисковым роботом ему будет отдаваться код ответа сервера 304 - это означает что страницы не изменилась с момента последнего посещения и не надо ее повторно индексировать.

При это не растрачивается зазря единица краулингового бюджета и робот идет дальше по страницам в поисках новых или обновленных страниц. Это очень удобно использовать в крупных проектах.

В самом начале статьи, я говорил, что размер краулингового бюджета у всех сайтов разных. Связано это с тем, что каждый проект публикует разное количество материала на сайт ежедневно и краулинговый бюджет старается примерно построиться под эту цифру с небольшим запасом. К тому же и обновляется материал у кого-то по несколько раз на день, у кого-то раз в 3 месяца.

Создаваемые самим движком сайта, всевозможными фильтрами и прочими скриптами множество бесполезных страниц, которые еще и в карту сайта попадают, могут наоборот несколько подорвать краулинговый бюджет проекта и тогда заместо полезных страниц сайта в индекс будет попадать много ненужного мусора.

Поисковые роботы с легкостью могут оценивать качество таких страниц и на основе этого снижать лимит сканирования страниц для этого проекта - ибо не заслужили.

Поделитесь статьей с друзьями

Адаптивная, SEO подготовленная WordPress тема
12345 (5 голос(а), в результате: 5,00 из 5)
Загрузка...

+ Комментарии отсутствуют

Добавить свой комментарий