Индексирующий робот Яндекса регулярно обходит страницы сайтов и загружает их в поисковую базу. При этом робот может загрузить не все нужные вам страницы из-за их недоступности.
Яндекс. Вебмастер позволяет узнать, какие страницы вашего сайта обходит робот и выявить адреса страниц, которые робот не смог загрузить из-за недоступности сервера, на котором находится сайт, или из-за ошибок в содержимом самих страниц.
Данные о страницах доступны в разделе Статистика обхода Яндекс. Вебмастера. Информация обновляется ежедневно в течение шести часов с момента посещения страниц роботом.
По умолчанию сервис предоставляет данные по сайту в целом. Чтобы просмотреть информацию о конкретном разделе, выберите его из списка в поле с адресом сайта. Доступные разделы соответствуют структуре сайта, известной Яндексу (кроме разделов, добавленных вручную).
Информацию о страницах можно выгрузить в формате XLS или CSV с учетом примененных фильтров .
Примечание. Данные доступны начиная с 20 февраля 2017 г.
Динамика состояния страниц
Информация о страницах представлена следующим образом:
Изменения страниц в поисковой базе
Чтобы просмотреть изменения, установите переключатель в положение Последние изменения. В результате отобразится до 50 000 изменений.
Вебмастер показывает следующие сведения о страницах:
Основываясь на этой информации, можно узнать, как часто робот обходит страницы сайта, а также понять, какие страницы только появились в базе робота, а к каким робот обращается повторно.
Появление страницы в поисковой базе
Для страницы, которую робот обошел впервые, в столбце Было отображается статус N/a, а в столбце Стало — ответ сервера (например, 200 OK ).
После успешной загрузки в поисковую базу страница может появиться в результатах поиска с ближайшими обновлениями поисковой базы. Информация о ней становится доступна в разделе Страницы в поиске .
Повторное обращение робота к странице
Если робот ранее обошел страницу, то при повторном обращении к ней статус может измениться: в столбце Было отображается ответ сервера, полученный во время предыдущего посещения робота, в столбце Стало — ответ сервера, полученный при последнем обращении.
Например, участвующая в поиске страница стала недоступна для робота. В этом случае она исключается из поиска. Через некоторое время после этого ее можно увидеть в списке исключенных в разделе Страницы в поиске .
Удаленная из поиска страница еще может оставаться в поисковой базе для проверки ее доступности. Как правило, робот продолжает обращаться к такой странице, пока на нее ведут ссылки или она не закрыта в файле robots. txt .
Список страниц, которые обошел робот
Чтобы увидеть список страниц, установите переключатель в положение Все страницы. Список может содержать до 50 000 страниц сайта.
Вы можете просмотреть список страниц сайта, которые обошел робот, и следующую информацию о них:
Совет. Если в списке отображаются страницы, которые уже удалены с сайта или не существуют, вероятно, робот находит ссылки на них при посещении других ресурсов. Чтобы робот перестал обращаться к ненужным страницам, запретите их индексирование с помощью директивы Disallow в файле robots. txt .
Фильтрация данных
Информацию о страницах и изменениях в поисковой базе робота можно фильтровать по всем представленным параметрам (дате обхода, URL страницы, коду ответа сервера) с помощью значка. Ниже описано несколько примеров:
По ответу сервера
Можно составить список страниц, которые робот обошел, но не смог загрузить из-за ответа сервера 404 Not Found.
При этом можно выявить новые страницы, недоступные роботу, установив переключатель в положение Последние изменения :
А также — получить общий список страниц, недоступных роботу, установив переключатель в положение Все страницы :
По URL с указанием определенного фрагмента адреса
Можно составить список страниц, адрес которых содержит определенный фрагмент. Для этого выберите из списка значение Содержит и в поле укажите нужное значение.
По URL с указанием специальных символов
Специальные символы позволяют задавать не строгое соответствие строки, а ее начало, подстроку и более сложные условия с применением регулярных выражений. Чтобы использовать их, выберите из списка значение Условия. а само условие введите в поле. Можно добавить несколько условий — каждое из них должно начинаться с новой строки.