Настройка отслеживания

Настройте, какой контент будет собирать на страницах Робот, а также другие параметры сканирования.

Как перейти в Настройки

  1. Перейдите в раздел Радар.
  2. Нажмите на панели с фильтрами.
  3. Выберите Дополнительные настройки.

Радар: Как перейти в Настройки инструмента

Основные

  • Макс. редиректов — позволяет отключить следование редиректам для парсинга контента страниц (чтобы Робот не следовал редиректам, выберите 0). Чтобы увидеть редиректы, выберите раздел HTTP Code;
  • User Agent — измените UserAgent, чтобы посмотреть, какой контент на сайте видят пользователи с разных типов устройств или разные поисковые боты;
  • Пауза между открытиями страниц/ресурсов на станицах — периодичность, с которой робот может открывать страницы или ресурсы на них. Если указать маленький таймаут, анализ завершится быстрее, но сайт может «упасть» из‑за увеличенной нагрузки. Чем больше таймаут, тем дольше будет идти проверка;
  • Использовать Cookie — включите эту настройку, если ваша антибот система использует куки. Включение кук может привести к росту персонализированной информации и искажению проверок;
  • Местоположение серверов — измените местоположение сервера для обхода блокировок сайта;
  • Вырезать <script>; — вырезает теги <script> и <style>. Применяется перед парсингом;
  • Вырезать теги (на вкладке Отслеживание контента) — вырезает все теги. При выборе этой опции также игнорируется Javascript, то есть вырезаются теги <script> и <style> перед парсингом, а затем из собранных значений еще вырезаются теги.

Отслеживание контента

С помощью настроек сбора контента можно собирать со страницы только нужную вам информацию, например, каноническую ссылку, тег H2, цену товара и т.п. Также на страницах может быть динамический контент: рейтинги, голосования, сортировка товаров, фильтры и статусы, который, как правило, не нужно отслеживать.

Включите отслеживание контента, чтобы он собирался ✅
По умолчанию сбор Контента выключен. Перейдите в Дополнительные настройки ‑> Отслеживание и передвиньте ползунок у опции Контент, чтобы он собирался.

С помощью тегов

Используйте специальные теги, чтобы управлять сбором данных со своего сайта. С помощью них можно указать Роботу, какой участок кода нужно отслеживать или, наоборот, не отслеживать при парсинге. Теги нужно указать до и после нужного участка кода. На одной странице может быть установлено несколько пар разрешающих и запрещающих тегов.

  • Разрешающие теги:

    <!‑‑start_content‑‑> и <!‑‑end_content‑‑>
  • Запрещающие теги:

    <!‑‑start_content_off‑‑> и <!‑‑end_content_off‑‑>

С помощью регулярного выражения

Используйте регулярные выражения, чтобы собирать нужную информацию со страниц сайтов, к коду которых у вас нет доступа, например, с сайтов конкурентов.

Использовать регулярные выражения можно только для указания того, что необходимо отслеживать. Запретить отслеживать определенные участки таким образом нельзя.

Проверить правильность составления регулярного выражения можно с помощью специальных сервисов, например, regex101.com 🤖

Примеры регулярных выражений:

  • получение цен и характеристик товаров:

    wrap‑order">.*?<span class="price"><span>(.*?)</span>.*?<ul class="properties">(.*?)</ul>
  • анкоры ссылок:

    class="tile‑card__title"[^>]*>(.*?)</a>