Сканирование сайтов

Сканирование сайтов позволяет извлекать контент с любого общедоступного веб-сайта. KnowStack обходит все страницы указанного вами домена и сохраняет текстовое содержимое для последующего использования при создании Базы знаний.

Как просканировать сайт

  1. Перейдите в раздел «Сбор данных» и выберите вкладку «Сайты».
  2. В поле «Сканировать сайт» введите доменное имя (например, example.com) или полный URL (например, https://example.com/docs).
  3. Нажмите «Начать сканирование». Система начнёт извлекать контент со всех страниц, доступных на этом домене.
  4. Появится сообщение о статусе с информацией о ходе выполнения. Сканирование выполняется в фоновом режиме — вы можете покинуть страницу и вернуться позже.
  5. По завершении просканированный сайт появится в списке «Просканированные сайты» под формой.

Просмотр просканированного контента

После завершения сканирования нажмите на любой сайт в списке просканированных сайтов, чтобы просмотреть его отдельные страницы. Для каждой страницы отображается URL, извлечённый текстовый контент и статус сканирования. Вы можете просматривать содержимое страниц, удалять отдельные страницы, которые не нужно включать, или повторно сканировать сайт для получения нового контента.

Управление сканированием

  • Повторное сканирование — нажмите на просканированный сайт, чтобы запустить новое задание сканирования и получить страницы, изменившиеся с момента последнего сканирования
  • Удаление отдельных страниц — удалите конкретные страницы из результатов сканирования, если они содержат нерелевантный контент
  • Удаление всех результатов — используйте кнопку «Удалить всё», чтобы удалить все просканированные сайты сразу
  • Просмотр истории заданий — для каждого сайта отображаются задания сканирования со статусом (завершено, ошибка, выполняется) и количеством найденных страниц

Количество страниц, доступных для сканирования, зависит от вашего тарифного плана. Тариф Professional позволяет сканировать до 100 страниц за один раз. Тарифы Business и Enterprise не имеют ограничений на сканирование.

KnowStack может сканировать только общедоступные страницы. Страницы, защищённые авторизацией, платным доступом или требующие рендеринга JavaScript, могут извлекаться некорректно. Если в результате сканирования найдено меньше страниц, чем ожидалось, возможно, сайт блокирует сканеры.