Сканирование сайтов

Сканирование сайтов позволяет извлекать контент с любого общедоступного веб-сайта. KnowStack обходит все страницы указанного вами домена и сохраняет текстовое содержимое для последующего использования при создании Базы знаний.

Как просканировать сайт

Перейдите в раздел «Сбор данных» и выберите вкладку «Сайты».
В поле «Сканировать сайт» введите доменное имя (например, example.com) или полный URL (например, https://example.com/docs).
Нажмите «Начать сканирование». Система начнёт извлекать контент со всех страниц, доступных на этом домене.
Появится сообщение о статусе с информацией о ходе выполнения. Сканирование выполняется в фоновом режиме — вы можете покинуть страницу и вернуться позже.
По завершении просканированный сайт появится в списке «Просканированные сайты» под формой.

Просмотр просканированного контента

После завершения сканирования нажмите на любой сайт в списке просканированных сайтов, чтобы просмотреть его отдельные страницы. Для каждой страницы отображается URL, извлечённый текстовый контент и статус сканирования. Вы можете просматривать содержимое страниц, удалять отдельные страницы, которые не нужно включать, или повторно сканировать сайт для получения нового контента.

Управление сканированием

Повторное сканирование — нажмите на просканированный сайт, чтобы запустить новое задание сканирования и получить страницы, изменившиеся с момента последнего сканирования
Удаление отдельных страниц — удалите конкретные страницы из результатов сканирования, если они содержат нерелевантный контент
Удаление всех результатов — используйте кнопку «Удалить всё», чтобы удалить все просканированные сайты сразу
Просмотр истории заданий — для каждого сайта отображаются задания сканирования со статусом (завершено, ошибка, выполняется) и количеством найденных страниц

Количество страниц, доступных для сканирования, зависит от вашего тарифного плана. Тариф Professional позволяет сканировать до 100 страниц за один раз. Тарифы Business и Enterprise не имеют ограничений на сканирование.

KnowStack может сканировать только общедоступные страницы. Страницы, защищённые авторизацией, платным доступом или требующие рендеринга JavaScript, могут извлекаться некорректно. Если в результате сканирования найдено меньше страниц, чем ожидалось, возможно, сайт блокирует сканеры.

Сканирование сайтов

Как просканировать сайт

Просмотр просканированного контента

Управление сканированием

Вход

Создать аккаунт