Skanowanie stron

Indeksowanie stron internetowych umożliwia wyodrębnianie treści z dowolnej publicznej witryny. KnowStack przeszukuje wszystkie strony w podanej domenie i zapisuje ich zawartość tekstową, która może być wykorzystana do generowania Bazy wiedzy.

Jak zaindeksować witrynę

  1. Przejdź do sekcji Zbieranie danych i wybierz kartę Strony internetowe.
  2. W polu „Zaindeksuj witrynę" wpisz nazwę domeny (np. example.com) lub pełny adres URL (np. https://example.com/docs).
  3. Kliknij „Rozpocznij indeksowanie". System rozpocznie wyodrębnianie treści ze wszystkich stron znalezionych w tej domenie.
  4. Wyświetli się komunikat o stanie pokazujący postęp. Indeksowanie odbywa się w tle — możesz opuścić stronę i wrócić później.
  5. Po zakończeniu zaindeksowana witryna pojawi się na liście „Zaindeksowane witryny" poniżej formularza.

Przeglądanie zaindeksowanej zawartości

Po zakończeniu przeszukiwania kliknij dowolną witrynę na liście Przeszukane witryny, aby wyświetlić jej poszczególne strony. Dla każdej strony widoczny jest adres URL, wyodrębniona treść tekstowa oraz status przeszukiwania. Możesz przeglądać zawartość stron, usuwać pojedyncze strony, których nie chcesz uwzględniać, lub ponownie przeszukać witrynę w celu pobrania nowych treści.

Zarządzanie przeszukiwaniem

  • Ponowne przeszukiwanie -- Kliknij przeszukaną witrynę, aby uruchomić nowe zadanie przeszukiwania, które pobierze strony zmienione od ostatniego przeszukiwania\nUsuwanie pojedynczych stron -- Usuń konkretne strony z wyników przeszukiwania, jeśli zawierają nieistotne treści\nUsuwanie wszystkich przeszukiwań -- Użyj przycisku „Usuń wszystko

Liczba stron, które możesz przeszukać, zależy od Twojego planu. Plany Professional umożliwiają przeszukanie do 100 stron na jedno skanowanie. Plany Business i Enterprise oferują nieograniczone skanowanie.

KnowStack może przeszukiwać wyłącznie publicznie dostępne strony. Strony chronione logowaniem, płatnymi bramkami dostępu lub wymagające renderowania JavaScript mogą nie zostać poprawnie zindeksowane. Jeśli skanowanie zwróci mniej stron niż oczekiwano, witryna może blokować roboty indeksujące.