Website-Crawling

Mit dem Website-Crawling können Sie Inhalte von beliebigen öffentlichen Websites extrahieren. KnowStack durchsucht alle Seiten der von Ihnen angegebenen Domain und speichert den Textinhalt zur Verwendung bei der Wissensdatenbank-Erstellung.

So crawlen Sie eine Website

  1. Gehen Sie zu Datenerfassung und wählen Sie den Tab Websites.
  2. Geben Sie im Feld „Website crawlen" einen Domainnamen (z. B. example.com) oder eine vollständige URL (z. B. https://example.com/docs) ein.
  3. Klicken Sie auf „Crawling starten". Das System beginnt, Inhalte von allen erreichbaren Seiten dieser Domain zu extrahieren.
  4. Eine Statusmeldung zeigt den Fortschritt an. Das Crawling läuft im Hintergrund – Sie können die Seite verlassen und später zurückkehren.
  5. Nach Abschluss erscheint die gecrawlte Website in der Liste „Gecrawlte Websites" unterhalb des Formulars.

Gecrawlte Inhalte anzeigen

Nachdem ein Crawl abgeschlossen ist, klicken Sie auf eine beliebige Website in der Liste der gecrawlten Websites, um deren einzelne Seiten anzuzeigen. Für jede Seite werden die URL, der extrahierte Textinhalt und der Crawl-Status angezeigt. Sie können den Seiteninhalt einsehen, einzelne Seiten, die Sie nicht einbeziehen möchten, löschen oder die Website erneut crawlen, um neue Inhalte aufzunehmen.

Crawls verwalten

  • Erneut crawlen -- Klicken Sie auf eine gecrawlte Website, um einen neuen Crawl-Job zu starten, der alle Seiten erfasst, die sich seit dem letzten Crawl geändert haben\nEinzelne Seiten löschen -- Entfernen Sie bestimmte Seiten aus den Crawl-Ergebnissen, wenn diese irrelevante Inhalte enthalten\nAlle Crawls löschen -- Verwenden Sie die Schaltfläche „Alle löschen

Die Anzahl der Seiten, die Sie crawlen können, hängt von Ihrem Tarif ab. Professional-Tarife erlauben bis zu 100 Seiten pro Crawl. Business- und Enterprise-Tarife verfügen über unbegrenztes Crawling.

KnowStack kann nur öffentlich zugängliche Seiten crawlen. Seiten hinter Login-Schranken, Bezahlschranken oder solche, die JavaScript-Rendering erfordern, werden möglicherweise nicht korrekt extrahiert. Wenn ein Crawl weniger Seiten als erwartet findet, blockiert die Website möglicherweise Crawler.