Dienstleister für Prozessautomatisierung, Datenhandling und Web.

Crawling

Die digitalen Helfer

Was ist ein Crawler?

Ein Crawler ist ein Computerprogramm, welches automatisch Webseiten analysiert und Daten sammelt. Diese Daten werden in strukturierter Form wie beispielsweise einer Excel-Liste bereit gestellt.

Viele unternehmerische  Aufgaben sind sehr zeitaufwendig, wie etwa die Recherche von Informationen und Daten im Internet. Ein Crawler übernimmt das Zusammentragen solcher Informationen.

Welche Anwendungen ergeben sich daraus?

Ein Crawler arbeitet auch mit bestehenden Daten und Listen, um beispielsweise Abgleiche durchzuführen oder die Daten mit Zusatzinformationen zu ergänzen.

So kann etwa über den EAN Code eines Lebensmittels die Allergeninformation gesucht und ergänzt werden, sofern diese Information im Internet frei verfügbar ist.

Referenzprojekte

FAQ's - Häufig gestellte Fragen

Beim Crawling oder automatischen Scraping wird eine Software oder ein Algorithmus angewendet, der mehrere Webseiten durchsucht, um Informationen zu extrahieren.

Das Crawling ist dann legal, wenn es sich um öffentlich zugängliche Daten handelt – sich also hinter keinem Login befinden. Wir empfehlen das Urheberrecht und die Nutzungsbedingungen der Webseite zu beachten.

Als Ausgabeformate eigenen sich:

  • einfache Listen wie CSV oder Excel
  • strukturierte Daten als XML
  • Grafische Reports als PDF
  • Übergabe an Systeme über Schnittstellen und API’s

Crawler oder auch Spider sind eine spezielle Art von “Bots”, die Webseiten durchsuchen. Dieser Vorgang wir auch als Web-Scraping oder Web-Harvesting bezeichnet.

Nein. Manche Webseiten haben technische Vorkehrungen getroffen, die das Crawling erschweren oder verhindern. Dies geschieht beispielsweise durch Blockierung des Crawlers nach einer bestimmten Anzahl von Abfragen oder das Vorschalten eines Logins, um an die Daten zu kommen.