Webcrawler
Ein Webcrawler dient dem Sammeln von Daten im Internet. Wenn ein solcher Crawler eine Webseite besucht, ließt er alle Inhalte (Texte) aus, speichert die Informationen in einer Datenbank und erfasst alle internen und externen Links die auf dieser Webseite vorhanden sind. Die Links werden gespeichert und von dem Webcrawler zu spätern Zeitpunkten besucht. Der Webcrawler sammeln somit alle Informationen einer Homepage und sammelt gleichzeitig Informationen über die Verlinkung der Webseiten untereinander. Über die gesammelten Informationen können nach und nach alle Webseiten im Internet erfasst werden, sofern sie mindestens einmal von einer anderen Webseite verlinkt sind. Webcrawler bilden den Grundstein jeder modernen Suchmaschine und benötigen Unmengen an Rechenkapazität weshalb große Suchmaschinen ganze Cluster bereitstellen die die Aufgaben des crawlens übernehmen. |