Ein wichtiger Baustein für die offene Suchinfrastruktur: Serci WebCrawler gestartet

Der auf Geschwindigkeit ausgelegte Serci WebCrawler startet als erster Teil des Projekts Serci SearchEngine

Ziel des Projekts Serci SearchEngine ist die Bereitstellung einer Open-Source Web-Suchmaschine. In der vollen Ausbaustufe wird die Serci Suite aus einem WebCrawler, einem Indexer mit Index-Tools und einem Query Server bestehen. Als erste Komponente ist der Serci WebCrawler veröffentlicht worden. Er steht als ein potenzieller Crawling-Kandidat für das Sammeln von Daten für den Open Web Index im Rahmen einer Open Search Infrastruktur in den Startlöchern.

Hartmut Stein, Software-Berater, einer der Entwickler des Crawlers und Mitglied der Fachgruppe Tech der Open Search Foundation, erklärt: „Der Serci WebCrawler ist voll auf Geschwindigkeit ausgelegt – schließlich bedeutet eine hohe Crawling-Geschwindigkeit einen schnelleren Durchsatz und einen geringeren Stromverbrauch pro abgerufener Webseite.“ Erste Experimente zeigen, dass der Crawler viel schneller und energieeffizienter ist als andere vergleichbare Crawler, zum Beispiel ist er rund viermal schneller als Heritrix (Messungen müssen noch von unabhängiger Seite überprüft werden).

Ein wichtiger Eckpfeiler für die Open Web Search Initiative der Serci WebCrawler

„Ich bin sehr gespannt, wie der Serci Crawler in der Community und im Verbundbetrieb angenommen werden wird. Nach allem was ich bisher davon gesehen habe, hat er das Potential sich als ein wichtiger Baustein einer Open Search Infrastruktur zu etablieren,“ sagt Dr. Stefan Voigt, Vorstand der Open Search Foundation und einer der Haupt-Koordinatoren des EU-Projekts OpenWebSearch.eu.  „Die Veröffentlichung der ersten Elemente der Serci Suchmaschine durch Hartmut Stein, unterstützt durch NLNet, IT4I und die Universität Passau, allesamt aktive Akteure in der Open Search Community, ist ein tolles Beispiel dafür, wie das Vernetzen von Know-How die offene Internetsuche der Zukunft ermöglichen wird.“

Ein Crawler mit Geschichte

Der Serci WebCrawler ist keine komplette Neuentwicklung. Als ein Derivat des AREXERA X-Crawlers stammt er aus den frühen 2000er Jahren, als die AREXERA GmbH (ehemals TECOMAC GmbH) ihn als Teil eines Toolsets zum Betrieb öffentlicher Suchmaschinen wie Seekport in Deutschland und einigen anderen europäischen Ländern entwickelte. Das Tool war in vollem produktiven Einsatz, bis die Firma ihr Geschäft aufgab.

Der Crawler unterstützt gängige Funktionen wie TLS-Unterstützung, robots.txt, Höflichkeitsregeln, De-Chunking, De-Kompression und die Ausgabe von WARC-Dateien. Er ist in C++ geschrieben und für den dezentralen Betrieb vorbereitet. Für die Verwaltung gibt es ein experimentelles Web-Frontend. Der Serci WebCrawler ist freie Software und kann unter den Bedingungen der Apache License, Version 2.0, weiterverteilt und/oder modifiziert werden.

Neugierig, woher der Name kommt? „Serci“ stammt von dem Esperanto-Wort serĉi: suchen, ermitteln, finden, aufspüren.

Projektseite:
https://opencode.it4i.eu/hstein/serci-searchengine

Über den Entwickler:

Hartmut Stein, Jg. 1956, Dipl.-Phys. war sein Arbeitsleben lang als Softwareberater bzw. -entwickler tätig. Er hat die AREXERA Internet- und Intranet-Suchmaschine im Wesentlichen entwickelt und am AREXERA X-Crawler maßgeblich mitgearbeitet, der die Basis für den Serci WebCrawler darstellt.

Hartmut Stein, Co-Developer WebCrawler Serci