Pünktlich zum Abschluss des 42 monatigen EU Projekts OpenWebSearch.EU, stellen wir spannende Use Cases auf Basis des im Projekt entwickelten offenen Webindex vor
Zur Erinnerung: das OpenWebSearch.EU Projekt wurde von 14 Partner-Organisationen aus dem Forschungs-und Non-Profit Bereich umgesetzt und hatte zum Ziel, einen ersten europäischen offenen Webindex als Kernstück für souveränen strukturierten Zugang zum Internet zu gestalten.
Der OWI (Open Web Index) ist seit Juni 2025 am Start und hat bis dato stolze 1,3 Petabyte Daten gecrawlt. Im Laufe des Projekts wurden über verschiedene Open Calls, insgesamt 15 Drittpartner-Projekte eingegliedert. Das Ziel: Juristische, technische und kommerzielle Analysen und Machbarkeits-Prüfungen rund um den offenen Webindex durchführen, um eine fundierte Basis für den Ausbau einer europäischen Webdateninfrastruktur zu legen.
Sieben der Drittpartnerprojekte (Projekte aus Open Call 2) haben sich mit konkreten technischen Anwendungsbeispielen auf Basis des OWI befasst. Die Projekte zeigen eine Bandbreite dessen, was möglich ist, wenn Webindex-Daten offen zugänglich sind. Die vielversprechenden Ergebnisse haben wir kurz zusammengefasst:
Projekt VERITAS: Faktenprüfung zum Ukrainekrieg mit einem RAG-Chatbot
Die Firma DEXAI (Tschechien) entwickelte einen so genannten Retrieval-Augmented-Generation-Chatbot und eine Chrome-Browsererweiterung zur Echtzeit-Faktenprüfung. Als Testbeispiele wurden Aussagen zum Ukrainekrieg untersucht. Das System filterte 30 Tage OWS-Crawl-Daten, extrahierte Nachrichteninhalte, indexierte mittels Embeddings und nutzte ein etabliertes Large Language Model, um quellengestützte, evidenzbasierte Antworten auf Nutzeranfragen zu generieren. Nutzer:innen können so beliebigen Text auf einer Webseite markieren und erhalten eine sofortige Bewertung auf Basis verifizierter Nachrichtenquellen. Das Projekt zeigt, dass offene Webdaten domänenspezifische Faktenprüfungstools ermöglichen, die andernfalls auf proprietäre Such-APIs angewiesen wären. Die vollständige VERITAS-Geschichte ist hier nachzulesen – https://openwebsearch.eu/results-veritas/
AKASE: Die Argumente der Welt als Wissensgraph
Die Universität Groningen (Niederlande) konstruierte einen Argumentations-Wissensgraphen basierend auf über 105 Millionen Webindex-Dokumenten. Das System identifiziert automatisch argumentative Inhalte – Behauptungen und Prämissen – auf Webseiten, erkennt rhetorische Fehlschlüsse, bewertet die Argumentationslogiken und dokumentiert Stützungs-, Angriffs- und Paraphrasierungsbeziehungen zwischen Argumenten. Zu den Anwendungen gehören eine Suchmaschine, die Ergebnisse nach Argumentationsqualität neu sortiert, und ArgsBase, eine Multi-Agenten-Deliberationsplattform, die den JTS Early Career Researcher Prize gewann.
Die vollständige AKASE-Geschichte ist hier verfügbar – https://openwebsearch.eu/akase-results/
CIFFIL Service: Suchstatistiken zwischen niederländischen Kommunen teilen
Spinque (Niederlande) integrierte das Common Index File Format (CIFF) in seine Suchplattform, um niederländischen Kommunen den einfachen Austausch von Indexstatistiken zu ermöglichen. Kleine kommunale Dokumentensammlungen – teilweise weniger als 10.000 Dokumente – leiden oftmals unter schlechter Suchqualität, da der Datenbestand schlichtweg zu klein ist, um akurate Termfrequenzschätzungen (das sind Statistiken über die Häufigkeit und Relevanz bestimmter Begriffe innerhalb von Datensammlungen) abzugeben. Entsprechend können Suchergebnis-Rankings nicht effektiv gestaltet werden. Durch die Übernahme von Statistiken größerer Kommunen über CIFF können kleinere Kommunen ihre Ranking-Effektivität deutlich verbessern.
Die vollständige CIFFIL-Geschichte lesen – https://openwebsearch.eu/ciffil-results/
DTCommerce: Den Einzelhandel beim Schritt ins Digitale unterstützen
ZenLab (Slowenien) entwickelte Open-Source-Tools, um stationären Einzelhändlern den Übergang zum E-Commerce zu erleichtern. Ausgehend von einem Excel-Export aus dem Unternehmens-ERP oder Buchhaltungstool sucht das System nach Informationen zu den darin gelisteten Produkten. Dabei werden z.B. Titel, Beschreibungen, Bilder und UVPs von Lieferantenwebsites genutzt, bestehende Beschreibungen mittels KI optimiert zum Schluß wird alles automatisch über ein WordPress-Plugin in einen WooCommerce-Onlineshop importiert.
Die vollständige DTCommerce-Geschichte gibt es hier zu lesen – https://openwebsearch.eu/ditcommerce-results/
OMMS: Open Maps als Alternative zu etablierten Maps Apps
Die E Foundation (Frankreich) nutzte die Crawling-Tools von OpenWebSearch.EU, um strukturierte Geschäftsdaten – Öffnungszeiten, Kontaktinformationen, FAQs – von Websites zu ernten, die mit OpenStreetMap-Points-of-Interest verknüpft sind. Diese Daten werden über einen Open-Source-POI-Server für mobile Kartenanwendungen bereitgestellt. Ausgehend vom Großraum Seattle und in einem zweiten Schritt weltweit stellte das Projektteam fest, dass etwa 12 % der POI-verknüpften Websites auswertbare strukturierte Daten enthalten. Darüber hinaus identifizierte das Projekt zwei vielversprechende Zukunftsrichtungen für OWS: die Veröffentlichung von POI-Relevanz-Rankings (basierend auf PageRank oder ähnlichen Metriken) zur Verbesserung der Ergebnissortierung in Open-Data-Geocodern sowie die Nutzung von Backlink-Daten als offene Alternative zu proprietären Bewertungsdatenbanken.
Die vollständige OMMS-Geschichte kann man hier lesen – https://openwebsearch.eu/results-omms/
FUN: Das Crawling des Webs neu denken
Die Universität Pisa und die University of Glasgow (Italien/UK) schlugen einen Paradigmenwechsel beim Web-Crawling vor. Traditionelle Crawler nutzen linkbasierte Heuristiken wie PageRank, um zu entscheiden, welche Seiten beachtet werden. FUN argumentiert, dass Crawler im Zeitalter der KI stattdessen Sprachmodelle einsetzen sollten, um die semantische Qualität von Seiten einzuschätzen. Das Team entwickelte vier neuronale Crawling-Strategien und testete sie auf 87 Millionen Seiten aus ClueWeb22-B. Bei natürlichsprachlichen Anfragen übertraf die beste Strategie PageRank durchgängig sowohl bei der Crawling-Effektivität als auch bei der nachgelagerten Retrieval-Qualität, während sie bei Keyword-Anfragen konkurrenzfähig blieb.
Die vollständige FUN-Geschichte gibt es hier – https://openwebsearch.eu/fun-results/
TILDE: Vertrauenswürdige Gesundheitssuche mit fairnessbewusstem Ranking
Das Know Center Research GmbH (Österreich) baute ein Gesundheits-bezogenes Suchsystem auf dem OWI auf, das über reine Suchergebnis Relevanz hinaus mögliche Verzerrungen und unterschiedliche Grade der Vertrauenswürdigkeit adressiert. Das System extrahierte medizinische Inhalte aus rund 200.000 gesundheitsbezogenen Webseiten, standardisierte sie gegen die klinische UMLS-Ontologie und implementierte eine hybride Retrieval-Engine aus entitätsbasierter und semantischer Suche. Die Besonderheit ist eine dreistufige Fairness-Pipeline: Sie reichert jedes Suchergebnis mit Vertrauenswürdigkeits- und Neutralitätsattributen an, sortiert Ergebnisse so um, dass Fairness maximiert wird, während Glaubwürdigkeit und Vielfalt der Standpunkte erhalten bleiben, und prüft die eigenen Systemausgaben auf Stereotype. Die visuelle Weboberfläche ermöglicht es Nutzer:innen, medizinische Evidenz über visuelle Wissensgraphen und facettierte Suche zu erkunden.
Die vollständige TILDE-Geschichte gibt es hier zu lesen – https://openwebsearch.eu/tilde-results/
Und wie geht es jetzt weiter?
Ein offener Webindex ermöglicht Anwendungen, die proprietäre Suche nicht bieten kann.
Die Forschungsbeiträge haben direkte Auswirkungen darauf, wie sich die Infrastruktur selbst weiterentwickeln sollte.
Mit dem Abschluss aller Open Calls, hat das OpenWebSearch.EU-Projekt eine Gemeinschaft aufgebaut, die weit über das Kern-Konsortium hinausreicht. Der Code, die Daten, die Modelle und die Tools dieser Projekte sind ganz überwiegend quelloffen und frei verfügbar. Die Infrastrukturbeiträge bestehen über das formale Projektende hinaus fort.


