Pünktlich zum Abschluss des 42 monatigen EU Projekts OpenWebSearch.EU, stellen wir spannende Use Cases auf Basis des im Projekt entwickelten offenen Webindex vor

Zur Erinnerung: das OpenWebSearch.EU Projekt wurde von 14 Partner-Organisationen aus dem Forschungs-und Non-Profit Bereich umgesetzt und hatte zum Ziel, einen ersten europäischen offenen Webindex als Kernstück für souveränen strukturierten Zugang zum Internet zu gestalten.

Der OWI (Open Web Index) ist seit Juni 2025 am Start und hat bis dato stolze 1,3 Petabyte Daten gecrawlt. Im Laufe des Projekts wurden über verschiedene Open Calls, insgesamt 15 Drittpartner-Projekte eingegliedert. Das Ziel: Juristische, technische und kommerzielle Analysen und Machbarkeits-Prüfungen rund um den offenen Webindex durchführen, um eine fundierte Basis für den Ausbau einer europäischen Webdateninfrastruktur zu legen.

Sieben der Drittpartnerprojekte (Projekte aus Open Call 2) haben sich mit konkreten technischen Anwendungsbeispielen auf Basis des OWI befasst. Die Projekte zeigen eine Bandbreite dessen, was möglich ist, wenn Webindex-Daten offen zugänglich sind. Die vielversprechenden Ergebnisse haben wir kurz zusammengefasst:

Projekt VERITAS: Faktenprüfung zum Ukrainekrieg mit einem RAG-Chatbot

Die Firma DEXAI (Tschechien) entwickelte einen so genannten Retrieval-Augmented-Generation-Chatbot und eine Chrome-Browsererweiterung zur Echtzeit-Faktenprüfung. Als Testbeispiele wurden Aussagen zum Ukrainekrieg untersucht. Das System filterte 30 Tage OWS-Crawl-Daten, extrahierte Nachrichteninhalte, indexierte mittels Embeddings und nutzte ein etabliertes Large Language Model, um quellengestützte, evidenzbasierte Antworten auf Nutzeranfragen zu generieren. Nutzer:innen können so beliebigen Text auf einer Webseite markieren und erhalten eine sofortige Bewertung auf Basis verifizierter Nachrichtenquellen. Das Projekt zeigt, dass offene Webdaten domänenspezifische Faktenprüfungstools ermöglichen, die andernfalls auf proprietäre Such-APIs angewiesen wären. Die vollständige VERITAS-Geschichte ist hier nachzulesen – https://openwebsearch.eu/results-veritas/

AKASE: Die Argumente der Welt als Wissensgraph

Die Universität Groningen (Niederlande) konstruierte einen Argumentations-Wissensgraphen basierend auf über 105 Millionen Webindex-Dokumenten. Das System identifiziert automatisch argumentative Inhalte – Behauptungen und Prämissen – auf Webseiten, erkennt rhetorische Fehlschlüsse, bewertet die Argumentationslogiken und dokumentiert Stützungs-, Angriffs- und Paraphrasierungsbeziehungen zwischen Argumenten. Zu den Anwendungen gehören eine Suchmaschine, die Ergebnisse nach Argumentationsqualität neu sortiert, und ArgsBase, eine Multi-Agenten-Deliberationsplattform, die den JTS Early Career Researcher Prize gewann.
Die vollständige AKASE-Geschichte ist hier verfügbar – https://openwebsearch.eu/akase-results/

CIFFIL Service: Suchstatistiken zwischen niederländischen Kommunen teilen

Spinque (Niederlande) integrierte das Common Index File Format (CIFF) in seine Suchplattform, um niederländischen Kommunen den einfachen Austausch von Indexstatistiken zu ermöglichen. Kleine kommunale Dokumentensammlungen – teilweise weniger als 10.000 Dokumente – leiden oftmals unter schlechter Suchqualität, da der Datenbestand schlichtweg zu klein ist, um akurate Termfrequenzschätzungen (das sind Statistiken über die Häufigkeit und Relevanz bestimmter Begriffe innerhalb von Datensammlungen) abzugeben. Entsprechend können Suchergebnis-Rankings nicht effektiv gestaltet werden. Durch die Übernahme von Statistiken größerer Kommunen über CIFF können kleinere Kommunen ihre Ranking-Effektivität deutlich verbessern.
Die vollständige CIFFIL-Geschichte lesen – https://openwebsearch.eu/ciffil-results/

DTCommerce: Den Einzelhandel beim Schritt ins Digitale unterstützen

ZenLab (Slowenien) entwickelte Open-Source-Tools, um stationären Einzelhändlern den Übergang zum E-Commerce zu erleichtern. Ausgehend von einem Excel-Export aus dem Unternehmens-ERP oder Buchhaltungstool sucht das System nach Informationen zu den darin gelisteten Produkten. Dabei werden z.B. Titel, Beschreibungen, Bilder und UVPs von Lieferantenwebsites genutzt,  bestehende Beschreibungen mittels KI optimiert zum Schluß wird alles automatisch über ein WordPress-Plugin in einen WooCommerce-Onlineshop importiert.
Die vollständige DTCommerce-Geschichte gibt es hier zu lesen – https://openwebsearch.eu/ditcommerce-results/

OMMS: Open Maps als Alternative zu etablierten Maps Apps

Die E Foundation (Frankreich) nutzte die Crawling-Tools von OpenWebSearch.EU, um strukturierte Geschäftsdaten – Öffnungszeiten, Kontaktinformationen, FAQs – von Websites zu ernten, die mit OpenStreetMap-Points-of-Interest verknüpft sind. Diese Daten werden über einen Open-Source-POI-Server für mobile Kartenanwendungen bereitgestellt. Ausgehend vom Großraum Seattle und in einem zweiten Schritt weltweit stellte das Projektteam fest, dass etwa 12 % der POI-verknüpften Websites auswertbare strukturierte Daten enthalten. Darüber hinaus identifizierte das Projekt zwei vielversprechende Zukunftsrichtungen für OWS: die Veröffentlichung von POI-Relevanz-Rankings (basierend auf PageRank oder ähnlichen Metriken) zur Verbesserung der Ergebnissortierung in Open-Data-Geocodern sowie die Nutzung von Backlink-Daten als offene Alternative zu proprietären Bewertungsdatenbanken.
Die vollständige OMMS-Geschichte kann man hier lesen – https://openwebsearch.eu/results-omms/

FUN: Das Crawling des Webs neu denken

Die Universität Pisa und die University of Glasgow (Italien/UK) schlugen einen Paradigmenwechsel beim Web-Crawling vor. Traditionelle Crawler nutzen linkbasierte Heuristiken wie PageRank, um zu entscheiden, welche Seiten beachtet werden. FUN argumentiert, dass Crawler im Zeitalter der KI stattdessen Sprachmodelle einsetzen sollten, um die semantische Qualität von Seiten einzuschätzen. Das Team entwickelte vier neuronale Crawling-Strategien und testete sie auf 87 Millionen Seiten aus ClueWeb22-B. Bei natürlichsprachlichen Anfragen übertraf die beste Strategie PageRank durchgängig sowohl bei der Crawling-Effektivität als auch bei der nachgelagerten Retrieval-Qualität, während sie bei Keyword-Anfragen konkurrenzfähig blieb.
Die vollständige FUN-Geschichte gibt es hier – https://openwebsearch.eu/fun-results/

TILDE: Vertrauenswürdige Gesundheitssuche mit fairnessbewusstem Ranking

Das Know Center Research GmbH (Österreich) baute ein Gesundheits-bezogenes Suchsystem auf dem OWI auf, das über reine Suchergebnis Relevanz hinaus mögliche Verzerrungen und unterschiedliche Grade der Vertrauenswürdigkeit adressiert. Das System extrahierte medizinische Inhalte aus rund 200.000 gesundheitsbezogenen Webseiten, standardisierte sie gegen die klinische UMLS-Ontologie und implementierte eine hybride Retrieval-Engine aus entitätsbasierter und semantischer Suche. Die Besonderheit ist eine dreistufige Fairness-Pipeline: Sie reichert jedes Suchergebnis mit Vertrauenswürdigkeits- und Neutralitätsattributen an, sortiert Ergebnisse so um, dass Fairness maximiert wird, während Glaubwürdigkeit und Vielfalt der Standpunkte erhalten bleiben, und prüft die eigenen Systemausgaben auf Stereotype. Die visuelle Weboberfläche ermöglicht es Nutzer:innen, medizinische Evidenz über visuelle Wissensgraphen und facettierte Suche zu erkunden.
Die vollständige TILDE-Geschichte gibt es hier zu lesen – https://openwebsearch.eu/tilde-results/

Und wie geht es jetzt weiter?

Ein offener Webindex ermöglicht Anwendungen, die proprietäre Suche nicht bieten kann.
Die Forschungsbeiträge haben direkte Auswirkungen darauf, wie sich die Infrastruktur selbst weiterentwickeln sollte.
Mit dem Abschluss aller Open Calls, hat das OpenWebSearch.EU-Projekt eine Gemeinschaft aufgebaut, die weit über das Kern-Konsortium hinausreicht. Der Code, die Daten, die Modelle und die Tools dieser Projekte sind ganz überwiegend quelloffen und frei verfügbar. Die Infrastrukturbeiträge bestehen über das formale Projektende hinaus fort.

Unser OpenWebSearch.EU Projekt wurde kürzlich in einem Bericht von arte.tv über europäische Alternativen zu den Webdiensten der großen US-amerikanischen Tech-Unternehmen vorgestellt.

Das Video unterstreicht unser Engagement für die Stärkung der digitalen Souveränität Europas, inbesondere hinsichtlich Suchdiensten für das World Wide Web. Der Bericht enthält Einblicke von Prof. Dr. Ir. Djoerd Hiemstra, Professor für Datenwissenschaften und Leiter der Forschungsgruppe Information Retrieval an der Radboud University, einem der OpenWebSearch.EU Konsortialpartner. Djoerd stellte den Open Web Index in seinem aktuellen Zustand vor und erläuterte, welche Rolle er bei der Schaffung leistungsfähiger europäischer Suchlösungen spielen könnte.
Springt zu Minute 4:16, um Djoerds Einblicke zu hören:

Alternativ könnt ihr euch das Video auch direkt auf Arte.tv ansehen: https://www.arte.tv/de/videos/121620-127-A/wo-bleibt-das-europaeische-google-oder-facebook/

Das jährliche Internationale Open Search Symposium #ossym findet in 2025 bereits zum siebten Mal in Folge statt. Von 8. bis 10. Oktober läd das #ossym25 die Open Search Community dazu ein, nach Helskinki/Finnland zu reisen, um vor Ort beim diesjährigen Veranstaltungspartner CSC – IT Center for Science oder wahlweise online an den 3 tägigen interdisziplinären Austauschformaten zu partizipieren.

Interdisziplinäre Blickwinkel auf klassische Websuche und KI

Wie jedes Jahr, vereint das #ossym Expert:innen aus vielerlei Bereichen wie Informatik, Recht & Regulierung, Ethik, Wirtschaft, Politik und Gesellschaft. Das siebte Internationale Open Search Symposium bietet ein Forum, um innovative Ideen der offenen und verteilten Internetsuche und deren Anwendungsgebiete weiter zu denken. Der Schwerpunkt liegt dabei auf künstlicher Intelligenz (KI), Suchanwendungen und -technologien, rechtlichen und ethischen Aspekten der offenen Websuche sowie dem Themenspektrum Informationsverwertung/Medienkompetenz.

Keynotes zu Daten Governance und Wissensmanagement

Viivi Lähteenoja ist Chief Executuve Officer bei MyData Company und gibt Impulse zum Thema Data Governance.

Harri Ketamo ist Gründer und Vorstand von Headai und spricht zum Thema „The openness of knowledge data and its role in Future Search Solutions“.

Wissenschaftliche Sessions zum Thema „Architecture & Infrastructure“

Zwei Science Tracks zum Thema “Architecture & Infrastructure” beschäftigen sich mitunter mit der Exktraktion von strukturierten Daten aus dem Open Web Index, Datenspeicherungs-Strukturen für die URL Frontier in OpenWebSearch.eu, sowie mit der Extraktion von Geo-Daten aus semi-strukturierten Daten mit Hilfe von LLMs. Common Crawl bietet zudem Einblicke in die Abdeckung diverser Sprach- und Kulturinhalte Europas.

Anwendungs-Tracks zu “Retrieval Augmented Generation & Large Language Models”

Dezentralisierte Ansätze für den Zugang zu Informationen via Browser-Agentic Web sowie die Fusion von Retrieval, Grammatik und Entscheidungsbäume zur Textgenerierung werden hier unter anderem vorgestellt und disskutiert.

Search Engine Tracks sind fester Bestandteil der #ossym Konferenzen

Eine beliebte #ossym Tradition sind die Search Engine Tracks, die sich auf alternative Suchmaschinen und deren Anwendungs-bereiche fokussieren. Bereits bestätigt sind dieses Jahr fragFinn.de und searchmysite.net.

Ethik, Recht und Gesellschaft

Und auch die nicht technischen Themenkomplexe wie etwa gesellschaftliche Interessen und Special Needs Such-Lösungen kommen nicht zu kurz und sorgen für spannende Denkanstösse.

Information and Registrierung

Das finnische Supercomputing Center CSC – IT Center for Science bietet rund 100 on-site Plätze. First come, first serve.

Alle Informationen zur Anmeldung finden Sie unter:
https://opensearchfoundation.org/events-d/ossym25-d/

Die Open Search Foundation e. V. ist eine europäische Bewegung, die die Grundlage für einen unabhängigen, freien und selbstbestimmten Zugang zu Informationen im Internet schafft. In Kooperation mit Forschungseinrichtungen, Rechenzentren und weiteren Partnern setzen wir uns ein für eine Websuche, die allen zugute kommt.
 Ganz nach dem Motto: „Together for a better net“.

Kontakt
:
Open Search Foundation e.V. – OSF

ZDF berichtet über OpenWebSearch.eu und die Vision einer offenen Websuche

„Ein europäischer Zusammenschluss fordert Google heraus: Ein freier Index soll endlich für Vielfalt auf dem Suchmarkt sorgen. Ein Verein in Bayern spielt dabei eine Schlüsselrolle.“ – Das ZDF widmet sich in einem aktuellen Beitrag der Open Search Foundation und dem von der EU geförderten Projekt OpenWebSearch.eu, das eine unabhängige, europäische Suchinfrastruktur aufbaut. „Suchmaschinen entscheiden darüber, welche Inhalte sichtbar sind und wie sich Nutzer-, Daten- und Zahlungsströme bewegen“, wird Dr. Stefan Voigt, Vorstand der Open Search Foundation, zitiert. „Es kann nicht sein, dass nur ein Unternehmen diese Schlüssel-Infrastruktur der digitalen Welt dominiert.“

Der Beitrag erläutert die Hintergründe der Arbeit der Open Search Foundation und des Horizont-Europa-Projekts, dessen Ziel es ist, einen freien, gemeinschaftlich nutzbaren Suchindex zu bauen, der neue, vielfältige Suchmaschinenmodelle ermöglicht – etwa für Wissenschaft, Journalismus oder regionale Inhalte – oder auch als Datenpool für KI-Modelle dienen kann. Unterstützt wird das Vorhaben von 14 europäischen Partnern aus Forschung und Gesellschaft, darunter das Leibniz-Rechenzentrum in München und das CERN in Genf. Die EU fördert das Projekt mit 8,5 Millionen Euro.

 

Zum Artikel Export Export

3 Tage, 120 Teilnehmer, 4 Keynotes, 11 Sessions, 2 Workshops …

Das diesjährige #ossym24 findet am Leibniz-Rechenzentrum in Garching bei München in einem hybriden Format statt: mit 100 Plätzen vor Ort und zudem online.
Die Anmeldung über unseren Partner CERN ist ab sofort möglich. Wenn Sie sich anmelden, wartet folgendes Programm auf Sie:

Expert:innen zu Internetsuche und KI aus ganz Europa kommen zusammen

Von 9. bis 11. Oktober 2024 wird das #ossym wieder Expert:innen aus den Bereichen der Forschung, Datenanalyse, Informatik und Ethik, aber auch Technologieunternehmen, politische Entscheidungsträger:innen, Jurist:innen und die Gesellschaft zusammenbringen. Das sechste Internationale Open Search Symposium bietet ein Forum, um Ideen und Konzepte der offenen Internetsuche zu diskutieren und voranzutreiben. Der Schwerpunkt liegt dabei auf künstlicher Intelligenz (KI), Suchanwendungen und -technologien, rechtlichen und ethischen Aspekten der offenen Websuche sowie dem Thema Wiki/Kuratierung.

Keynotes zu ethischen, gesellschaftlichen und ökonomischen Fragestellungen im Digitalen Informations-Zeitalter

Roberto Viola ist Generaldirektor für Kommunikationsnetze, Inhalte und Technologien bei der Europäischen Kommission. Er wird über die Bedeutung der offenen Websuche und das Streben nach digitaler Souveränität in Europa sprechen. 
Bestsellerautor, Medienwissenschaftler und Universitätsdozent Dr. Martin Andree spricht über „Das Internet der Monopole. Wie wir uns das Netz zurückholen“. Richard Socher, CEO von You.com, wird die innovative, KI-gestützte Suchmaschine vorstellen, die bereits vor ChatGPT LLMs implementierte.

#ossym24 Research Sessions zu den Themen „Preprocessing und ML für die Suche“ sowie „LLMs, RAG und NER“

Zwei parallel laufende Veranstaltungsreihen beleuchten neueste Erkenntnisse aus Studien und wissenschaftlichen Veröffentlichungen rund um Retrieval Augmented Generation und Scientific Knowledge Graphs für wissenschaftliche Zwecke, Scientific Summary Creation durch LLMs, Grammar Rules für Textgeneration und mehr.

Wissenschaftliche Tracks rund um OpenWebSearch.eu

Die Forschungsveranstaltungen des Symposiums befassen sich auch mit einem niedrigschwelligen Ansatz für Crawling, OWLer für verteiltes und kollaboratives Open Web Crawling, verteilte Dateninfrastruktur für Open Web Search und Einblicke in Open Console.

Information and Registrierung

Das #ossym24 wird vom 9. bis 11. Oktober im Leibniz-Rechenzentrum in Garching bei München stattfinden – in Präsenz und online. Die Teilnahme ist kostenlos, es stehen allerdings nur 100 Plätze vor Ort zur Verfügung.

Alle Informationen zur Anmeldung finden Sie unter: https://opensearchfoundation.org/en/events-osf/ossym24/

 

Die Open Search Foundation e. V. ist eine europäische Bewegung, die die Grundlage für einen unabhängigen, freien und selbstbestimmten Zugang zu Informationen im Internet schafft. In Kooperation mit Forschungseinrichtungen, Rechenzentren und weiteren Partnern setzen wir uns ein für eine Websuche, die allen zugute kommt.
 Ganz nach dem Motto: „Together for a better net“.

Kontakt
:
Open Search Foundation e.V. – OSF
Christine Plote