5. Open Search Symposium #ossym23 – Rückblick Tag 2
Zum 5. Mal diskutierten Forscher, Tech Experten und Vertreter aus Politik und Industrie über die Grundlagen einer menschenzentrierten, transparenten und offenen Internetsuche für Europa und die Welt. Das internationale Open Search Symposium 2023 fand vom 4. bis 6. Oktober statt und versammelte rund 100 Teilnehmer:innen online und vor Ort am CERN in Genf.
Tag 2 auf einen Blick
Keynote der EU-Vizepräsidentin der EU-Kommission für Werte und Transparenz Věra Jourová
Der zweite Tag von #ossym23 wurde mit weiteren inspirierenden Vorträgen und Diskussionen rund um die Themen offene Websuche, Transparenz und Zusammenarbeit fortgesetzt. Er begann mit der eindringlichen Keynote von Věra Jourová – Vizepräsidentin der EU-Kommission für Werte und Transparenz, die auf wichtige Fragen einging, etwa ob das Internet unsere Rechte respektiert und welche Rolle die Politik spielen wird.
Sie betonte, dass „wir die digitale Transformation so sehen, dass der Mensch im Mittelpunkt steht. Wir brauchen ein offenes Internet mit zuverlässigem Schutz für die Nutzer und fairen Wettbewerbsbedingungen für Unternehmen“.
Sie wies auch auf die Wichtigkeit der Regulierung hin, die Hand in Hand mit Forschung, technischer Entwicklung und Marktinnovation gehen sollte. Wenn Europa an der Spitze der Industrie 4.0 stehen will, muss es weiterhin in Talente investieren, die Innovation fördern und das Unternehmensumfeld verbessern.
Die Herausforderung bestehe laut Věra Jourová darin, sich zu vergrößern und für den Markt attraktiv zu sein. Nicht indem man mit etablierten Unternehmen wie Google und Microsoft konkurriere, sondern indem man von Grund auf ein tragfähiges Ökosystem für neue Unternehmen aufbaue. Darüber hinaus sagte sie, dass “es notwendig ist, ein kooperatives Ökosystem aufzubauen, das die kulturelle Vielfalt gewährleistet“.
Vizepräsidentin Jourová schloss ihre Rede mit einer Würdigung der Bemühungen der Open Search Foundation und der OpenWebSearch.eu Initiative sowie deren Partnern, diese wichtige Diskussion zu führen.
Forschungsschwerpunkte: Menschenzentrierte Suche und User Experience
Der Tag wurde mit spannenden Einblicken in „Understanding and Mitigating Cognitive Bias during Web Search“ (Verstehen und Eindämnmen kognitiver Verzerrungen bei der Websuche) fortgesetzt. Simon Hitzginger präsentierte diese neue Forschungsarbeit einer Gruppe von Forschern (Simon Hitzginger, Christian Gütl, Alexander Nussbaumer, Chiara Ruß-Baumann) der Technischen Universität Graz. Die Prämisse war, dass selbst wenn Suchmaschinen völlig neutral arbeiten würden, das Problem der menschlichen Voreingenommenheit bei der Bewertung der Ergebnisse bestehen bliebe. In ihrer Studie gaben die Forscher den Teilnehmern Umfragen, in denen sie um Meinungen zu einem polarisierenden Thema gebeten wurden. Anschließend wurden die Teilnehmer gebeten, das Thema in einer kontrollierten Suchumgebung zu suchen, die die jeweils gleiche Anzahl von Artikeln enthielt, nämlich 20, die für und 20, die gegen das Thema sprachen, sowie 9 neutrale Artikel. Das Ergebnis: Die vorher festgelegten Meinungen der Teilnehmer stimmten mit dem Fokus und der Zeit überein, die für Artikel aufgewendet wurde, die diese Meinung bestätigten. Die Studie beweist, dass menschliches Verhalten an sich mit voreingenommenen Überzeugungen und Entscheidungsfindungen einhergeht. Darüber hinaus können Suchmaschinen, die keine ausgewogenen Ergebnisse aus relevanten Quellen liefern, die vorhandenen Vorurteile verstärken, unabhängig davon, ob sie der Person tatsächlich nützen oder nicht. Auf der anderen Seite kann die Analyse des Suchverhaltens die Vorhersage von Bestätigung ermöglichen und so die Nutzer über ihre oft verborgenen Vorurteile informieren und aufklären. Es sind jedoch noch weitere Daten und Forschungsarbeiten erforderlich.
Passend zum Thema Suchverhalten stellte Steffen Leich-Nienhaus von der Mercedez Benz Group AG einen Ansatz zur “Interfacing generic and specialized search engines on the User side” (Schnittstelle zwischen generischen und spezialisierten Suchmaschinen auf der Nutzerseite) vor. Als Verantwortlicher für die Bereitstellung von Informationen für Mitarbeiter in Unternehmen arbeiten Steffen und sein Team an semantischen Erweiterungen für Abfragen und Webinhalte. Er präsentierte interessante Fallstudien und praktische Analysen.
Manuel Noia, CEO von Linknovate Science, präsentierte den „Linknovate Startup Radar – datalife use case“ – eine innovative Forschungsplattform, die in Zusammenarbeit mit seinem Kollegen Carlos Rodriguez von der Universität Santiago de Compostela sowie Javier Parapar vom Information Retrieval Lab der Universität A Coruña entwickelt wurde.
Der Startup-Radar funktioniert als Scouting-System für Start-ups und beinhaltet ein Tool für die technische Due Diligence. Unternehmen können Fusionen und Übernahmen, Finanzierungsereignisse und Produkteinführungen recherchieren sowie Wissens- und Innovationsschwächen ermitteln.
Linknovate verwendet vier Ansätze, nämlich: Schlüsselwörter, extraktive Zusammenfassung (Schlüsselsätze), Linknovate-Firmenbeschreibungen und abstrakte Zusammenfassung (vollständige Informationen, um eine Erklärung zu erstellen). Benutzer können Referenzen taggen und automatische Berichte erstellen lassen.
Der letzte Forschungszweig beleuchtete die philosophischen und soziologischen Elemente der Suche. Manuel Theophil von der Rheinland-Pfälzischen Technischen Universität gab Einblicke in einen Versuch zum Thema „Reaching beyond ethics: Perspektiven der Menschenrechtsbildung auf einen offenen Suchindex“ (Über die Ethik hinausgehen: Perspektiven der Menschenrechtsbildung auf einen offenen Suchindex).
Um „Ethik in der Suche“ zu diskutieren, muss man die „Währung“ der gegebenen ethischen Kriterien verstehen. Was bedeuten Begriffe wie „offen“ oder „Freiheit“ im Zusammenhang mit Suchmaschinen? Wie entwickelt sich das Verhältnis zwischen „Realitätssinn“ und „wissenschaftlichen Fakten“ in der heutigen Zeit?
Wie wirkt sich dieses Verhältnis auf die politische Meinungsbildung aus? In der Vergangenheit waren Überlegungen und Überlegungen Teil des politischen Meinungsbildungsprozesses. Heute, so die Soziologen, sind die meisten Meinungen aggregierte Privatmeinungen. Es gibt kaum noch einen Prozess des Nachdenkens. Wir verlassen uns mehr und mehr auf die Befragung von festen Meinungen.
In seinem Vortrag untersuchte Manuel den Weg vom Mythos zum Logos, von der Philosophie zum Technizismus und vom Tech-Solutionismus zur Menschenrechtserziehung, die laut der UN-Erklärung zur Menschenrechtserziehung aus dem Jahr 2011 ein Grundrecht ist.
Interaktive Workshops und Industrie-Panels
Nach einer Mittagspause auf dem Campus konzentrierten sich die Workshop-Sitzungen des Tages auf die Themen “Dystopia vs Utopia – a hands-on workshop on ethical aspects of web search” (Dystopie vs. Utopie – ein praktischer Workshop zu ethischen Aspekten der Websuche), “Cross Border Legal Considerations” (Grenzüberschreitende rechtliche Überlegungen) und “Energy Efficiency in Open Web Search” (Energieeffizienz in der offenen Websuche).
Am Nachmittag des zweiten Tages fand eine Podiumsdiskussion zum Thema „Business Applications and Economic Value of Open Seach“ statt. Unter der Moderation von Isabell Claus von thinkers.ai diskutierten Jacqueline Erhart von der ASFINAG Maut Services GmbH und Prof. Uwe Seebacher – Autor und Redakteur bei der Springer Nature Group – mit Blick auf die Industrie.
Isabell Claus appellierte an die Community, wirtschaftliche Möglichkeiten zu nutzen, da wirtschaftliche Wertschöpfung Finanzierungen anziehen könnten, die das Potenzial für die Wissenschaft erhöhen würden.
Jacqueline Erhart erklärte, dass „die Menge an Daten, die verarbeitet werden muss, um das Geschäft der ASFINAG zu führen, ziemlich groß ist und effiziente Werkzeuge einschließlich KI erfordert. Das effizientere Sortieren von Informationen ist eine zentrale Voraussetzung, um Innovationen voranzutreiben, ESG-Ziele zu erreichen und die Cybersicherheit zu gewährleisten“.
Uwe Seebacher wies darauf hin, dass „Informationen verfügbar sind, aber die Gültigkeit dieser Informationen unklar bleibt“. Der Zeitaufwand für die Recherche und die Bewertung der Qualität dieser Informationen scheint enorm zu sein und lässt wenig Raum für die eigentliche Interpretation der Datensätze. Der Schlüssel zur Implementierung von KI-gestützten Anwendungen ist ein gründlicher Prozess der Vertrauensbildung. Um eine Vorauswahl zwischen relevanten und irrelevanten Informationen treffen zu können, müssen wir den Bewertungskriterien und der Methodik vertrauen. „Jetzt müssen wir sicherstellen, dass wir die Unternehmen mitnehmen, damit sie lernen, die Tools zu nutzen“, erklärte er.
Beide Diskussionsteilnehmer waren sich einig, dass wir derzeit rund 10 Jahre im Rückstand sind und so bald wie möglich Zugang zu offenen Datensätzen haben müssen, um KI zu trainieren.
Hauptvortrag über Biases (Verzerrungen) bei der Internetsuche
Ricardo Baeza-Yates, Direktor des Institute of Experiential AI an der Northeastern University in den USA, kehrte von der Geschäftswelt zur Forschung zurück und hielt eine ausführliche Keynote-Präsentation zum Thema „Bias in Search and Recommender Systems“ (Verzerrungen in Such- und Empfehlungssystemen).
Zunächst erläuterte er eine Vielzahl von Biases, denen wir als Menschen unterliegen, darunter statistische Verzerrungen (d. h. signifikante systematische Abweichungen von der vorherigen Verteilung), kulturelle Verzerrungen (im Laufe des Lebens erworbene Interpretationen und Beurteilungen), kognitive Verzerrungen (systematische Muster der Abweichung von der Norm oder Rationalität bei der Beurteilung) und viele mehr. Laut Baeza-Yates werden die meisten Websysteme durch das Nutzer-Feedback (Klicks und Engagement) optimiert.
Unsere Suchentscheidungen sind jedoch bereits voreingenommen, da wir von vornherein nur begrenzte Ergebnisse erhalten, auf die wir reagieren können. Die Verzerrungen verstärken sich somit selbst und schaffen Filterblasen und Echokammern. Manchmal konkurrieren diese Systeme mit sich selbst. Die Verbesserung eines Systems kann zu einer Verschlechterung eines anderen führen, das einen anderen Ansatz verfolgt.
„Da alle menschlichen Dateneingaben verzerrt sind, verstärkt der Algorithmus verschiedene Verzerrungen und spuckt noch weiter konsolidierte Verzerrungen aus“, so Baeza-Yates. Die Lösung bestünde darin, die Verzerrungen bei der Eingabe zu beseitigen, die Algorithmen abzustimmen und auch die Ausgabe zu entzerren. Ein weiterer wichtiger Punkt, den er ansprach, war, dass höher entwickelte Länder in der Regel über mehr Informationen verfügen, die die Ergebnisse ebenfalls stark beeinflussen.
Baeza-Yates appelliert, dass wir Daten nutzen sollten, um Filterblasen zu durchbrechen, anstatt Daten zu nutzen, um Verhalten vorherzusagen.
Eine der größten Voreingenommenheiten im Internet wird durch die Interaktionen im Web bestimmt. Wie die Dinge präsentiert werden, beeinflusst die Interaktionen. Darüber hinaus gibt es eine Verzerrung zweiter Ordnung. Die Duplizierung von Inhalten durch Rückverlinkung zu Originalinhalten führt zu einer besseren Platzierung bestimmter Seiten, was bedeutet, dass unsere Feedbackschleife den Algorithmus beeinflusst.
Die wichtigste Erkenntnis aus diesem aufschlussreichen Vortrag war, dass es multidisziplinärer Teams bedarf, um die Interaktion von Verzerrungen in der Websuche zu reduzieren (was Manuel Theophils Aufruf zur Besonnenheit wunderbar unterstreicht).
Wissensgraphen und authentische KI
Als nächstes sprach Branimir Rakić, Mitbegründer und CTO von Trace Labs, über “Building Authentic AI: The Synergy of Decentralized Knowledge Graph and Community Incentives” (Authentische KI: Die Synergie von dezentralen Wissensgraphen und Gemeinschaftsanreizen).
Rakic zufolge werden vertrauenswürdige Daten zum Eckpfeiler der menschlichen Sicherheit. Er stellte die Wissensrevolution als die dritte große globale Revolution vor, nach der Erfindung des Buchdrucks, welcher eine Lösung für die Knappheit bot, indem er die Vervielfältigung ermöglichte, und der Erfindung des Internets, das die Konnektivität als Gegenmittel zur Fragmentierung förderte. Die Vertrauensrevolution erfordert nun eine dezentralisierte KI. Bald werden mehr Inhalte von Maschinen als von Menschen produziert werden. Er sagte voraus, dass „Wissen eine neue Anlageklasse sein wird“. Der Wert von Daten ist bereits das Herzstück von Big-Tech-Unternehmen. Die Schaffung und der Besitz von Wissen über einzigartige NFTs könnte die nächste Investitionswelle sein. Vertrauenswürdige KI-Systeme können auf Wissenswerten aufbauen, vorausgesetzt, die Quelle ist eine vertrauenswürdige Institution. Die Idee ist, die Blockchain für dezentrales Eigentum zu nutzen, aber das Wissen (das in einem Graphen gespeichert ist) über die Blockchain zu stellen. Darüber hinaus könnten Suchmaschinen angedockt werden.
Industrie Track mit den alternativen Suchmaschinen Mojeek, fragFinn.de und Marginalia Search
Im Anschluss an diesen innovativen Vortrag wurde der Industrie-Track zum Thema “Alternative Search Engines” (Alternative Suchmaschinen) von Christine Plote – Vorstandsmitglied der Open Search Foundation e.V. – moderiert und geleitet.
Colin Hayhurst berichtete über sein Unternehmen Mojeek – eine in Großbritannien ansässige Suchmaschine ohne Tracking, die einen eigenen unabhängigen Index betreibt. Anke Meinders stellte fragFinn.de vor – eine kuratierte, gemeinnützige und sichere Suchmaschine für Kinder in Deutschland, und Viktor Löfgen sprach über Marginalia Search – eine kleine, spezialisierte Suchmaschine mit Sitz in Schweden, die es Nutzern ermöglicht, kleine, qualitativ hochwertige Websites zu finden, die in kommerziellen Suchmaschinen kaum auftauchen, weil sie von größeren kommerziellen Websites und SEM überrannt werden.
Nach diesem tiefen Einblick in die aktuelle Websuchlandschaft sollten Sie unbedingt für die Zusammenfassung von Tag 3 der #ossym23 dranbleiben.