Ein Web-Index ist die eine Inventur oder eine Art Kartei aller Informationen und Dokumente, die über das Internet zugänglich sind. Er ermöglicht es, das Internet schnell zu durchsuchen. Ohne ihn müsste eine Suchmaschinen bei jeder Anfrage das Web mit seinen Milliarden von Seiten komplett durchsuchen – das würde viel zu viel Zeit kosten. Ein Web-Index ist also die Grundlage für Suchmaschinen – er ist aber nicht mit einer Suchmaschine gleichzusetzen.
Man kann sich den Web-Index wie eine Kartei in einer Bibliothek vorstellen. Mit ihr kann man zu einem speziellen Thema schnell die passenden Bücher finden. Im Internet ist der Web-Index eine Liste aller Webseiten, Bilder, Videos, Dokumente und anderen Inhalten, die über das Internet aufrufbar sind.
Aufgrund der hohen Dynamik im Internet muss der Index stetig aktualisiert werden, damit er auch neu erstellte Webseiten und -inhalte enthält. Dafür sind die sogenannten Webcrawler zuständig. Das sind Programme, die automatisch von Website zu Website „kraulen“ und die Inhalte der aufgesuchten Seiten indexieren.
Das Speichern und Aktualisieren eines so großen Index ist sehr aufwändig. Daher braucht man dafür entweder ein sehr, sehr großes Rechenzentrum oder, und das ist der Plan der osf, ein Netzwerk von vielen kleinen, die sich die Aufgabe teilen.