Überschrift und Einstieg
Wer heute »googelt«, landet zuerst bei einem KI-Kasten – nicht mehr bei der Liste blauer Links. Laut einem neuen Test liegen diese Gemini‑basierten Overviews in etwa einem von zehn Fällen daneben. Für ein Forschungsmodell mag das akzeptabel klingen. Für einen faktischen Monopolisten im Suchmarkt Europas ist es ein Alarmsignal: Millionen falscher Aussagen pro Stunde, präsentiert im Gewand objektiver Wahrheit. In diesem Beitrag geht es darum, warum 90 Prozent Genauigkeit für eine globale Informations-Infrastruktur nicht ausreichen, wer von diesem Kompromiss profitiert – und was das speziell für den DACH‑Raum bedeutet.
Die Nachricht in Kürze
Wie Ars Technica unter Berufung auf die New York Times und das KI‑Startup Oumi berichtet, beantworten Googles KI‑Overviews faktische Fragen in einem gängigen Test mit einer Trefferquote von rund 90–91 Prozent.
Oumi nutzte den von OpenAI 2024 veröffentlichten SimpleQA‑Datensatz mit über 4.000 Fragen und verifizierbaren Antworten, um automatisch Anfragen an die Overviews zu stellen und die Resultate zu bewerten. In früheren Tests mit älteren Gemini‑Versionen lag die Genauigkeit bei etwa 85 Prozent; seit der Integration von Gemini 3 stieg sie auf rund 91 Prozent.
Ars rechnet vor, dass dies bei Googles Suchvolumen zu zig Millionen falschen Antworten pro Tag führen kann. Google weist den Test zurück: SimpleQA enthalte selbst fehlerhafte Einträge und bilde typische Suchanfragen nicht ab. Das Unternehmen verweist auf ein intern geprüfteres Set namens SimpleQA Verified und betont, dass die Overviews je nach Anfrage dynamisch unterschiedliche Gemini‑Modelle einsetzen – vom schnellen Flash‑Modell bis hin zu teureren Pro‑Varianten.
Warum das wichtig ist
90 Prozent klingen beeindruckend, solange man in Benchmarks denkt. Im Alltag eines Suchmonopolisten ist eine zweistellige Fehlerrate eine strukturelle Schwachstelle.
Suche ist für viele Menschen in Deutschland, Österreich und der Schweiz eine Art Grundversorgungsleistung – ähnlich wie Strom oder Mobilfunk. »Ich schaue mal eben bei Google« bedeutet de facto: Ich prüfe die Realität. Wenn diese Realität am oberen Rand der Seite in einem KI‑Kasten präsentiert wird, erhält sie eine besondere Autorität.
Genau hier liegt das Problem. Die KI‑Overviews sind visuell dominant, formulieren ihre Antworten meist mit grosser Sicherheit und verweisen nur knapp auf Quellen. Für die meisten Nutzerinnen und Nutzer sind das keine Wahrscheinlichkeitsaussagen, sondern die Antwort. Wer auf dem Smartphone unterwegs ist oder sich mit dem Thema nicht auskennt, scrollt selten nach unten, um verschiedene Quellen zu vergleichen.
Profitieren tut in erster Linie Google. Die Overviews halten die Nutzer länger auf der Suchergebnisseite, schaffen neue Flächen für Werbung und signalisieren gegenüber Investoren, dass man im Wettlauf mit OpenAI, Microsoft/Bing, Perplexity & Co. nicht zurückfällt. Gleichzeitig verschiebt sich die Rolle des offenen Webs: weg vom direkten Informationslieferanten, hin zum Rohmaterial für Trainingsdaten und Zitate.
Verlieren tun diejenigen, die sich auf die Antworten verlassen – und diejenigen, deren Inhalte ohne Klick zusammengefasst oder verzerrt werden: Medienhäuser, Fachportale, kleinere Websites. Und letztlich verliert eine Öffentlichkeit, die es immer schwerer hat zu erkennen, wann sie es mit reiner Dokumentenrecherche und wann mit frei erfundenen Details zu tun hat.
Die eigentliche Brisanz: Google behandelt das aktuelle Zuverlässigkeitsniveau generativer KI offenbar als »gut genug«, um es flächendeckend in ein System einzubauen, das für den Informationszugang ganzer Gesellschaften zentral ist.
Das grössere Bild
Die Branche ringt seit Jahren mit Halluzinationen von Sprachmodellen. Jeder neue Release wird mit bunten Diagrammen zu MMLU, Mathe‑Benchmarks und »Factuality« beworben. Doch jeder Anbieter nutzt andere Datensätze, eigene Auswertungsmethoden und teils selbst kuratierte Tests. Der Streit um SimpleQA versus SimpleQA Verified ist ein Symptom dieser Zersplitterung.
Gleichzeitig findet ein viel fundamentalerer Wandel statt: Wir bewegen uns von Suchmaschinen, die Dokumente auffindbar machen, hin zu Antwortmaschinen, die eine Deutung der Welt gleich mitliefern. Bing hat mit seinem Chat‑Interface vorgelegt, Perplexity positioniert sich offen als »Antwort‑Suchmaschine«, OpenAI möchte zur »Schnittstelle zum Internet« werden. Google kann aus ökonomischen Gründen kaum abseits stehen.
Schon früher gab es bei Google problematische »Featured Snippets«, die falsche Einzelaussagen prominent zeigten. Doch da war der Effekt punktuell. Jetzt sind generative Overviews auf einen grossen Teil der Anfragen ausgerollt. Eine Fehlerrate von 10 Prozent verwandelt sich so von einer Randerscheinung in ein systemisches Merkmal.
Hinzu kommt ein psychologischer Effekt: Klassische Suchergebnisse sind sichtbar heterogen – widersprüchliche Überschriften, unterschiedliche Quellen, variierende Jahreszahlen. Diese Unordnung gibt uns zumindest die Chance, skeptisch zu bleiben. KI‑Overviews dagegen präsentieren eine einzige, geschmeidige Erzählung. Die sprachliche Souveränität kaschiert, dass das System im Kern statistisch rät.
In sicherheitskritischen Branchen wie Luftfahrt, Medizintechnik oder Bahnverkehr wäre ein solches Zuverlässigkeitsniveau schlicht inakzeptabel. Dort gelten Anforderungen von »fünf Neunen« (99,999 Prozent) und strenge Zertifizierungen. Natürlich ist Suche nicht dasselbe wie ein Bremscomputer. Aber Suchergebnisse beeinflussen Therapiewahl, Finanzentscheidungen, Wahlverhalten. Der Übergang zwischen »nicht lebenswichtig« und »potenziell hochrelevant« ist fliessend.
Das Muster der Tech‑Industrie ist dennoch klar: erst ausrollen, dann nachbessern. Google, einst bekannt für vorsichtige Qualitätstests im Search‑Team, folgt inzwischen derselben Logik wie jüngere KI‑Player.
Die europäische und DACH-Perspektive
Für Europa ist das Thema besonders sensibel, weil Google hier in vielen Ländern deutlich über 90 Prozent Marktanteil bei der Websuche hält. Wer in Deutschland, Österreich oder der Schweiz nach medizinischen Symptomen, Steuerfragen oder politischem Hintergrundwissen sucht, landet fast immer zuerst bei Google – und damit zunehmend bei KI‑Overviews.
Regulatorisch ist das Terrain komplex: Die EU hat Google im Rahmen des Digital Markets Act (DMA) als »Gatekeeper« eingestuft, der Digital Services Act (DSA) bringt zusätzliche Pflichten zur Risikobewertung und Transparenz, und der kommende EU‑AI‑Act nimmt leistungsfähige KI‑Systeme in den Fokus. KI‑Overviews hängen irgendwo zwischen diesen Regimen: Sie sind Teil eines Kern-Gatekeeperdienstes, können systemische Risiken für die öffentliche Meinungsbildung erzeugen und basieren auf allgemeinen KI‑Modellen.
Für die stark datenschutz‑sensibilisierte DACH‑Region kommt ein kultureller Faktor hinzu. Nutzerinnen und Nutzer sind seit Jahren misstrauisch gegenüber Tracking und Profiling, verlassen sich aber gleichzeitig sehr stark auf Googles Ergebnisqualität. Wenn nun eine formal »experimentelle« KI-Schicht ohne echte Opt‑out‑Möglichkeit in die Suche eingebaut wird, ist das politischer Sprengstoff – nicht nur für Brüssel, sondern auch für Behörden wie die deutschen Landesdatenschutzbeauftragten.
Sprachlich dürfte die Lage im Deutschen besser sein als in kleineren EU‑Sprachen, weil Trainingsdaten reichlich vorhanden sind. Aber auch hier gibt es Spezialfälle: regionale Rechtsprechung, Versicherungsdetails, steuerliche Feinheiten. Wer schon einmal erlebt hat, wie schlecht KI‑Modelle mit deutschem Steuerrecht oder österreichischen Mietverträgen umgehen, ahnt, dass die reale Fehlerquote in solchen Nischen weit über 10 Prozent liegen kann.
Für Medienhäuser wie Spiegel, FAZ, SZ oder die grossen Schweizer Verlage ist die Entwicklung doppelt kritisch: Sie kämpfen ohnehin mit sinkendem Traffic über Google, gleichzeitig droht nun, dass ihre Recherchen von einer KI paraphrasiert werden, ohne dass Nutzerinnen und Nutzer je auf die Originalseite gelangen.
Alternative Suchangebote aus Europa – etwa Qwant aus Frankreich, MetaGer und Ecosia aus Deutschland oder Swisscows aus der Schweiz – könnten aus diesem Vertrauensverlust Kapital schlagen. Aber ihnen fehlt meist das Budget, um vergleichbare KI‑Systeme und starke Datenschutzstandards gleichzeitig zu stemmen.
Ausblick
Wohin bewegt sich das Ganze in den nächsten Jahren?
Erstens wird Google die technischen Stellschrauben weiter anziehen. Wir werden mehr risikobasierte Steuerung sehen: zu manchen Themen (Gesundheit, Finanzen, Wahlen, Kinder) erscheinen Overviews deutlich seltener oder in entschärfter Form, mit mehr Hinweisen und prominenteren Quellenangaben. Intern dürfte Google die Modelle stärker mit klassischen Suchsignalen kombinieren und womöglich nur noch bei hoher interner Konfidenz eine KI‑Antwort ausspielen.
Zweitens ist mit wachsendem regulatorischem Druck zu rechnen – gerade aus der EU. Der DSA verlangt von sehr grossen Plattformen eine systematische Analyse von Risiken durch Desinformation und Auswirkungen auf Grundrechte. Eine KI‑Funktion, die nachweislich massenhaft falsche Fakten produziert, wird sich schwer damit tun, als »ausreichend mitigiert« durchzugehen, wenn keine belastbaren Transparenzberichte und unabhängigen Audits vorliegen.
Drittens werden sich die Nutzungsgewohnheiten differenzieren. Viele Menschen im DACH‑Raum nutzen KI bereits pragmatisch: ChatGPT oder lokale Alternativen für Textentwürfe, klassische Suchmaschinen oder Fachportale für verlässliche Informationen. Entscheidend wird sein, ob sich ein kollektives Bauchgefühl etabliert: KI‑Overviews als grober Einstieg, aber nicht als letzte Instanz. Wenn dieses Misstrauen einmal da ist, beschädigt es die Marke Google im Kernversprechen »organisierte Information der Welt«.
Interessant wird zu beobachten sein:
- ob Browser-Hersteller (auch aus Europa) Schalter anbieten, mit denen sich KI‑Overviews standardmässig deaktivieren lassen;
- ob spezialisierte Anbieter – von Gesundheitsportalen bis zu Rechtsdatenbanken – aktiv mit »ohne generative KI, nur geprüfte Inhalte« werben;
- ob europäische Aufsichtsbehörden konkrete Leitlinien veröffentlichen, ab welcher Fehlerquote und in welchen Anwendungsfeldern KI‑Antworten als unzulässig oder hochriskant gelten.
Die offene Flanke bleibt die Haftung. Wenn ein KI‑Overview eine Person verleumdet, eine gefährliche Dosierung empfiehlt oder Unternehmen mit falschen Fakten schadet: Greift hier Safe-Harbor‑Logik wie bei User‑Generated Content, oder wird Google als aktiver Inhalteanbieter betrachtet? Nationale Gerichte und der EuGH werden darüber mitentscheiden, wie aggressiv Konzerne KI in Kernprodukte integrieren.
Fazit
Ein System, das sich bei etwa jeder zehnten Antwort irrt, gehört nicht in die Rolle der obersten Instanz auf der wichtigsten Suchplattform Europas. Googles KI‑Overviews machen aus den unvermeidlichen Fehlern grosser Sprachmodelle ein Konstruktionsmerkmal unserer Informationsversorgung. Ohne echte Transparenz, Haftung und technische wie regulatorische Leitplanken zahlen Nutzerinnen und Nutzer sowie der europäische Web‑Ökosystem die Zeche. Die entscheidende Frage ist: Wie viele selbstbewusste Irrtümer sind wir bereit zu akzeptieren, nur um eine scheinbar bequemere Suche zu bekommen?



