Googleovi AI-povzetki so 90‑odstotno pravilni – in to je resen problem | Digitalni Portal

Naslov in uvod

Iskanje po spletu z Googlom danes pomeni, da vas najprej pričaka AI‑povzetek, ne več klasičen seznam povezav. Nova analiza kaže, da so ti Gemini‑povzetki pravilni približno v 90 odstotkih primerov. Pri laboratorijskem modelu bi se to slišalo odlično. Pri storitvi, ki je za Slovence in večino Evrope de facto javna infrastruktura za informacije, pa 10‑odstotna napačnost pomeni nekaj drugega: milijone zavajajočih odgovorov na uro. V nadaljevanju pogledamo, kaj takšna natančnost v resnici pomeni, kdo nosi tveganje in kje se v enačbi znajdejo evropski – in slovenski – uporabniki.

Novica na kratko

Ars Technica poroča o analizi The New York Timesa in zagonskega podjetja Oumi, iz katere izhaja, da so Googleovi AI‑povzetki pri odgovarjanju na dejstvena vprašanja pravilni približno v 90–91 odstotkih primerov.

Oumi je uporabil javni test SimpleQA z več kot 4.000 vprašanji z preverljivimi odgovori, ki ga je leta 2024 predstavil OpenAI. Sistem je samodejno poizvedoval prek AI‑povzetkov in ocenjeval, ali so odgovori skladni z referenčnimi podatki. Starejša generacija Geminija je dosegla okoli 85 odstotkov, po uvedbi Geminija 3 pa je natančnost poskočila na približno 91 odstotkov.

Ars opozarja, da pri Googlovem iskalnem obsegu to pomeni potencialno desetine milijonov napačnih izjav na dan. Google test kritizira: trdi, da SimpleQA vsebuje napake in da ne odraža resničnih iskalnih navad uporabnikov. Podjetje daje prednost lastni, dodatno preverjeni različici SimpleQA in poudarja, da AI‑povzetki za različna vprašanja dinamično izbirajo različne modele Gemini – od hitrih modelov Flash do zmogljivejših, a dražjih različic Pro.

Zakaj je to pomembno

Devetdeset odstotkov zveni dobro – dokler ne pomislite, kje je ta sistem vgrajen. Ne gre za eksperimentalni klepetalnik na ločeni spletni strani, temveč za vrhnjo plast iskalnika, ki ga uporablja praktično vsak slovenski internetni uporabnik.

Iskanje je infrastruktura. V Sloveniji ni veliko področij, kjer bi bila odvisnost od enega samega ponudnika tako velika kot pri iskanju: šole, podjetja, državna uprava, zdravstvo – vsi so v praksi vezani predvsem na Google. Ko infrastruktura v 10 odstotkih primerov poda napačne informacije, to ni več bug, ampak značilnost sistema.

Težava ni samo v številki, ampak v zaznani avtoriteti. AI‑povzetek je na vrhu strani, v velikem okvirju, z odločno formuliranimi odgovori in nekaj citiranimi viri. Povprečen uporabnik tega ne bere kot verjetnostni približek, temveč kot uraden odgovor. Še posebej na telefonu, ko se vam mudi in do »modrih povezav« sploh ne pomaknete.

Kdo ima korist? Predvsem Google. AI‑povzetki zadržijo uporabnika na strani z rezultati, potencialno povečajo prikaze oglasov in podjetju omogočajo, da se predstavlja kot vodilni »odgovorniški« iskalnik v boju s konkurenti, kot so OpenAI, Perplexity ali Microsoft. Odprti splet se pri tem vse bolj spreminja v surovino za treniranje in citiranje, ne pa v primarni cilj.

Kdo izgublja? Uporabniki, ki zamenjujejo tekoč, samozavesten jezik za resničnost. Slovenski in evropski mediji, ki vlagajo v kakovostno vsebino, a dobijo manj prometa in več napačnih povzetkov svojih člankov. In širši informacijski ekosistem, v katerem se meja med pridobivanjem informacij in izmišljanjem vedno bolj briše.

Širši kontekst

Industrija umetne inteligence se s problemom halucinacij spopada že leta. Vsak nov model pride z diapozitivi o rezultatih na različnih testih; vsak ponudnik si izbere takšne metrike, na katerih izpade najbolje. Spor med SimpleQA in SimpleQA Verified je le ena epizoda v tej »vojni benchmarkov«.

Bolj pomembna sprememba je produktna: iz klasičnih iskalnikov, ki so kazali dokumente, prehajamo v »odgovorniške stroje«, ki namesto vas sintetizirajo razlago. Bing je to začel s klepetalnim vmesnikom, Perplexity gradi celotno zgodbo prav na tem modelu, OpenAI odkrito cilja na to, da postane »privzeti vmesnik do interneta«. Google – veliki incumbent – mora v tej igri sodelovati, če želi ohraniti primat.

V preteklosti so bile napačne informacije pri Googlu omejene na redkejše funkcije, recimo izpostavljene odlomke. Danes pa so generativni povzetki prilepljeni na vrh velikega deleža poizvedb. Desetodstotna napačnost pri milijardah interakcij na dan zato ni več robni pojav, temveč strukturna lastnost.

Tu je še psihološki učinek. Klasični rezultati so vidno neurejeni: več naslovov, različni viri, včasih si celo nasprotujejo. Ta raznolikost uporabnika vsaj malo prisili v primerjavo. AI‑povzetek pa daje en sam, lepo oblikovan, »pripovedni« odgovor. Takšna gladkost dobro skrije dejstvo, da sistem v resnici ni prepričan.

Če primerjamo z res varnostno‑kritičnimi področji – letalstvo, medicina, industrijski nadzor – je 90‑odstotna zanesljivost povsem nepredstavljiva. Tam zahtevamo redundantne sisteme, certifikacijo, revizijske sledi. Res je, da napačen iskalni rezultat neposredno ne ogroža življenj, a vpliva na odločitve na področjih, kjer posledice so življenjsko pomembne. Zato argument »glede na težavnost problema je 90 odstotkov kar dobro« preprosto ni dovolj.

Vzorec v panogi je jasen: najprej široka uvedba, nato improvizirani varovalni mehanizmi. Google, ki je dolgo gradil ugled na previdnih, postopnih spremembah kakovosti iskanja, sledi isti logiki.

Evropski in slovenski pogled

Za evropske in slovenske uporabnike to ni oddaljena ameriška zgodba. V večini držav EU ima Google pri iskanju več kot 90‑odstotni tržni delež, Slovenija ni izjema. Ko AI‑povzetek zgreši, ne zavaja le »nekaterih« uporabnikov – pogosto oblikuje pogled večine na neko temo.

EU je Google že razglasila za »vratarja« po Uredbi o digitalnih trgih (DMA) in mu naložila dodatne obveznosti po Aktu o digitalnih storitvah (DSA). Na poti je še evropski Akt o umetni inteligenci, ki bo za visoko‑rizične in splošno‑namenske modele predpisal upravljanje tveganj, preglednost in človeški nadzor.

AI‑povzetki sedijo nekje med vsemi temi režimi: so del ključne vratarjeve storitve (iskanje), ustvarjajo očitna sistemska tveganja (DSA) in temeljijo na splošno‑namenskih modelih (AI Act). Prej ali slej bo morala Evropska komisija odgovoriti na konkretno vprašanje: ali je sprejemljivo, da tako dominanten iskalnik množično prikazuje generativne odgovore z znano, dvomestno stopnjo napak?

Za manjše jezike, kot sta slovenščina in hrvaščina, je tveganje še večje. Večina testnih zbirk, vključno s SimpleQA, je v angleščini. Podatkov za učenje modelov v slovenščini je manj, lokalni kontekst je specifičen. Realna natančnost v slovenščini je lahko občutno slabša od 90 odstotkov, uporabniški vmesnik pa tega nikjer ne nakaže.

Slovenski mediji – od Dela in Večera do 24ur in RTV – so že danes odvisni od Googla za velik del obiska. Če AI‑povzetki njihove vsebine povzamejo ali popačijo, uporabnik pa na stran sploh ne klikne, se poslovni model neodvisnega novinarstva še dodatno krha. Po drugi strani evropske alternative, kot so Qwant, Ecosia ali lokalne pobude, težko konkurirajo Googlovi tehnični in tržni moči.

Vse to se dogaja v okolju, kjer slovenski Informacijski pooblaščenec in AKOS že zdaj spremljata vpliv velikih platform na zasebnost in konkurenco. AI‑plast nad iskanjem bo prej ali slej prišla tudi na njihov radar.

Pogled naprej

Verjeten je trojni razvoj.

Prvič, Google bo AI‑povzetke postopoma zaostril iz notranje strani. Delno se to že dogaja: manj jih je pri občutljivih temah (zdravje, finance, volitve), vedno več je opozorilnih stavkov o možnosti napak, v ozadju pa strožji filtri in močnejše opiranje na zanesljive vire. Pričakovati je mogoče tudi tiho omejevanje prikaza povzetkov pri vprašanjih, kjer je sistemovo »zaupanje« nizko.

Drugič, politični in regulativni pritisk bo zrasel, še posebej v EU. DSA od zelo velikih platform zahteva analizo in zmanjševanje sistemskih tveganj, med katere izrecno sodi tudi dezinformiranje. AI‑povzetki z dokazano znatnim številom napačnih izjav so idealen kandidat za prvi resnejši preizkus teh določb v praksi.

Tretjič, uporabniki se bodo prilagodili hitreje, kot misli Google. V praksi se že dogaja razcep: za ideje, programiranje in besedilne osnutke ljudje uporabljajo klepetalne modele, za pomembna dejstva pa se vračajo k klasičnemu iskanju ali specializiranim portalom (zdravstveni, pravni, finančni). Če se bo večina na AI‑povzetke navadila gledati kot na »hiter pregled, ne pa zanesljiv vir«, bo Google v lastni storitvi zasejal dvom, ki ga kasneje težko odstrani.

V naslednjih 12–24 mesecih velja spremljati:

ali bo Google objavil neodvisno potrjene podatke o natančnosti AI‑povzetkov po področjih in jezikih,
ali bodo brskalniki in mobilni sistemi ponudili jasnejše možnosti, da uporabnik AI‑plast nad iskanjem izključi,
ali bodo specializirane storitve (npr. zdravstveni portali) začele aktivno tržiti prednost »ne‑AI, preverjenih informacij«.

Največja odprta točka je odgovornost. Ko AI‑povzetek napačno navede odmerek zdravila ali koga obrekovalno predstavi, kdo v resnici odgovarja – in po katerem pravu? Sodišča in regulatorji na to še niso dali jasnega odgovora.

Ključna misel

Sistem, ki se moti v 10 odstotkih primerov, ne bi smel igrati vloge končne avtoritete na največjem iskalniku na svetu. Google z AI‑povzetki neizogibne napake modelov spremeni v strukturni del tega, kako Slovenci in Evropejci dostopamo do informacij. Če se tega ne bo obravnavalo kot infrastrukturno tveganje in ne zgolj kot produktni eksperiment, bodo stroške napak še naprej plačevali uporabniki in lokalni spletni ekosistem. Vprašanje za vas je preprosto: pri katerih temah ste še pripravljeni zaupati besedilu v okvirju na vrhu strani?

Googleovi AI-povzetki so 90‑odstotno pravilni – in to je resen problem

Naslov in uvod

Novica na kratko

Zakaj je to pomembno

Širši kontekst

Evropski in slovenski pogled

Pogled naprej

Ključna misel

Komentarji

Pustite komentar

Povezani članki

Ko pade platforma, je kriv robot: Bluesky, »vibe coding« in razpadajoče zaupanje v programsko opremo

Mythos: ko lahko en model razkrije tisoče ranljivosti, se kibernetska igra spremeni

Intel rešuje Muskovo Terafab vizijo – in jo spreminja v klasičen posel s tovarnami čipov

Ostani na tekočem