Googleovi AI-pregledi griješe u 10 % slučajeva – previše za de facto javnu infrastrukturu | Digitalni Portal

Naslov i uvod

Ako danas nešto „proguglate“, velika je šansa da ćete prvo vidjeti okvir s odgovorom koji je napisala umjetna inteligencija, a tek ispod klasične plave poveznice. Nova analiza pokazuje da su ti AI‑pregledi, temeljeni na Geminiju, točni otprilike u 90 % slučajeva. Na papiru zvuči solidno. No kada govorimo o dominantnom tražilici koju koristi većina građana Hrvatske i Europske unije, preostaliih 10 % znači milijune pogrešnih tvrdnji svaki sat. U nastavku analiziramo što ta brojka stvarno znači, kako utječe na europske i regionalne korisnike te zašto bi regulatorima u Bruxellesu i Zagrebu ovo trebalo biti važno.

Vijest ukratko

Ars Technica prenosi analizu The New York Timesa i startupa Oumi prema kojoj Googleovi AI‑pregledi postižu otprilike 90–91 % točnosti na standardnom testu činjenica.

Oumi je koristio SimpleQA, skup više od 4.000 pitanja s provjerljivim odgovorima koji je 2024. objavio OpenAI. Automatizirani sustav slao je ta pitanja Googleovim AI‑pregledima i uspoređivao odgovore s referentnim rješenjima. Starije verzije Geminija postizale su oko 85 % točnosti, a nakon uvođenja Geminija 3 rezultat je porastao na približno 91 %.

Prema Ars Technici, ako se ta stopa pogreške projicira na ukupni volumen Google pretraga, AI‑pregledi mogu generirati desetke milijuna netočnih odgovora dnevno. Google kritizira ovaj pristup, tvrdeći da SimpleQA sadrži vlastite pogreške i da ne prikazuje realne upite korisnika. Tvrtka kaže da preferira manji, dodatno provjeren skup SimpleQA Verified te naglašava da AI‑pregledi ovisno o upitu biraju različite Gemini modele – od bržih Flash varijanti do snažnijih Pro modela.

Zašto je to važno

Devedeset posto zvuči impresivno dok gledate tablicu rezultata. No za sustav koji je praktički prva instanca za provjeru činjenica u društvu, to je zabrinjavajuće malo.

Pretraživanje interneta danas je infrastrukturna usluga. U Hrvatskoj i širem jugoistočnom susjedstvu „tražiti na internetu“ u praksi znači „tražiti na Googleu“. Nije riječ o zabavnom chatbotu, već o alatu na koji se oslanjaju škole, liječnici, poduzetnici, novinari i javna uprava.

AI‑pregledi sjede na samom vrhu rezultata, u jasno istaknutom okviru, napisani sigurnim tonom i potkrijepljeni s nekoliko poveznica. Većina korisnika te rečenice čita kao konačan odgovor, a ne kao statističku pretpostavku. Na mobitelu, gdje dominira upravo taj okvir, motivacija da se ode niže i usporede izvori još je manja.

Tko dobiva? Primarno Google. Sustav zadržava korisnike na stranici rezultata, potencijalno povećava broj prikaza oglasa i komunicira tržištu da je Google i dalje u igri protiv OpenAI‑ja, Microsofta (Copilot/Bing), Perplexityja i drugih koji nude „odgovorničke“ tražilice.

Tko gubi? Krajnji korisnici, koji u kritičnim situacijama mogu donijeti odluke na temelju pogrešnih podataka. Mediji i specijalizirane stranice iz Hrvatske i regije, čiji se sadržaj sažima ili iskrivljuje bez klika na izvor. I šire gledano, javni prostor u kojem postaje teško razaznati gdje završava klasično dohvaćanje informacija, a počinje maštovito generiranje.

Ključni problem je u tome što Google implicitno poručuje da je trenutna razina pouzdanosti generativne AI „dovoljno dobra“ za masovno uvođenje u uslugu koja je za mnoge građane jednako ključna kao struja ili voda.

Šira slika

Problem halucinacija velikih jezičnih modela nije nov. Svaki novi model dolazi s grafovima o točnosti, razumijevanju jezika i „faktografskoj“ preciznosti. No svaka tvrtka koristi vlastite skupove podataka i vlastite definicije uspjeha. Sukob oko SimpleQA nasuprot Googleovoj „Verified“ verziji samo je jedan od primjera kako se metrika prilagođava marketingu.

U isto vrijeme događa se dubinska promjena u načinu na koji pristupamo informacijama. Od klasičnih tražilica, koje prikazuju popis dokumenata, pomičemo se prema sustavima koji nam odmah isporučuju interpretirani odgovor. Bing je krenuo u tom smjeru s chatom, Perplexity se gradi upravo na konceptu „tražilice odgovora“, a OpenAI otvoreno želi biti „zadani sučeljni sloj“ prema internetu. Google, kao najveći igrač, nema luksuz ostati po strani.

Do sada su Googleove najveće greške bile vidljive uglavnom kroz tzv. istaknute isječke. Sada je ista logika ugrađena u mnogo veći dio upita. Deset posto pogrešaka u takvom opsegu više nije iznimka, već obilježje sustava.

Psihologija ovdje igra značajnu ulogu. Popis poveznica s različitim naslovima korisnika barem malo potiče na usporedbu. Jedan jedini, dobro napisan AI‑odgovor, koji se doima kao konsenzus, potiče suprotan refleks: prihvaćanje bez provjere.

U sigurnosno kritičnim sektorima, poput zrakoplovstva, medicine ili željeznice, pouzdanost od 90 % bila bi smatrana katastrofalnom. Tamo govorimo o razinama 99,99 % ili više, uz stroge certifikate i nadzor. Istina je da pogrešan rezultat pretrage neće sam po sebi „srušiti avion“. No može utjecati na odluku o lijeku, investiciji, pa i o tome kome dati glas na izborima.

U tehnološkoj industriji, pa i u regionalnoj startup sceni (Zagreb, Beograd, Ljubljana, Sarajevo), obrazac je međutim sličan: prvo lansirati, pa na temelju reakcija zakrpati rupe. Iznenađujuće je vidjeti da i Google, koji je dugo slovio za izrazito opreznog čuvara kvalitete pretrage, sada igra istu igru.

Europski i regionalni kut

Za Hrvatsku i jugoistočnu Europu ovo nije daleka teoretska rasprava. Google u većini zemalja EU, uključujući Hrvatsku, drži velik većinski udio na tržištu pretraživanja. Kada AI‑pregled pogriješi, velika je vjerojatnost da će upravo ta pogreška oblikovati percepciju teme za većinu korisnika.

Europska unija je Google već označila kao „vratara“ (gatekeeper) kroz Akt o digitalnim tržištima (DMA), dok Akt o digitalnim uslugama (DSA) uvodi obveze upravljanja sistemskim rizicima i transparentnosti. Uz to dolazi i europski Akt o umjetnoj inteligenciji, koji za moćne modele propisuje dodatne mjere nadzora.

AI‑pregledi se nalaze točno na sjecištu tih propisa: dio su osnovne gatekeeper usluge, mogu imati ogroman utjecaj na javno mnijenje te počivaju na general‑purpose AI modelima. Logično je očekivati da će se Bruxelles prije ili kasnije zapitati je li prihvatljivo da tražilica s gotovo monopolnim položajem iskazuje poznatu stopu pogreške od 10 % u svojim „službenim“ odgovorima.

Za male jezike, poput hrvatskog ili slovenskog, dodatni je problem što se većina evalucijskih skupova – uključujući SimpleQA – temelji na engleskom. Trening podataka na našim jezicima manje je, a lokalni kontekst (npr. hrvatsko radno pravo, mirovinski sustav, specifičnosti pravosuđa) složen. U praksi to može značiti da je realna stopa pogreške viša nego u engleskom, ali korisničko sučelje izgleda jednako sigurno.

Hrvatski mediji – od Jutarnjeg i Večernjeg lista do Indexa, N1, Net.hr‑a i niza lokalnih portala – već su snažno ovisni o Googleu za posjetu. Ako AI‑pregledi „pojedu“ dio tog prometa i pritom pogrešno interpretiraju sadržaj, udar će se posebno osjetiti kod manjih redakcija i neovisnih projekata, koji nemaju jake rezerve.

Istovremeno regionalna konkurencija u pretraživanju praktički ne postoji. Europske alternative poput Qwanta ili Ecosije tek se sporadično koriste, a lokalnih rješenja gotovo da i nema. To znači da je prostor za „glasanje nogama“ vrlo ograničen.

Pogled unaprijed

Što slijedi u narednim godinama?

Tehnički, razumno je očekivati da će Google postupno zaoštravati prikaz AI‑pregleda. Manje će se pojavljivati kod medicinskih, financijskih i politički osjetljivih tema, a češće će istaknuti upozorenja i poveznice na vjerodostojne izvore. U pozadini će vjerojatno kombinirati više signala (klasični algoritmi pretraživanja, pouzdanost izvora, interna „samouvjerenost“ modela) prije nego što odluči prikazati AI‑odgovor.

Regulatorno, vjerojatno ulazimo u period intenzivnijeg nadzora. DSA izričito traži od vrlo velikih platformi da analiziraju i smanjuju rizike povezane s dezinformacijama i utjecajem na temeljna prava. Funkcija koja proizvodi ogromne količine netočnih tvrdnji teško će proći bez javnih izvješća, neovisnih revizija i, moguće, konkretnih ograničenja za pojedine vrste upita.

S korisničke strane, upotreba će se polarizirati. Mnogi će i dalje rado koristiti AI za generiranje teksta, ideja ili programskog koda, ali će za ozbiljne informacije (zdravlje, pravo, financije, upisi na fakultet) tražiti specijalizirane portale ili izravne izvore. Već sada se vidi obrazac: AI za „skicu“, čovjek i klasično pretraživanje za konačnu provjeru.

Vrijedi pratiti nekoliko signala:

hoće li preglednici i mobilni sustavi dobiti jasnu opciju za isključivanje AI‑sloja u pretraživanju;
hoće li se pojaviti vertical‑specifične usluge (zdravstvo, pravo, obrazovanje) koje će se eksplicitno oglašavati kao „bez generativne AI, samo provjerene informacije“;
hoće li hrvatske institucije poput AZOP‑a ili HAKOM‑a, zajedno s EU regulatorima, početi objavljivati smjernice i zahtijevati transparentnost oko točnosti ovakvih sustava.

Najveće otvoreno pitanje ostaje odgovornost. Ako AI‑pregled nekog okleveta, preporuči opasan savjet o lijekovima ili poduzeću nanese štetu pogrešnim podatkom, tko pravno odgovara? Google kao „domaćin“ tuđeg sadržaja ili Google kao aktivni proizvođač tog teksta? Od odgovora na to pitanje ovisit će koliko agresivno će velike tehnološke kompanije nastaviti uvoditi AI u srž svojih usluga.

Zaključak

Sustav koji griješi otprilike u svakoj desetoj tvrdnji ne bi smio biti postavljen kao konačni autoritet na vrhu najutjecajnije tražilice na svijetu. Googleovi AI‑pregledi pretvaraju neizbježne pogreške generativnih modela u trajno obilježje našeg pristupa informacijama. Ako Google – i regulatori – na to gledaju samo kao na „eksperiment sa značajkama“, a ne kao na pitanje informacijske infrastrukture, cijenu će i dalje plaćati korisnici, mediji i demokratski procesi. Ključno pitanje za svakoga od nas glasi: u kojim ste situacijama spremni prepustiti odluku tekstu koji je napisala mašina s poznatom stopom pogreške od 10 %?

Googleovi AI-pregledi griješe u 10 % slučajeva – previše za de facto javnu infrastrukturu

Naslov i uvod

Vijest ukratko

Zašto je to važno

Šira slika

Europski i regionalni kut

Pogled unaprijed

Zaključak

Komentari

Ostavite komentar

Povezani članci

Kad padne servis, kriva je AI: Bluesky, „vibe coding“ i novo nepovjerenje u softver

Anthropicov Mythos: kada AI počne otkrivati tisuće propusta, mijenja se sigurnosna matematika

Intel spašava Terafab od znanstvene fantastike – i otkriva novu os chipovske moći

Ostani informiran