Tri mejniki zmogljivosti AI modelov: kaj nam Google v resnici sporoča

Naslov in uvod

V zadnjih dveh letih je prevladovalo prepričanje, da pri umetni inteligenci šteje predvsem eno: čim pametnejši model. Pogovor, ki ga je TechCrunch opravil z vodjo Cloud AI pri Googlu Michaelom Gerstenhaberjem, pa ponudi precej treznejši pogled. Predstavi tri mejnike, ob katere se danes zaletavajo modeli: inteligenca, odzivni čas in strošek pri velikem, nepredvidljivem obsegu uporabe. To ni le teorija, ampak okvir, ki ga pri razvoju AI rešitev v praksi nujno potrebujete. V nadaljevanju analiziram, zakaj ta pristop spreminja igro, kaj pomeni za agentne sisteme in kako se v to sliko umešča Evropa – ter Slovenija.

Novica na kratko

Kot poroča TechCrunch, je podpredsednik za produkt pri Google Cloud Michael Gerstenhaber, odgovoren za platformo Vertex AI, predstavil trojni pogled na razvoj zmogljivosti modelov. Na podlagi izkušenj pri Anthropicu in Googlu trdi, da se modeli hkrati izboljšujejo v treh smereh: surova inteligenca, odzivni čas ter možnost cenovno vzdržnega delovanja pri nepredvidljivem številu zahtevkov.

Opiše tri tipične scenarije. Pri zahtevnih nalogah, kot je pisanje kode, podjetje maksimira inteligenco – tudi če odgovor traja nekaj minut. Pri interakcijah v realnem času, recimo pri podpori uporabnikom, inteligenco omejuje strog časovni proračun; popoln odgovor nima vrednosti, če uporabnik že obupa. Pri obdelavi velikega števila dogodkov, denimo moderiranju vsebin na družbenih omrežjih, pa glavno vlogo prevzame strošek na klic.

Gerstenhaber obenem pojasni, zakaj se tako imenovani agentni sistemi (samodejni AI agenti z dostopom do orodij in podatkov) počasneje uveljavljajo v produkciji. Manjkajo vzorci za revizijo delovanja, za avtorizacijo nad podatki in za varno vključevanje v obstoječe procese – z izjemo razvoja programske opreme, kjer takšni mehanizmi že obstajajo.

Zakaj je to pomembno: nov okvir za odločevalce

Gerstenhaberjev model treh mejnikov je na videz preprost, a v resnici razbije dominantni mit zadnjih let: da je »najpametnejši model« vedno tudi najboljša izbira. Če ste CIO, CTO ali produktni vodja, je bolj relevantno vprašanje: koliko inteligence v resnici potrebujemo, pri kakšni zakasnitvi in za kakšen strošek?

Zmagovalci tega pogleda so pragmatični graditelji. Njihov občutek, da »največji model« pogosto ni najboljši, dobi teoretično podlago. Nabava, ki izbira le na podlagi točk na benchmarkih, je preprosto prekratka. Potrebujete modeliranje potrpežljivosti uporabnikov in volatilnosti stroškov vsaj toliko natančno kot analizo kakovosti izpisa.

Tudi veliki ponudniki v oblaku dobijo jasnejšo zgodbo. Google lahko postavi Gemini Ultra na mejo inteligence, lažje različice za nizko latenco in manjše, destilirane modele za množične naloge. OpenAI in Anthropic že nekaj časa počneta enako s svojimi družinami modelov. Dejstvo, da to logiko javno artikulira visoki predstavnik Google Clouda, pomeni, da je doba enega »zastavonošnega« modela končana.

Kdo izgublja? Startup-i, ki stavijo izključno na »malo bolj pameten model«, brez jasne prednosti v stroških, latenci ali integraciji. In pa podjetja, ki AI še vedno razumejo kot en sam projekt ali en sam proračunski stolpec, namesto kot portfelj različnih zmogljivosti, prilagojenih konkretnim poslovnim omejitvam.

Še bolj pomemben je signal glede agentnih sistemov: problem ni, da modeli niso dovolj dobri. Problem je, da organizacije nimajo prilagojenih procesov, kontrol in orodij za samostojne sisteme. To je družbeno‑tehnični izziv, ne še en benchmark.

Širša slika: od »enega velikega možgana« do mreže specializiranih storitev

Trojni okvir se lepo ujema z več širšimi trendi v industriji umetne inteligence.

Prvič, pojasni prehod od enega »glavnega« modela do družin modelov. OpenAI je GPT‑4 razdelil na različice z drugačnim razmerjem med kakovostjo, hitrostjo in ceno. Anthropic ponuja Claude v treh okusih. Google je z Gemini Ultra/Pro/Nano pravzaprav storil isto. Ne gre le za cenovne razrede, ampak za zasedanje različnih točk v prostoru inteligenca–latenca–strošek.

Drugič, spremeni razpravo o agentih. Mnogi današnji agenti so v resnici preveč razkošni: za trivialne naloge uporabljajo vrhunske modele, kar po nepotrebnem požira čas in denar. Če sprejmete, da so realni poslovni procesi mešanica globokega sklepanja, kratkih interakcij in množičnega razvrščanja, potem mora resen agentni okvir znati dinamično preklapljati med različnimi modeli. Ključna postane orkestracijska plast – ne sam surovi model.

Tretjič, poudari pomen infrastrukture in governance rešitev. Beleženje, kaj je agent počel, jasne omejitve nad tem, do katerih podatkov sme, simulacija kompleksnih verig orodij pred produkcijo – to so odprta vprašanja, zelo podobna začetkom DevOps in mikrostoritev. Orodja za opazovanje (observability), politike in »CI/CD za agente« bodo postala enako kritična kot sami modeli.

Zgodovinsko nismo prvič v takem prehodu. Ko se je računalništvo preselilo iz enega velikega strežnika v porazdeljene mikrostoritve, se je razprava o zmogljivosti premaknila od gigahercev k latenci, SLO‑jem in strošku na zahtevek. Z AI se dogaja nekaj zelo podobnega: od »IQ« enega modela k sistemskemu razmišljanju o celotni rešitvi.

Evropski in slovenski vidik: regulativa sreča tri mejnike

Za evropska podjetja so Gerstenhaberjeve misli skoraj načrt, kje bodo pritiski GDPR, Akta o umetni inteligenci in drugih uredb najmočnejši.

Na meji inteligence bodo visokozmogljivi modeli, ki odločajo o kreditu, zaposlitvi ali zdravljenju, verjetno uvrščeni med visokorizične sisteme po AI Act. To pomeni obvezno upravljanje tveganj, beleženje in človeški nadzor. Zahteva po reviziji delovanja agentov, ki jo omenja Gerstenhaber, bo v EU preprosto zakonsko zapisana.

Na meji latence številna evropska podjetja uvajajo AI pomočnike za podporo uporabnikom v bankah, zavarovalnicah in javni upravi. Tam ne morete zgolj povečati modela; čas odziva omejujejo pričakovanja uporabnikov in včasih celo regulatorni roki za reševanje pritožb. Slovenska banka ali zavarovalnica si ne more privoščiti superpametnega, a počasnega agenta, ki stranko drži v nedogled na čakanju.

Na meji stroška/obsega pa evropske platforme z vsebinami – od trgov do medijev – potrebujejo moderiranje, ki je tako poceni kot skladno z evropskimi pravili (DSA, nacionalna zakonodaja o sovražnem govoru). Poganjanje najzmogljivejših modelov za vsak komentar bi finančno uničilo marsikatero redakcijo v Ljubljani ali Zagrebu. Realnejša je večplastna arhitektura: cenejši filtri za večino, pametnejši modeli in ljudje za robne primere.

Za evropske ponudnike oblaka in AI je to hkrati grožnja in priložnost. Google ima prednost vertikalne integracije – od čipov in podatkovnih centrov do modelov in agentnih platform. A evropska podjetja lahko zmagujejo z nišami: podatkovna suverenost, orodja za skladnost in sektorsko specifični agenti, ki delujejo na vrhu globalnih modelov, a znotraj evropskih pravnih in energetskih omejitev.

V slovenskem kontekstu to pomeni, da bodo večja fintech in telco podjetja – ter uspešni izvozniki programske opreme v Ljubljani in Mariboru – morala zelo natančno razmišljati, kateri deli procesov sploh upravičujejo uporabo najzmogljivejših modelov in kje raje staviti na hitre, cenejše specializirane modele.

Pogled naprej: od izbire modela k disciplini sistemskega dizajna

Če Gerstenhaberja vzamemo resno, naslednjih nekaj let ne bo zaznamoval en sam »skok« v IQ modelov, temveč sposobnost organizacij, da pametno arhivirajo svoje AI sisteme okoli treh mejnikov.

Namesto vprašanja »kateri model?« bo ključno: za ta proces, kakšna je maksimalno sprejemljiva latenca, stopnja napak in strošek na transakcijo? Šele nato pride na vrsto izbira enega ali več modelov kot optimizacijski problem, ne kot verski spor o benchmarkih.

Obenem lahko pričakujemo več avtomatskega usmerjanja med modeli. Oblaki bodo ponujali »profile« – optimizirano za strošek, za hitrost ali za kakovost – in pod pokrovom dinamično izbirali različne modele. To bo povečalo učinkovitost, a zmanjšalo preglednost. Regulatorji in stranke bodo upravičeno spraševali, kateri model je sprejel konkretno odločitev.

Na področju agentov se bo praznina, ki jo omenja Gerstenhaber – pomanjkanje vzorcev za revizijo in avtorizacijo – skoraj zagotovo zapolnila z novim slojem orodij. Pričakujemo lahko »peskovnike« za agente, simulacijska okolja, formalne jezike za politike in nove vloge tipa »agent ops«, podobno kot imamo danes SRE za zanesljivost sistemov. Evropska podjetja, vajena strogih postopkov sprememb, bodo tu morda celo v prednosti.

Glavna tveganja? Najprej zaklenjenost v enega ponudnika: vertikalno integrirane platforme, kot je Vertex AI, so izjemno priročne, a otežijo kasnejšo migracijo, če se spremenijo cene ali regulativa. Nato tveganje upravljanja: če agenti dostopajo do občutljivih sistemov brez pravih ograj, lahko prvi incidenti v EU sprožijo zelo ostre omejitve. In seveda stroški: če boste vsak problem reševali z najzmogljivejšim modelom, boste hitro dobili račun, zaradi katerega bo finančni direktor potegnil ročno zavoro.

Ključni nauk

Gerstenhaberjev pogled na tri mejnike ni zgolj duhovita metafora, ampak praktičen načrt za naslednjo fazo uvajanja AI. Inteligenca, latenca in strošek niso le tehnične metrike, temveč vzvodi, ki bodo odločali, kateri projekti bodo poslovno vzdržni, skladni z regulativo in vredni zaupanja. Podjetja, ki bodo ta sistemski način razmišljanja osvojila zgodaj in hkrati vlagala v revizijo ter avtorizacijo agentov, bodo ustvarila resno prednost. Tisti, ki bodo še naprej slepo lovili »najpametnejši model«, pa bodo verjetno preplačali, pod‑dostavili in se hitro srečali z regulatorji. Ključno vprašanje za vas je: kje na teh treh mejnikih mora v resnici živeti vaš naslednji AI projekt?

Tri mejniki zmogljivosti AI modelov: kaj nam Google v resnici sporoča

Naslov in uvod

Novica na kratko

Zakaj je to pomembno: nov okvir za odločevalce

Širša slika: od »enega velikega možgana« do mreže specializiranih storitev

Evropski in slovenski vidik: regulativa sreča tri mejnike

Pogled naprej: od izbire modela k disciplini sistemskega dizajna

Ključni nauk

Komentarji

Pustite komentar

Povezani članki

Ko šefa zamenja model: kaj pomeni Uberjev »Dara AI« za delo in vodstvo

MatX proti Nvidii: ko 500 milijonov dolarjev meri na računsko moč, ne le na hitrost

Evropska prednost v umetni inteligenci je lahko majhna, ne ogromna: pomen stisnjenega modela Multiverse

Ostani na tekočem