Gemini 3.1 ruši rekorde. No pravo pitanje je tko će upravljati tim agentima

Uvod

Googleov novi model Gemini 3.1 Pro ponovno je zasjeo na vrh AI ljestvica. Na prvi pogled, još jedan trijumf u utrci velikih jezičnih modela. Ali 2026. godine ključno pitanje više nije tko ima najveći broj na benchmarku, nego tko tu snagu pretvara u stvarne usluge, radna mjesta i stratešku prednost. U ovom tekstu gledamo iza marketinških grafova: što ovi rezultati znače za razvojne timove, poduzeća i javni sektor u Hrvatskoj i regiji, kako mijenjaju odnos snaga između Googlea, OpenAI‑a i Anthropica te gdje se u svemu tome nalazi Europa.

Vijest ukratko

Kako piše TechCrunch, Google je predstavio novu verziju svojeg modela Gemini Pro, nazvanu Gemini 3.1 Pro. Model je trenutno dostupan u preview načinu rada, a šira dostupnost slijedi uskoro. Google ga opisuje kao značajan iskorak u odnosu na Gemini 3, objavljen u studenome, koji je već slovio kao vrlo sposoban sustav opće namjene.

Prema TechCrunchevu izvještaju, Gemini 3.1 Pro ostvario je vrhunske rezultate na više neovisnih benchmarka, među njima na testu „Humanity’s Last Exam“, usmjerenom na kompleksno zaključivanje. Osim toga, startup Mercor navodi da je model preuzeo prvo mjesto na njihovoj APEX-Agents ljestvici, koja mjeri sposobnost modela da rješavaju stvarne profesionalne zadatke. Direktor Mercora ističe da to pokazuje koliko brzo agentni sustavi napreduju u „pravom“ uredskom i stručnom radu. Lansiranje dolazi u trenutku zaoštravanja „ratova modela“, u kojima i OpenAI i Anthropic predstavljaju nove modele fokusirane na višekoračno rezoniranje i agentni rad.

Zašto je to važno

Uspjeh Gemini 3.1 Pro na benchmark testovima prvenstveno je signal tržištu: Google više ne želi biti percipiran kao sporiji pratitelj GPT‑a, nego kao ravnopravan – ili čak vodeći – dobavljač za ozbiljne AI projekte. Posljednjih godina narativ je bio da „svi koriste GPT“, a ostali su alternativa. Sada Google može sasvim jednostavno reći CIO‑ima i CTO‑ima: nema razloga da birate jednog jedinog dobavljača iz navike.

Tko dobiva?

Google Cloud i Workspace: snažan model u pozadini Gmaila, Dokumenata, Androida i podataka povećava vrijednost cijelog ekosustava.
Razvijatelji agenata i automatizacije, koji dobivaju još jednu vrlo jaku opciju za orkestriranje višekoračnih radnih tokova, pozivanje alata i rad s dugim kontekstom.
Velika poduzeća, osobito ona koja već koriste Googleovu infrastrukturu, jer dobivaju veću pregovaračku moć prema drugim AI pružateljima.

Tko gubi? Manji proizvođači zatvorenih modela i kasno financirani AI startupi, koji su računali na prodaju vlastitih „frontier“ modela. Ako tri tehnološka diva u kratkim razmacima lansiraju modele koji obaraju rekorde, teško je objasniti zašto bi netko platio srednje rješenje koje je tek „dovoljno dobro“. Pritisak će se osjećati i u gornjem segmentu open‑source ekosustava, iako otvoreni modeli i dalje imaju prednost u trošku, transparentnosti i mogućnosti prilagodbe.

Dublji problem je opsjednutost benchmarkovima. Kada se industrija usredotoči na ljestvice, modeli se uče „za ispit“, a ne za stvarne uvjete. Na testovima blistaju, ali u kontaktu s neurednim podacima, nedorečenim procesima ili reguliranim sektorima mogu neugodno podbaciti. Za banke, osiguravatelje, telekome ili javnu upravu u Zagrebu, Ljubljani ili Beogradu bit će važniji pouzdanost, cijena po slučaju i pravna sigurnost nego još par bodova na »Humanity’s Last Exam«.

Šira slika

Gemini 3.1 Pro savršeno se uklapa u prelazak s klasičnog „chatbota“ na agentnu umjetnu inteligenciju. Cilj više nije samo odgovoriti na pitanje, već samostalno planirati korake, pozivati API‑je i alate, pratiti dokumente i razgovore kroz duže razdoblje. Benchmark APEX-Agents upravo to mjeri: koliko dobro model odrađuje cjelovite zadatke znanstvenog ili uredskog rada.

Slične faze već smo vidjeli. U doba pametnih telefona proizvođači su se natjecali u GHz i sintetičkim testovima, dok su korisnici često jedva primijetili razliku u stvarnom radu i bateriji. U svijetu GPU‑ova svaka generacija ruši rekorde u FLOPS‑ima, ali tek kada aplikacije i poslovni modeli sazru, te brojke dobiju smisao. AI danas prolazi kroz fazu maksimalizma benchmarkova.

Istovremeno i OpenAI i Anthropic idu u smjeru modela koji bolje planiraju, koriste alate i nude više sigurnosnih kontrola. Ništa od toga ne stane u jednu brojku. Tijekom sljedećih 12–24 mjeseca o pobjednicima će odlučivati drugi kriteriji:

Operativna robusnost: kako se model ponaša pod opterećenjem, kakva je dostupnost i podrška.
Alati za upravljanje i sigurnost: granularne politike, evidencije, nadzor nad sadržajem i pristupom.
Kvaliteta integracije: SDK‑ovi, konektori prema ERP‑u, CRM‑u i oblaku, mogućnost hibridnog rada.
Ekonomika: cijena po milijun tokena, latencija, mogućnost pokretanja manjih varijanti na vlastitoj infrastrukturi.

Rekordi na testovima tako postaju ulaznica, ne više glavna diferencijacija. Prava utrka seli se s gole inteligencije na upotrebljivu inteligenciju – koliko se ti sustavi stvarno uklapaju u organizacije s naslijeđenim IT‑jem, regulatornim obvezama i zaposlenicima koji s pravom postavljaju teška pitanja.

Europski i regionalni kontekst

Za Europsku uniju, a s njom i za Hrvatsku, Gemini 3.1 Pro stiže u trenutku kada se počinje primjenjivati Uredba o umjetnoj inteligenciji (EU AI Act). Taj okvir uvodi posebne obveze za pružatelje snažnih modela opće namjene: više transparentnosti, tehničku dokumentaciju, procjene rizika i, po potrebi, dodatne zaštitne mjere. Model koji dominira benchmarkovima poput „Humanity’s Last Exam“ očito spada u kategoriju koja će regulatorima biti posebno zanimljiva.

Europski i hrvatski regulatori neće se zadovoljiti marketinškim grafovima. Pitat će: koje su poznate granice Gemini 3.1 Pro? Kako Google adresira pristranost, dezinformacije i mogućnost zlouporabe u zdravstvu, javnoj upravi ili obrazovanju? Mogu li korisnici u EU dobiti dovoljno informacija i alata da dokažu usklađenost s AI Actom, GDPR‑om i nacionalnim zakonodavstvom?

Za hrvatske i regionalne tvrtke – od Zagreba i Ljubljane do Sarajeva i Podgorice – prilika je jasna: snažniji modeli mogu donijeti kvalitetnije usluge na hrvatskom i drugim jezicima regije, bez gradnje vlastitih temeljnih modela. To se odnosi i na velike igrače poput Infobipa ili Rimca, ali i na turističke, logističke i proizvodne tvrtke. No istodobno raste ovisnost o nekoliko američkih dobavljača, što domaće aktere gura u ulogu integratora, a ne vlasnika ključne tehnologije.

Zbog toga će EU, a posredno i Hrvatska, vjerojatno još snažnije gurati koncepte poput „digitalnog suvereniteta“: vlastiti centri za evaluaciju, javni benchmarkovi, europski oblaci te podrška otvorenim ili europskim modelima prilagođenima lokalnim jezicima i regulativi.

Pogled unaprijed

Gemini 3.1 Pro vjerojatno neće biti posljednji model s „rekordnim“ rezultatima ove godine. Već viđeni obrazac: jedan laboratorij objavi nove brojke, drugi odgovori, i tako u krug. Puno je zanimljivije što se događa ispod površine.

Prvo, standardizacija evaluacija. Današnji ekosustav benchmarkova je rascjepkan, a mnogi testovi su u privatnim rukama. U sljedećih 18–24 mjeseca možemo očekivati pritisak za transparentnije, ponovljive i sektorski specifične testove – neke vođene od strane industrije, neke od regulatora.

Drugo, cijena i dostupnost. Hoće li Google ponuditi uvjete koji imaju smisla za startupe u Zagrebu ili Splitu, za srednja poduzeća u Istri ili Slavoniji, kao i za javnu upravu, koja radi s ograničenim proračunima? Rekordi vrijede tek kad si možete priuštiti milijune poziva mjesečno.

Treće, društveni i radni učinak. Kako agentni sustavi preuzimaju zadatke analitičara, administracije ili korisničke podrške, rasprave o zapošljavanju, prekvalifikacijama i odgovornosti postajat će sve žešće. Tvrtke koje implementiraju Gemini 3.1 Pro ili konkurentske modele morat će imati jasnu strategiju: kako podijeliti dobit od produktivnosti i kako zaštititi ljude od loših odluka algoritama.

Realno je očekivati da će Google prvo agresivno ugraditi Gemini 3.1 Pro u vlastite proizvode – od Gmaila i Workspacea do Androida i Chromea – a zatim selektivno otvarati naprednije mogućnosti kroz Google Cloud. Paralelno će biti važno pratiti koliko brzo će neovisni istraživači i open‑source zajednice potvrditi ili osporiti objavljene rezultate.

Zaključak

Gemini 3.1 Pro potvrđuje da je Google ponovno u samom vrhu AI utrke, osobito u složenim i agentnim zadacima. No industrija je prerasla fazu u kojoj pobjednika odlučuje slika s ljestvice benchmarkova. Pobjednici će biti oni koji tu sirovu snagu pretvore u stabilnu, cjenovno prihvatljivu i dobro reguliranu infrastrukturu. Za korisnike i regulatore u Hrvatskoj i regiji benchmark treba biti početna točka, ne konačna presuda. Pravo pitanje glasi: hoćemo li mi definirati pravila igre za nove AI agente – ili ćemo ih jednostavno prihvatiti kako nam dolaze iz Silicijske doline?

Gemini 3.1 ruši rekorde. No pravo pitanje je tko će upravljati tim agentima

Uvod

Vijest ukratko

Zašto je to važno

Šira slika

Europski i regionalni kontekst

Pogled unaprijed

Zaključak

Komentari

Ostavite komentar

Povezani članci

Kad je šef model: što Uberov „Dara AI“ govori o budućnosti menadžmenta

MatX protiv Nvidije: zašto je ulaganje od 500 milijuna dolara prije svega o kontroli računalne moći

Europska prednost u AI možda nije veličina, nego učinkovitost: zašto je Multiverseov stisnuti model važan

Ostani informiran