Baldur’s Gate kao benchmark: što Muskov gaming test otkriva o xAI i Groku

UVOD

Priča zvuči kao šala s X‑a: Elon Musk navodno odgađa izlazak modela umjetne inteligencije jer mu ne daje dovoljno dobre savjete za Baldur’s Gate. Ipak, upravo to opisuju Business Insider, a sada i TechCrunch, koji dodatno pokazuje da je Grok u međuvremenu postao sasvim solidan RPG suigrač. Ispod humoristične površine krije se ozbiljno pitanje: tko zapravo postavlja mjerila kvalitete za velike modele i što znači kada se osobni hobi vlasnika pretvori u ključni test za sustav koji će koristiti milijuni.

VIJEST UKRATKO

Kako piše TechCrunch, pozivajući se na izvještavanje Business Insidera, Musk je prošle godine za nekoliko dana odgodio objavu novog modela xAI‑a. Razlog: chatbot nije zadovoljavajuće odgovarao na detaljna pitanja o igri Baldur’s Gate. Prema istim izvorima, visoko rangirani inženjeri nakratko su povučeni s drugih zadataka kako bi poboljšali upravo taj dio ponašanja modela.

TechCrunch je zatim pripremio mali usporedni test, duhovito nazvan „BaldurBench“: pet općih pitanja o Baldur’s Gate postavljeno je četirima velikim modelima – Groku, ChatGPT‑u, Claudu i Geminiju. Objavljeni transkripti pokazuju da Grok sada daje kvalitetne, vodičima slične savjete, puni gamerskog žargona i tablica s optimizacijom likova. ChatGPT i Gemini nude podjednako korisne odgovore u drukčijoj prezentaciji, dok je Claude posebno oprezan oko spojlera i potiče korisnika da ne brine pretjerano o „savršenu“ postavu. Zaključak TechCruncha: u zadatku na kojem je xAI svjesno radio, Grok je danas otprilike u rangu konkurencije.

ZAŠTO JE TO VAŽNO

Na prvu loptu radi se o ekscentričnom šefu koji koristi svoj utjecaj da lakše završi omiljenu igru. No kao uvid u unutarnju logiku jednog AI laboratorija, ova epizoda je zabrinjavajuće poučna.

Prvo, pokazuje koliko su interna mjerila i dalje proizvoljna. Umjesto da objavu modela određuju sustavna mjerenja sigurnosti, točnosti ili robusnosti, odluka se, prema navodima, odgađa zbog lošeg iskustva jednog moćnog korisnika. To je ekstreman oblik „dizajna usmjerenog na šefa“, gdje je ključni KPI zapravo „sviđa li se rezultat vlasniku“. Kod tehnologije koja će odgovarati na medicinska, financijska i politička pitanja, takav pristup bi nas trebao zabrinuti.

Drugo, anegdota jasno ocrtava pozicioniranje xAI‑a. OpenAI agresivno gura priču o produktivnosti i agentima; Anthropic se predstavlja kao siguran, enterprise‑orijentiran partner. xAI, naprotiv, gradi identitet pomalo neukroćenog, zabavnog asistenta za korisnike X‑a. Optimizacija za gamerske vodiče savršeno se uklapa u taj imidž: primarna publika su strastveni igrači i online zajednice, a ne nužno CFO‑ovi.

Kratkoročni dobitnici su „hardcore“ gamerima i fanovi Muska, koji dobivaju model uglađen prema njihovim interesima. Potencijalni gubitnici su inženjerski timovi, čiji se ograničeni resursi troše na sporednu, ali PR‑atraktivnu temu, te poslovni korisnici koji se s pravom pitaju hoće li pitanja pouzdanosti i usklađenosti ikada dobiti isti tretman kao teška borba u igri.

Treće, slučaj naglašava koliko je evaluacija modela izvana netransparentna. Znamo za Baldur’s Gate jer je priča dovoljno slikovita da procuri u medije. Ne znamo, međutim, postoje li jednako rigorozni „blokatori“ objave kada je riječ o opasnim savjetima u zdravstvu ili manipulaciji političkih tema.

ŠIRA SLIKA

Videoigre su oduvijek bile izlog za napredak umjetne inteligencije. DeepMindovi uspjesi u Gou i StarCraftu, OpenAI‑evi botovi za Dota 2 – svaki je služio kao dokaz moći određenih algoritama i pristupa.

Grok i Baldur’s Gate pripadaju novoj fazi. Veliki jezični modeli ne uče igrati kroz milijune odigranih partija; umjesto toga „probavljaju“ vodiče, forume i wiki‑stranice. Njihova prednost nije u pronalasku potpuno nove taktike, nego u tome koliko dobro sažmu i objasne znanje koje već postoji.

TechCrunchov BaldurBench zato lijepo ilustrira trenutni LLM pejzaž: svi veliki igrači treniraju na sličnom korpusu s interneta, a razlike sve više leže u prezentaciji i vrijednosnim zadanim postavkama. Grok zvuči kao forum veteran opsjednut optimizacijom; Gemini strukturira odgovor kao dokumentaciju; Claude se ponaša kao empatični „game master“ koji pazi na iskustvo igre. Stil, ton i razina zaštite korisnika postaju gotovo jednako važni kao suhe brojke na benchmark tablicama.

Istodobno, industrija pati od zamora klasičnim testovima. Ljestvice za kodiranje i razumijevanje teksta dosežu plafon; svaki novi postotak bodova manje znači u praksi. Laboratoriji zato sve više kreiraju vlastite skupove testova – interne „red team“ alate, pilot‑projekte s partnerima i, ponekad, osobne igre šefova. Problem je što ti interni testovi rijetko izlaze u javnost, ali itekako usmjeravaju razvoj modela koji će utjecati na milijune korisnika.

U odnosu na jasnu orijentaciju OpenAI‑a na produktivnost i na sigurnosni narativ Anthropica, xAI‑ev gaming fokus otvara pitanje: je li ovo simpatičan sporedni „quest“ ili znak da tvrtka prvenstveno izrađuje skupe igračke, dok drugi grade infrastrukturu?

EUROPSKI I REGIONALNI KONTEKST

Baldur’s Gate 3, igra koja je u središtu ove priče, djelo je Larian Studiosa iz Belgije – jedne od najuspješnijih gaming priča u EU. Europski kreativni sektor tako nenamjerno postaje poligon za kalibriranje američkih AI modela.

Za korisnike u Hrvatskoj i regiji, AI suigrači mogu biti vrlo korisni: od savjeta za buildove do objašnjenja kompleksnih mehanika i zadataka. Regionalni studiji i startupi – od Zagreba do Beograda i Ljubljane – mogli bi ovdje vidjeti priliku: službeni AI asistenti za svoje naslove, bolja dokumentacija na lokalnim jezicima, alati za moderaciju gaming zajednica.

S regulativne strane, priča izgleda drukčije. Uredba EU o umjetnoj inteligenciji, GDPR, pa i Digital Services Act usmjeravaju pažnju na rizike: dezinformacije, diskriminaciju, automatizirano profiliranje. Modeli opće namjene poput Groka, ako ozbiljnije uđu na tržište EU, morat će zadovoljiti niz zahtjeva oko transparentnosti, dokumentacije i upravljanja rizikom – bez obzira na to koliko su dobri u objašnjavanju side‑questa.

Za Hrvatsku, kao članicu EU, to znači da će svaki ozbiljniji dolazak Groka na naše tržište morati proći kroz filter europskih pravila. Istovremeno, daje prostor lokalnim rješenjima koja od početka dizajniraju sustave u skladu s EU propisima i lokalnim jezikom – nešto čime se primjerice bavi rastući broj AI startupa u Zagrebu i Ljubljani.

POGLED NAPRIJED

Što slijedi za xAI i Grok? Kratkoročno je vjerojatno da će xAI nastaviti graditi identitet „AI‑a za zabavu“, posebno za zajednice na X‑u. Ako Grok postane standardni suigrač za više velikih naslova – savjetnik za buildove, priču i strategiju – to je jasna niša, makar ograničena.

Prava provjera doći će kada xAI pokuša Grok pozicionirati izvan gaminga. Hoće li ista razina opsesije detaljima vrijediti kada se radi o medicinskim informacijama ili savjetima u vezi s investicijama? Hoće li tvrtka biti spremna odgoditi izlazak modela zato što, primjerice, u hrvatskom ili njemačkom kontekstu daje pravno opasne odgovore – jednako lako kao što je to učinila zbog Baldur’s Gate?

U idućih 12–24 mjeseca vrijedi pratiti tri stvari. Prvo, objavljuje li xAI ozbiljne tehničke evaluacije i rezultate neovisnih audita, osobito ako cilja na EU tržište. Drugo, kako će integracija u SpaceX utjecati na prioritete – hoće li Grok postati alat i za inženjere raketa ili ostaje primarno zabavni chatbot. Treće, kakva će biti jezična pokrivenost i kvaliteta na manjim jezicima poput hrvatskog ili slovenskog; to će odlučiti hoće li kod nas biti shvaćen kao igračka ili ozbiljan alat.

Rizik za xAI je da ostane percipiran kao „zabavna, ali nepouzdana“ opcija. Prilika je pokazati da se ista energija, koja se danas ulaže u optimiziranje lika u igri, može usmjeriti u robusnost i sigurnost u područjima gdje greške imaju stvarne posljedice.

ZAKLJUČAK

Epizoda s Baldur’s Gateom jest duhovita, ali i simptomatična: smjer razvoja velikih AI sustava i dalje se često određuje prema preferencijama uskog kruga ljudi na vrhu. To što je Grok na pažljivo odabranom gaming testu sustigao konkurenciju više govori o prioritetima xAI‑a nego o sveukupnoj kvaliteti modela. Ako ćemo te sustave koristiti u poslu, zdravstvu i politici, ključno je pitanje tko bi trebao birati ispite koje moraju položiti – i kako osigurati da taj ispit ne bude samo metaforički „save file“ jednog igrača.

Baldur’s Gate kao benchmark: što Muskov gaming test otkriva o xAI i Groku

Komentari

Ostavite komentar

Povezani članci

Kad je šef model: što Uberov „Dara AI“ govori o budućnosti menadžmenta

MatX protiv Nvidije: zašto je ulaganje od 500 milijuna dolara prije svega o kontroli računalne moći

Europska prednost u AI možda nije veličina, nego učinkovitost: zašto je Multiverseov stisnuti model važan

Ostani informiran