Kad se AI spotakne o Nim: dječja igra koja razotkriva ozbiljne rupe u pameti stroja

Naslov i uvod

Isti AlphaZero‑pristup koji je ljude pomeo sa šahovskih i go ploča zapinje na jednostavnoj igri šibica koju možete objasniti djetetu u par minuta. To nije trivijalna anegdota, nego vrlo konkretno upozorenje na granice današnjih metoda učenja.

Nova studija, o kojoj piše Ars Technica, pokazuje da se sustavi koji uče isključivo samostalnim igranjem – po uzoru na AlphaZero – na jednostavnim nepristranim igrama poput Nima iznenađujuće brzo „zalede“. Nakon određene veličine ploče gotovo prestaju učiti.

U nastavku analiziram što se tu zapravo događa, zašto je važno i za europski i za regionalni kontekst (Hrvatska, Slovenija, Srbija, širi SEE), te što to znači za sve koji planiraju AI koristiti izvan svijeta igara.

Vijest ukratko

Prema pisanju Ars Technice, Bei Zhou i Søren Riis objavili su u časopisu Machine Learning rad u kojem ispituju kako se AlphaZero‑slično učenje ponaša na igri Nim.

U Nimu dva igrača naizmjenično uklanjaju šibice iz redova složenih u piramidu; u svom potezu igrač može uzeti jednu ili više šibica iz jednog reda. Onaj tko prvi ostane bez dozvoljenog poteza gubi. Matematički gledano, za svaku poziciju postoji jasna procedura (paritetna funkcija) koja govori ima li igrač na potezu forsiranu pobjedu.

Autori su izradili sustav koji, kao i AlphaZero za šah, poznaje samo pravila, igra milijune partija sam sa sobom i uči procjenjivati koji potezi vode prema pobjedi. Na ploči s pet redova sustav je brzo napredovao. Kad su dodali šesti i sedmi red, napredak se gotovo zaustavio: nakon opsežnog treniranja „pametni“ izbornik poteza nije bio ništa bolji od verzije koja poteze bira nasumično.

Zhou i Riis zaključuju da taj način treniranja ne uspijeva otkriti temeljno paritetno pravilo, što otkriva jasno definiran, ali ozbiljan način otkazivanja sustava.

Zašto je to važno

Na površini zvuči kao simpatičan trik: „Kako prevariti super AI dječjom igrom“. No poruka ide puno dublje – dira u vjeru da će dovoljno veliki modeli, uz dovoljno podataka i samostalnog igranja, spontano otkriti gotovo svaku strukturu u problemu.

Nim je mali, potpuno deterministički i matematički riješen. Ako se sustav koji uči samostalnim igranjem ipak zbuni, to nije zato što nema dovoljno primjera, nego zato što pobjednička strategija ovisi o globalnom svojstvu pozicije (nečemu nalik XOR/paritetu preko redova), a ne o lokalnim uzorcima koje je lako statistički povezati s ishodom.

Gubitnici ove priče su:

Zagovornici slogana „sve će riješiti skaliranje“. Ako informacija o pravom pravilu ne dopire do modela na koristan način, više podataka i parametara ne pomaže puno.
Projekti koji kopiraju AlphaZero pristup na matematiku, kod ili druge simboličke domene, a pritom podrazumijevaju da će se i tamo pojaviti isti „čarobni emergentni razumi“.

Dobitnici su:

Hibridni i simbolički pristupi. Istraživači neuro‑simboličke AI, programskih sintetizatora i formalnih metoda dobili su jednostavan, intuitivan primjer zašto su im alati potrebni uz duboko učenje.
Timovi za sigurnost i testiranje modela. Nim i slične igre mogu poslužiti kao vrlo jasni „stres testovi“ za skrivene slijepe točke.

Ključna kratkoročna poruka: AlphaZero‑slični sustavi nisu „opći rješavači igara“, već iznimno jaki prepoznavači uzoraka uz potporu pretraživanja. Čim zadatak više nalikuje izvođenju algoritma nego prepoznavanju slike, oni mogu potpuno podbaciti.

Šira slika

Ovaj rezultat dobro sjeda u kontekst onoga što već vidimo u drugim područjima AI‑ja.

Kod go programa poput KataGo, istraživači i entuzijasti su 2023./24. pronašli specijalno konstruirane pozicije na kojima i najjači enginei gube od relativno slabih ljudi. U „normalnoj“ igri i dalje su nadmoćni, ali u uskim nišama prostora stanja njihova heuristika se raspada.

Veliki jezični modeli slično se ponašaju u matematici i programiranju: sjajni su na standardnim benchmarkima, no kad zadaci traže hvatanje apstraktnih invaranti ili duge lance zaključivanja, bez pomoći vanjskih alata iznenađujuće brzo griješe.

Nim je najčišći mogući primjer tog problema. Nema buke, nema dvosmislenog jezika, nema ljudskih oznaka. Ili vaš postupak treniranja otkrije paritetnu strukturu, ili ne. Štoviše, pokazuje se da samostalno igranje i klasični reinforcement learning tu gotovo uopće ne pomažu.

Povijesno gledano, to nas vraća na staru raspravu simbolička AI naspram neuronskih mreža. Funkcije pariteta bile su već 80‑ih standardni primjer gdje „gole“ mreže bez posebnih struktura imaju problema. Val uspjeha dubokog učenja to je gurnuo u stranu, ali nije poništio.

Usporedba s radovima poput AlphaTensor ili AlphaDev, gdje se eksplicitno pretražuje prostor algoritama, također je poučna: tamo cilj nije samo „pozicija → ocjena“, nego pronalaženje boljih programa. Nim sugerira da, ako želimo algoritamsku generalizaciju, moramo ju ugraditi u arhitekturu i ciljeve; ona neće spontano nastati iz još više samostalnog igranja.

Europski i regionalni kut

U europskom kontekstu ovaj rad dolazi u pravom trenutku: EU upravo uvodi Akt o umjetnoj inteligenciji, a DSA, DMA i GDPR već postavljaju stroge okvire za digitalne usluge.

Akt o AI traži od pružatelja visokorizičnih sustava da dokažu robusnost i jasno opišu ograničenja modela. Nim‑u slične igre nude jednostavan, transparentan test: ako vaš „opći razumski modul“ ne uspijeva na maloj, ali matematički jasnoj igri, kako ćete dokazati pouzdanost u zdravstvenoj dijagnostici, prometnoj optimizaciji ili kreditnom scoringu?

Za hrvatske i regionalne tvrtke – od banaka i osiguravatelja do logistike i energetike – poruka je praktična: ako razmišljate o prijenosu gaming‑AI pristupa na poslovne odluke, morate računati da vaš problem sadrži nim‑slične podprostore. U kombinaciji s GDPR‑om i budućim zahtjevima Akta o AI, neobjašnjive sistematske greške mogu prerasti u regulatorni rizik.

Regija SEE pritom ima šansu: sve je više startupa u Zagrebu, Ljubljani, Beogradu i Sarajevu koji rade na razloživoj i pouzdanoj AI. Ovo je idealan „referentni slučaj“ kojim mogu obrazložiti zašto ulažu u formalne metode, verifikaciju i hibridne arhitekture umjesto u čiste „crne kutije“.

Na razini EU‑a otvara se prostor da upravo Europa definira standarde evaluacije: uz uobičajene benchmarke mogli bi postati obvezni i setovi matematički strukturiranih igara i zagonetki koji ciljano traže Nim‑tip slabosti.

Pogled unaprijed

Što je vjerojatno sljedeće?

Više algoritamskih benchmarka. Očekujte val radova s obiteljima igara i zadataka s eksplicitnim pravilima (impartial igre, kombinatorne zagonetke, logičke igre) koji služe kao „rendgen“ za sposobnosti različitih modela.
Jači naglasak na hibridne sustave. I veliki igrači i europski/SEE laboratoriji vjerojatno će aktivnije spajati neuronske mreže sa simboličkim modulima – od jednostavnih provjera pariteta do integriranih rješavača ograničenja.
Realističnija obećanja proizvođača. Tvrdnje o „jednom algoritmu za sve igre“ ili „općoj AI“ morat će preživjeti pitanje: kako se nosite s Nim‑sličnim strukturama – i s analognim situacijama u financijama, pravu ili zdravstvu?

U kratkom roku AlphaZero‑stil ostaje iznimno koristan za mnoge zadatke. No u horizontu od nekoliko godina, kako se budu gomilali primjeri ovakvih strukturnih promašaja u matematici, verifikaciji softvera ili dizajnu sustava, bit će sve jasnije da sam reinforcement learning bez jačih strukturiranih komponenti ima tvrdu granicu.

Otvorena su i važna istraživačka pitanja:

Možemo li pametnijim kurikulumima i reprezentacijama ipak prisiliti mreže da nauče paritetna i slična pravila, ili moramo ugraditi eksplicitne simboličke module?
Kako u stvarnim primjenama, gdje ne znamo točno „pravo pravilo“, uopće detektirati da je model ušao u nim‑sličnu slijepu zonu?

Za startupe i istraživače u Zagrebu, Ljubljani ili Splitu to je i prilika: alati za testiranje i otkrivanje takvih slijepih pjega te robusne hibridne arhitekture mogli bi postati naš izvozni proizvod.

Zaključak

Nim razotkriva strukturnu slabost jednog od najslavljenijih pristupa u suvremenoj AI: AlphaZero‑slični sustavi su fantastični u prepoznavanju uzoraka, ali mogu biti zapanjujuće nespretni kada pobjedu određuje jasno matematičko pravilo.

To bi trebalo ohladiti vjeru da će samostalno igranje i dodatni GPU‑i automatski dovesti do „opće inteligencije“ te ojačati interes za hibridne, provjerljive pristupe – područje u kojem Europa, a posredno i Hrvatska, može imati komparativnu prednost. Ključno pitanje za čitatelje glasi: gdje bi se u vašem domenskom problemu mogao skrivati vlastiti Nim – i imate li način da ga na vrijeme otkrijete?

Kad se AI spotakne o Nim: dječja igra koja razotkriva ozbiljne rupe u pameti stroja

Naslov i uvod

Vijest ukratko

Zašto je to važno

Šira slika

Europski i regionalni kut

Pogled unaprijed

Zaključak

Komentari

Ostavite komentar

Povezani članci

Picsartovi AI agenti: spas za preopterećene kreatore ili još jedna platforma kojoj smo taoci?

NemoClaw: kako Nvidia sigurnost pretvara u svoju najveću prednost u eri AI agenata

Vizualna memorija kao skriveni sloj moći za nosive uređaje i robotiku

Ostani informiran