Naslov in uvod
Ista AlphaZero‑metodologija, ki je povozila ljudi v šahu in goju, odpove pri otroški igri z vžigalicami. To ni zabavna anekdota, ampak zelo resen opozorilni znak za način, kako danes treniramo umetno inteligenco.
Nova študija, o kateri poroča Ars Technica, trdi, da se sistemi v slogu AlphaZero, ki se učijo izključno z igranjem samih s sabo, na preprostih nepristranskih igrah, kot je Nim, preprosto »zalomijo«. Ne igrajo le slabo – dejansko skoraj prenehajo napredovati.
V nadaljevanju analiziram, kaj se v resnici dogaja, zakaj to presega svet iger in kaj bi to moralo pomeniti za evropske – in slovenske – razvijalce, regulatorje ter vlagatelje v AI.
Novica na kratko
Po poročanju Ars Technice sta raziskovalca Bei Zhou in Søren Riis v reviji Machine Learning objavila delo, v katerem sta preverila, kako se treniranje v slogu AlphaZero obnese na igri Nim.
V Nimu igralci izmenično odstranjujejo vžigalice iz vrst, razporejenih v piramido; tisti, ki prvi ostane brez dovoljenih potez, izgubi. Za vsako pozicijo obstaja znana matematična procedura (paritetna funkcija), ki pove, ali ima igralec na potezi zmagovalno strategijo.
Avtorja sta zgradila sistem, ki pozna le pravila igre in se uči z milijoni partij sam s sabo, podobno kot AlphaZero: mreža se uči napovedovati, katere poteze vodijo do zmage. Pri manjših ploščah (pet vrst) se je kakovost hitro izboljševala. Ko sta dodala šesto in sedmo vrsto, se je učenje praktično ustavilo – po obsežnem treniranju se je »pametni« izbiralnik potez obnašal podobno kot različica, ki poteze izbira naključno.
Zhou in Riis sklepata, da takšno učenje zelo slabo odkriva podlago v obliki paritetnega pravila, kar razkrije specifičen in izrazit način odpovedi.
Zakaj je to pomembno
Na prvi pogled zveni, kot da je nekdo našel zabaven trik, kako premagati »nepremagljiv« AI. V resnici pa rezultat zareže v srčiko današnjega optimizma: v prepričanje, da bodo dovolj veliki modeli z dovolj podatki in samostojnim igranjem prej ali slej odkrili skoraj vsako strukturo v problemu.
Študija v bistvu sporoča: ne nujno. Nim je preprost, popolnoma pregleden in matematično rešen. Pa vendar se sistem v slogu AlphaZero že pri nekoliko večji plošči zmede, ker zmagovalna strategija temelji na globalni matematični zvezi (pariteti), ne na lokalnih vzorcih na plošči.
To je slaba novica za:
- Pristop »povečajmo model in bo delovalo« – če učni signal ne razkrije prave strukture, dodatne partije in večji modeli ne pomagajo veliko.
- Uporabo tovrstnih modelov v matematičnih in simbolnih domenah. Velik del navdušenja nad »AI za matematiko, kodo ali varnostno kritične odločitve« zelo na hitro predpostavi, da bo ista metoda delovala tudi tam.
Kdo pridobi?
- Hibridni in simbolni pristopi. Raziskovalci nevronsko‑simbolne AI, programskih sintetizatorjev in formalnih metod so dobili zelo čisto, intuitivno razumljivo demonstracijo, zakaj njihovi pristopi niso akademska eksotika.
- Ekipe za preverjanje zanesljivosti in varnosti AI. Dobili so družino testnih iger, kjer lahko vrhunski igralni AI deluje kompetentno, a je sistematično slep.
Neposredna posledica: sistemi v slogu AlphaZero niso »splošni reševalci iger«, ampak zmogljivi prepoznavalci vzorcev, okrepljeni z iskanjem po drevesu. Kadar je prava rešitev podobnejša izvajanju algoritma kot prepoznavanju oblike, lahko samozavestno zgrešijo.
Širša slika
Rezultat lepo dopolnjuje več trendov, ki jih v AI vidimo zadnja leta.
Najprej smo že pri go programih opazili krhkost. Leta 2023/24 so raziskovalci in navdušenci pokazali, da je mogoče vrhunske pogone, kot je KataGo, popolnoma razbiti s posebej skonstruiranimi položaji, čeprav so v normalni igri bistveno močnejši od ljudi. Sistem se je očitno naučil ogromno vzorcev, ne pa tudi vse kombinatorične strukture igre.
Podobno se dogaja z velikimi jezikovnimi modeli. Na številnih matematičnih testih dosegajo visoke rezultate – a pogosto z memoriziranjem vzorcev nalog. Ko nalogo le malo podaljšamo ali zahteva abstraktnejše razumevanje (invariante, paritetni argumenti), se uspešnost hitro zmanjša, razen če modelu dodamo orodja, kot so izvajanje kode ali zunanji simbolni reševalniki.
Nim je najbolj destilirana verzija tega problema. Ni šuma, ni dvoumnega jezika, ni človeških napak pri označevanju. Ali učni postopek odkrije pravilo, ali pa ga ne. Zhou in Riis pokažeta, da samostojno igranje in gradientni spust tega pravila praktično ne odkrijeta.
Zgodovinsko gledano to obuja staro razpravo med simbolnim pristopom in nevronskimi mrežami. Zadnje desetletje je tehtnica močno nagnjena v prid globokemu učenju. Toda že klasični teoretični primeri, kot so paritetne funkcije, kažejo, da imajo nevronske mreže brez ustreznih pristranskosti težave z določenimi tipi pravil.
Če to primerjamo z novejšimi projekti, kot sta AlphaTensor ali AlphaDev, kjer DeepMind išče konkretne algoritme oziroma programe, vidimo drugačen pristop: tam ne učijo le »plošča → ocena«, ampak eksplozivno raziskujejo prostor možnih algoritmov. Nim je opomnik, da moramo algoritmičnost vgraditi v arhitekturo in cilje – ne bo se »kar pojavila« iz samostojnega igranja.
Evropski in slovenski kot
V evropskem kontekstu to ni le zanimiv matematični rezultat – neposredno se dotika regulacije in industrijske strategije.
Akt o umetni inteligenci EU zahteva od ponudnikov visoko tveganih sistemov, da dokažejo robustnost in jasno opišejo omejitve. Nim‑u podobne igre so odličen, pregleden stresni test: ali vaš »splošni razumski modul« obvlada preprost problem, ki zahteva natančno matematično invaranto? Če ne, kaj to pomeni za uporabo v medicinski diagnostiki, logističnem planiranju ali kreditnem ocenjevanju?
Evropski raziskovalni prostor je močan prav tam, kjer ta študija kaže priložnost: formalne metode (npr. ETH Zürich, Inria), logika, kombinacija simbolnega in nevronskega. Univerze in laboratoriji v Ljubljani, Mariboru in širši regiji že delajo na razložljivih in preverljivih modelih – Nim jim ponuja zelo konkreten argument za dodatno financiranje ali partnerstva z industrijo.
Za slovenska podjetja v financah, energetiki, logistiki ali zdravstvu je sporočilo jasno: če vpeljujete črne skrinjice, ker so »zmagale v igrah«, morate računati na skrite nim‑podobne cone v svojem problemu. V kombinaciji z GDPR in bodočimi zahtevami Akta o AI lahko takšne nepojasnjene napake pomenijo tudi pravno tveganje.
Evropa ima tukaj realno priložnost za vodilno vlogo pri standardih preverjanja. Namesto da verjamemo izključno proizvajalčevim demom, bi lahko javni naročniki in regulatorji predpisali baterije nim‑u podobnih preizkusov za vse sisteme, ki trdijo, da obvladajo splošno razmišljanje ali odločanje.
Pogled naprej
Kaj lahko pričakujemo v naslednjih letih?
- Več algoritmičnih testov. Verjetno bomo videli nove družine iger in ugank z znano matematično strukturo, ki bodo sistematično preverjale, kje se različni modeli lomijo.
- Hibridne arhitekture. Raziskovalni oddelki v ZDA, Aziji in Evropi bodo poskušali vanjevnike mreže vgraditi majhne simbolne module – od preprostih paritetnih preizkusov do bolj splošnih logičnih komponent.
- Trezen pogled na trditve o »splošnem igralcu iger«. Marketing o enem algoritmu, ki »osvoji vsako igro«, bo vse težje vzdrževati. Ključno vprašanje bo: katere razrede iger (in analogno realnih nalog) vaš pristop dejansko pokriva?
To ne pomeni, da bo AlphaZero‑pristop jutri izginil – predobro deluje na številnih področjih. Pomeni pa, da bo v obdobju 2–5 let rastoče število takšnih »Nim trenutkov« v matematiki, kodiranju in načrtovanju prisililo industrijo k večji ponižnosti.
Odprta ostajajo vsaj dve vprašanji:
- Ali lahko z bolj pametnimi učnimi kurikulumi in reprezentacijami prisilimo mreže, da ponotranjijo paritetna pravila, ali potrebujemo eksplicitno simbolno komponento?
- Kako v realnih sistemih, kjer ne poznamo pravega pravila, sploh zaznamo, da smo v nim‑podobni slepi pegi?
Za slovenske razvijalce je to tudi poslovna priložnost: orodja, ki odkrivajo takšne slepe pege, in hibridne arhitekture, ki jih odpravljajo, bodo iskana roba.
Bistvo
Nim razkrije strukturno slabost enega najbolj opevanih pristopov v AI. Sistemi v slogu AlphaZero so vrhunski prepoznavalci vzorcev, a lahko popolnoma odpovejo, ko optimalna poteza zahteva natančno simbolno pravilo.
To bi moralo ohladiti vero v »samostojno igranje + več računa = splošna inteligenca« in okrepiti zanimanje za hibridne, preverljive pristope – področje, kjer ima Evropa realno prednost. Ključno vprašanje za bralce: kje v vašem domenskem problemu bi se lahko skrival lasten Nim in kako bi ga pravočasno odkrili?



