Ko "učenje" postane kopiranje: kaj razkritja o spominu LLM pomenijo za AI

1. Naslov in uvod

Če lahko model umetne inteligence na zahtevo izpiše večino Harryja Potterja, je trditev, da »ne shranjuje podatkov«, težko še prepričljiva. Najnovejše raziskave o tem, kako veliki jezikovni modeli (LLM) pomnijo svoje učne podatke, ne spodkopavajo le PR-ja velikih AI podjetij, temveč ogrožajo pravno in ekonomsko podstat današnjega generativnega razcveta. V nadaljevanju analiziram, kaj raziskave dejansko kažejo, zakaj so posebej nevarne za trenutni poslovni model, kakšno vlogo ima pri tem Evropa – in kaj to pomeni za uporabnike ter podjetja v manjših trgih, kot je Slovenija.

2. Novica na kratko

Kot poroča Ars Technica na podlagi prispevka Financial Timesa, nove akademske študije s Stanforda in Yala kažejo, da lahko vodilni LLM-ji podjetij OpenAI, Google, Anthropic, Meta in xAI ob ustreznih pozivih izpišejo dolge, skoraj dobesedne odlomke iz avtorskimi pravicami zaščitenih knjig, ki so bile del učnih podatkov.

Raziskovalci so z natančno oblikovanimi pozivi, v katerih so modele prosili, da nadaljujejo stavke iz 13 priljubljenih romanov, med drugim Igre prestolov in Gospodarja prstanov, uspeli rekonstruirati tisoče besed iz izvirnih del. Pri enem izmed Googlovih modelov so tako dobili več kot tri četrtine Harryja Potterja in kamna modrosti z visoko natančnostjo, model podjetja xAI pa je ustvaril podoben delež. Pri modelu Claude podjetja Anthropic so raziskovalci z »jailbreakom« uspeli dobiti skoraj celoten roman.

Ti rezultati nadgrajujejo prejšnje ugotovitve pri odprtih modelih, kot je LLaMA družbe Meta, in postavljajo pod vprašaj večkrat ponovljene trditve industrije – na primer Googlov zapis ameriškemu uradu za avtorske pravice leta 2023 – da modeli ne vsebujejo kopij učnih podatkov. Raziskave se zdaj umeščajo ob bok nedavnim sodnim odločbam v ZDA in Nemčiji, ki memorirano avtorsko zaščiteno vsebino obravnavajo kot možno kršitev, ne zgolj kot »učenje«.

3. Zakaj je to pomembno

Ključni problem ni v tem, da lahko nekaj hekerjev iz modela izsili roman. Ključ je v tem, da se s potrjeno memoracijo ruši osrednji pravni ščit industrije generativne AI.

Velika AI podjetja so gradila na dveh tezah: prvič, da je učenje na avtorskih delih »poštena uporaba« (fair use), ker so izhodi transformativni; in drugič, da modeli ne shranjujejo niti reproducirajo konkretnih del. Nova dognanja neposredno spodbijajo drugi del te zgodbe. Če lahko model na ukaz ponovno ustvari velik del Harryja Potterja ali zaščiteno besedilo pesmi, je z vidika sodišč bliže neregistrirani digitalni knjižnici kot pa abstraktnemu statističnemu sistemu.

Posledice so hitre in otipljive:

Večja odgovornost za kršitve avtorskih pravic. Imetniki pravic – od založnikov do kolektivnih organizacij – dobivajo tehnično podprto argumentacijo, da modeli dela reproducirajo, ne le »učijo«. To krepi tožbe in pogajalsko izhodišče za licenciranje.
Višji stroški učenja modelov. Če bodo sodišča zahtevala »čiste« podatkovne nize ali obsežno filtriranje zaščitenih del, bo učenje vrhunskih modelov počasnejše in dražje. Obdobje nekontroliranega »scrapanja« spleta se lahko bliža koncu.
Tveganja za zasebnost in zaupnost. Če uhajajo romani, lahko uhajajo tudi zdravstveni kartoni, interni dokumenti podjetij ali študentske naloge, uporabljene za fino prilagajanje modelov. Memoracija postane problem skladnosti s GDPR, ne le avtorskega prava.

Kratkoročni zmagovalci so velike založniške hiše in kolektivne organizacije, ki dobijo močnejše adute. Izgubijo lahko tako velikani AI – zaradi višjih pravnih in podatkovnih stroškov – kot tudi odprtokodna skupnost, če bodo pravila nastala primarno po meri največjih igralcev.

4. Širša slika

To ni osamljen incident, temveč naslednji korak v jasnem trendu. Že od leta 2022 naprej raziskave kažejo, da LLM-ji lahko dobesedno ponavljajo dele učnih podatkov, še posebej redke odlomke ali občutljive informacije. Novi rezultati le dvignejo vložek: ne gre več zgolj za eksotične primere, temveč za obsežno memoracijo komercialno pomembnih del.

Razgalja se tudi temeljno protislovje trenutne prakse. Da bi dosegla vrhunske rezultate, podjetja modele hranijo z ogromnimi količinami nestrukturiranih podatkov s spleta, z minimalnim filtriranjem. To maksimizira jezikovno raznolikost – obenem pa v učne nize potegne piratske e-knjige, plačljive članke, baze besedil pesmi in osebne podatke. Ista strategija, ki dviguje sposobnosti modelov, ustvarja pravno-minsko polje.

Vzporedno potekajo poskusi omilitve težave: agresivno odstranjevanje podvojenih vsebin, učenje z okrepitvijo, ki kaznuje dobesedno ponavljanje, ter hibridni pristopi, kot je RAG (retrieval-augmented generation), kjer model znanje črpa iz zunanjih, licenciranih baz. A ti pristopi so še v razvoju in pogosto pomenijo kompromise pri natančnosti ali stroških.

Zgodovinsko smo podobne spore videli pri videorekorderjih, kasetah, spletnih iskalnikih in oblakih. Vedno znova je pravo po nekaj letih vojn prilagodilo definicijo dovoljene uporabe. Razlika danes je v dveh stvareh: obsegu in netransparentnosti. Pri modelih s stotinami milijard parametrov ne ve natančno nihče, katera dela so bila memorirana in kako pogosto lahko »uidejo« v izhodu.

Zato bo prihodnost AI manj odvisna od naslednje arhitekturne novosti in bolj od tega, kdo bo znal združiti močne modele z pravno vzdržnimi, dobro upravljanimi učnimi podatki.

5. Evropski in slovenski vidik

Za Evropo ta raziskava prihaja sredi intenzivnega reguliranja AI. Uredba o umetni inteligenci (AI Act) in direktiva DSM o avtorskih pravicah na enotnem digitalnem trgu že zdaj nakazujeta drugačno smer od ameriškega pristopa »najprej pobrskaj, potem se pogajaj«.

Ključna sta dva elementa:

Transparentnost učnih podatkov in opt-out. AI Act bo od ponudnikov velikih modelov zahteval dokumentiranje virov učnih podatkov in spoštovanje izključitev na podlagi avtorskih pravic. Če je mogoče dokazati, da model memorira celotna dela, imajo evropski regulatorji in kolektivne organizacije – od GEMA in VG Wort do slovenskih SAZAS in ZAMP – še več podlage za zahteve po licenciranju in tehničnem nadzoru.
Varstvo osebnih podatkov. V EU je toleranca do »kolateralne škode« pri podatkih bistveno manjša. Če model memorira romane, verjetno memorira tudi osebne podatke. To daje informacijskim pooblaščencem dodatno orožje pri nadzoru uporabe AI v zdravstvu, javni upravi ali izobraževanju.

Za slovenska podjetja in startupe – od ljubljanskih AI scaleupov do manjših ekip v Mariboru ali Kopru – je to hkrati ovira in priložnost. Ne morejo si privoščiti ignoriranja licenc, lahko pa se diferencirajo z modeli, naučenimi na urejenih, licenciranih slovenskih in evropskih korpusih, na primer v pravni, medicinski ali industrijski vertikali.

V manjših jezikovnih okoljih, kot sta slovenščina in hrvaščina, je tveganje še večje: ker je kakovostnih besedil manj, posamezna dela izstopajo in jih je lažje rekonstruirati. To bi morali upoštevati tako razvijalci kot regulatorji pri oceni tveganj.

6. Pogled naprej

Kam se bo stvar razvila?

Pravno bodo tehnične demonstracije memoracije postale ključen dokaz v sporih. Tožniki ne bodo več zgolj trdili, da so njihova dela bila uporabljena pri učenju, ampak bodo pokazali, da jih je mogoče eksplicitno »izvleči« iz modela. Sodišča v ZDA, Združenem kraljestvu in EU bodo morala odgovoriti na bolj konkretno vprašanje: kdaj statistično učenje preide v shranjevanje nedovoljene kopije?

Tehnično bodo velika podjetja prisiljena vlagati v:

Boljšo selekcijo učnih podatkov: odstranjevanje očitno nelicenčnih zbirk in spoštovanje izključitev založnikov.
Močnejše varovalke pri izhodu: sisteme, ki prepoznajo in blokirajo daljše dobesedne izpiske znanih del – ne le preprostih filtrov pozivov, ki jih je lahko obiti.
Alternativne arhitekture: premik »znanja« v zunanje, licencirane baze (RAG, vektorske baze), medtem ko je jedro modela osredotočeno na sklepanje in jezikovno spretnost.

Za slovenska podjetja, ki uvajajo generativno AI v bančništvo, zavarovalništvo, zdravstvo ali javni sektor, je varna predpostavka, da je memoracija resna in ne zanemarljiva. V pogodbah z dobavitelji AI bi morali zahtevati jasne garancije glede izvora učnih podatkov, evidence in možnosti omejevanja izhodov.

Odprtih je več vprašanj: Kolikšen delež učnih podatkov je v praksi res memoriran? Ali lahko zasnujemo modele, ki ohranijo zmogljivosti, a znatno omejijo dobesedno ponavljanje? In ali bodo sodišča drugače obravnavala odprtokodne in zaprte modele ali postavila enaka merila za vse?

Realno lahko v naslednjih 2–3 letih pričakujemo kombinacijo prelomnih sodb, velikih poravnav in razcveta licenčnih podatkovnih konzorcijev. Obdobje »misterioznih« učnih podatkov se bliža koncu.

7. Ključna misel

Nove študije o spominu LLM jasno kažejo: današnji modeli ne »učijo se zgolj vzorcev«, ampak včasih delujejo kot neregistrirani arhivi del, ki so jih požrli. To spodkopava osrednjo pravno naracijo industrije in pospešuje premik k licenciranim, transparentnim in nadzorljivim učnim podatkom. Pravo vprašanje ni več, ali lahko tako gradimo močne sisteme, temveč ali smo pripravljeni sprejeti pravne, etične in zasebnostne stroške takšnega pristopa. Kje bi vi kot uporabnik, založnik ali razvijalec potegnili črto?

Ko "učenje" postane kopiranje: kaj razkritja o spominu LLM pomenijo za AI

1. Naslov in uvod

2. Novica na kratko

3. Zakaj je to pomembno

4. Širša slika

5. Evropski in slovenski vidik

6. Pogled naprej

7. Ključna misel

Komentarji

Pustite komentar

Povezani članki

Ko šefa zamenja model: kaj pomeni Uberjev »Dara AI« za delo in vodstvo

MatX proti Nvidii: ko 500 milijonov dolarjev meri na računsko moč, ne le na hitrost

Evropska prednost v umetni inteligenci je lahko majhna, ne ogromna: pomen stisnjenega modela Multiverse

Ostani na tekočem