1. Naslov i uvod
Ako model umjetne inteligencije može na zahtjev izbaciti veći dio Harryja Pottera gotovo riječ po riječ, teško je održavati tezu da „ne pohranjuje podatke u sebi“. Najnovija istraživanja o tome kako veliki jezični modeli (LLM) pamte svoje podatke za učenje ne ruše samo PR priču velikih AI igrača – dovode u pitanje pravnu i poslovnu logiku današnjeg generativnog vala. U nastavku analiziram što studije stvarno pokazuju, kako to mijenja odnos snaga između tehnoloških kompanija i nositelja prava, što to znači za EU i kakve su implikacije za Hrvatsku i regiju.
2. Vijest ukratko
Kako prenosi Ars Technica na temelju istrage Financial Timesa, nova istraživanja sa sveučilišta Stanford i Yale pokazuju da vodeći LLM-ovi tvrtki OpenAI, Google, Anthropic, Meta i xAI, uz pažljivo osmišljene upite, mogu generirati duge, gotovo doslovne odlomke knjiga zaštićenih autorskim pravima koje su se nalazile u njihovim skupovima podataka za treniranje.
Istraživači su modele tražili da dovrše rečenice iz 13 popularnih romana – među njima A Game of Thrones, The Hunger Games i The Hobbit – i tako rekonstruirali tisuće riječi iz izvornih tekstova. Jedan Googleov model uspio je s visokom preciznošću reproducirati više od tri četvrtine Harryja Pottera i kamena mudraca, dok je Grok tvrtke xAI postigao sličan udio. Kod modela Claude tvrtke Anthropic, nakon tzv. jailbreka, uspjeli su izvući gotovo cijeli roman.
Ovi rezultati nadovezuju se na ranija istraživanja otvorenih modela poput LLaMA-e (Meta) i proturječe višekratnim tvrdnjama industrije – primjerice Googleovu dopisu američkom uredu za autorska prava 2023. – da se u modelu ne nalaze kopije podataka za treniranje. Kontekst čine i nedavne presude u SAD-u i Njemačkoj; njemački sud je, primjerice, utvrdio da je OpenAI povrijedio autorska prava jer je model memorirao i reproducirao stihove pjesama, što se smatra presedanom u EU.
3. Zašto je ovo važno
Ključno nije to što nekolicina stručnjaka može, uz dosta truda, „iscijediti“ roman iz modela. Problem je što potvrđena memoracija ozbiljno potkopava središnji obrambeni argument industrije.
Velike AI tvrtke oslanjaju se na dvodijelnu priču: prvo, da je treniranje na zaštićenim djelima „dopuštena uporaba“ jer je izlaz transformiran; drugo, da modeli ne pohranjuju konkretna djela, već samo obrasce. Nova istraživanja ciljaju upravo na drugi dio. Ako model može rekonstruirati velik dio romana ili tekst pjesme gotovo doslovno, sudovima i regulatorima to sve više izgleda kao neregistrirana digitalna knjižnica, a ne apstraktni statistički sustav.
Posljedice su višeslojne:
- Veći rizik od odgovornosti za povredu autorskih prava. Nakladnici, glazbene kuće i kolektivne organizacije (HDS ZAMP, ZANA, SOKOJ, itd.) dobivaju snažan tehnički argument da se njihova djela ne samo „koriste“, nego i reproduciraju. To jača tužbe i pregovaračku poziciju.
- Rast troškova treniranja. Ako sudovi i regulatori počnu zahtijevati „čiste“ skupove podataka ili opsežno filtriranje zaštićenih djela, treniranje vrhunskih modela postat će sporije i skuplje. Era bezbrižnog struganja (scrapinga) interneta mogla bi završiti.
- Rizici za privatnost i povjerljivost. Ako izlaze romani, mogu izaći i medicinski kartoni, interni dokumenti kompanija ili studentski radovi koji su korišteni za fino podešavanje modela. U EU, gdje GDPR i druge uredbe stavljaju zaštitu podataka u prvi plan, to je ozbiljan problem usklađenosti.
Kratkoročni dobitnici su veliki nositelji prava i kolektivne organizacije. Gubitnici mogu biti i tehnološki divovi – zbog rasta pravnih i podatkovnih troškova – i dio open source zajednice, ako regulacija bude krojena primarno prema „teškašima“.
4. Šira slika
Ovo nije izolirani incident, već nova etapa u dobro vidljivom trendu. Od 2022. nadalje sigurnosni istraživači više puta su pokazali da LLM-ovi mogu doslovno ponavljati dijelove podataka za učenje, posebno rijetke ili osjetljive zapise. Novost je razmjer: sada govorimo o velikim segmentima komercijalnih knjiga, a ne samo o usputnim postovima s foruma.
Time se razotkriva ključna napetost u aktualnoj AI praksi. Da bi postigli vrhunske rezultate, laboratoriji su modele hranili golemim količinama nestrukturiranih tekstova s interneta, uz minimalno filtriranje. To donosi bogatstvo jezika, ali usput uvlači piratske e-knjige, članke iza paywalla, baze stihova i osobne podatke.
Tehničke protumjere postoje, ali su skupe i nesavršene:
- agresivno uklanjanje duplikata i filtri za očito nelicencirane izvore,
- učenje s povratnom vezom (RL) koje kažnjava doslovno ponavljanje,
- hibridni pristupi tipa RAG (retrieval-augmented generation), gdje se znanje povlači iz vanjskih, idealno licenciranih baza, a model se fokusira na zaključivanje i stil.
Sve to poskupljuje razvoj i smanjuje brzinu iteracije, no alternativa – ignorirati problem i oslanjati se na odvjetnike – sve je rizičnija, osobito izvan SAD-a.
Ako se prisjetimo Napstera, Google Booksa ili prvih sukoba oko YouTubea, obrazac je sličan: tehnološki šok, val tužbi, pa zatim konsolidacija kroz licence, naknade i jasnije zakonske iznimke. Razlika kod LLM-ova je što ni sami tvorci ne mogu točno reći koja su djela ostala „utisnuta“ u model.
U sljedećem ciklusu prednost neće imati nužno onaj s najvećim modelom, već onaj tko bude znao spojiti jake modele s transparentnim, pravno „čistim“ podatkovnim lancem.
5. Europski i regionalni kut
EU u ovu raspravu ulazi naoružana: Uredba o umjetnoj inteligenciji (AI Act), Direktiva o autorskom pravu na jedinstvenom digitalnom tržištu, GDPR i Digital Services Act tvore okvir koji je znatno stroži od američkog.
Dva su elementa posebno bitna za Hrvatsku i širu regiju:
Transparentnost podataka za treniranje i pravo na isključenje. AI Act će od pružatelja velikih modela tražiti da dokumentiraju izvore podataka i poštuju odluke nositelja prava koji ne žele biti uključeni. Ako je moguće pokazati da modeli memoriraju gotovo cijela djela, kolektivne organizacije poput HDS ZAMP-a imaju jače uporište za licencne zahtjeve i potencijalne revizije.
Zaštita osobnih podataka i tajni. U EU je tolerancija na „kolateralnu štetu“ s podacima vrlo niska. Ako model može zapamtiti knjigu, može zapamtiti i osobni medicinski nalaz ili interni dopis ministarstva. To će posebno brinuti javni sektor, banke i zdravstvene ustanove u Hrvatskoj.
Za hrvatske startupove i tvrtke koje razvijaju ili uvode AI – od timova u Zagrebu i Splitu do outsourcing centara u Osijeku i Rijeci – ovo je i prepreka i prilika. Ne mogu računati na agresivni scraping, ali mogu ponuditi rješenja temeljena na licenciranim hrvatskim i regionalnim korpusima (pravni, turistički, medicinski, industrijski tekstovi) i tako se diferencirati.
U manjim jezičnim okruženjima, poput hrvatskog, slovensko-govornog prostora ili šireg Zapadnog Balkana, rizik memoracije je dodatno naglašen: manje ukupnih tekstova znači da pojedina djela više „strše“ i lakše ih je rekonstruirati. To bi regulatorima trebalo biti jasno kad procjenjuju rizike modela za „male jezike“.
6. Što slijedi
Što možemo očekivati u narednim godinama?
Na pravnom planu, dokazi o memoraciji vjerojatno će postati središnji element novih tužbi. Tužitelji neće samo tvrditi da su njihova djela korištena za treniranje, već će demonstrirati kako se konkretni odlomci mogu izvući iz određenog modela. Sudovi u SAD-u, EU i Ujedinjenom Kraljevstvu morat će odgovoriti na vrlo specifično pitanje: gdje je granica između „učenja iz podataka“ i „pohrane nedopuštene kopije“?
Na tehničkoj strani, veliki laboratoriji morat će ulagati u:
- bolje upravljanje podacima: čišćenje piratskih izvora, licenciranje sadržaja, detaljno praćenje toga što ulazi u svaki trening;
- napredne zaštite na izlazu: alate koji prepoznaju duge doslovne odlomke poznatih djela i blokiraju ih ili preformuliraju;
- drugačije arhitekture: više oslanjanja na vanjske baze znanja (npr. vektorske baze, interne tražilice) i manje „sve u jednom velikom modelu“.
Za hrvatske banke, osiguravatelje, telekome, bolnice, fakultete i državnu upravu koje testiraju generativnu AI, razumna pretpostavka je da je memoracija stvarna i da može stvoriti pravne i reputacijske probleme. U ugovorima s dobavljačima AI rješenja trebalo bi tražiti informacije o podrijetlu podataka za treniranje, mogućnost ograničavanja izhoda te opciju rada s modelima koji se treniraju isključivo na internim, kontroliranim podacima.
Otvorena su pitanja: možemo li pouzdano izmjeriti koliko model zapravo pamti? Hoće li pokušaji smanjenja memoracije ozbiljno narušiti kvalitetu? Hoće li regulatori drukčije tretirati otvorene i zatvorene modele ili će svi biti jednako odgovorni?
Vrlo je vjerojatno da nas u sljedeće 2–3 godine čekaju veliki licencni ugovori, značajne sudske presude i profesionalizacija tržišta podataka za AI. Razdoblje „divljeg zapada“ masovnog scrapinga interneta polako završava.
7. Zaključak
Nova istraživanja jasno pokazuju: današnji LLM-ovi nisu samo pametne jezične mašine, nego povremeno i nenamjerne arhive djela kojima su hranjeni. Time se ruši ključna pravna teza industrije – da modeli ne sadrže kopije – i ubrzava prijelaz prema licenciranim, transparentnim i nadziranim podatkovnim lancima. Pravo pitanje više nije možemo li izgraditi moćne modele na temelju masovnog scrapinga, već koliko smo spremni riskirati na planu autorskih prava, etike i privatnosti. Kao korisnici, autori ili developeri – gdje bismo mi trebali povući crtu?



