1. Naslov i uvod
Kada Microsoft izbriše službeni blog koji pokazuje kako trenirati AI model na piratskim knjigama o Harryju Potteru, lako je odmahnuti rukom: još jedan PR požar, ništa novo. No ovaj slučaj zapravo ogoljuje način na koji i dalje nastaje umjetna inteligencija u velikim korporacijama – i koliko se površno tretiraju autorska prava, čak i 2026. godine.
Ne govorimo o anonimnom GitHub repozitoriju, već o službenom Azure tutorijalu, kojeg je napisala viša produktna menadžerica s dugim stažem. Primjer je nestao, ali kultura koja ga je omogućila nije. U nastavku analiziramo što se dogodilo, zašto je važno za europske i hrvatske korisnike te što nam govori o budućnosti regulirane AI.
2. Vijest ukratko
Prema pisanju Ars Technice, Microsoft je uklonio službenu objavu na blogu koja je programerima korak‑po‑korak objašnjavala kako trenirati manje jezične modele na kompletnom tekstu knjiga o Harryju Potteru.
Objava, napisana u studenom 2024. od strane više produktne menadžerice, promovirala je nove mogućnosti Azure SQL baze i vektorskog pretraživanja. Kako bi primjer bio »zabavniji«, poveznica je vodila na skup podataka na Kaggleu s svih sedam romana, pogrešno označenih kao javno dobro. Tutorijal je prikazivao učitavanje tih tekstova u Azure Blob Storage, izgradnju Q&A sustava koji vraća konkretne odlomke te generiranje fanfikcije u Potterovom svemiru koja usput reklamira Microsoftove funkcije.
Skup podataka, koji je održavao neovisni data scientist, preuzet je više od 10.000 puta. Nakon rasprave na Hacker Newsu i upita Ars Technice, Microsoft je obrisao blog, a autor skupa ga je uklonio s Kagglea. Pravni stručnjaci koje navodi Ars upozoravaju da bi Microsoft mogao biti izložen pitanjima o mogućoj posrednoj odgovornosti za povredu autorskih prava.
3. Zašto je to važno
Površno gledano, priča je jednostavna: »Microsoft potiče korištenje piratskih e‑knjiga u AI tutorijalu.« No mnogo važnije je ono što slučaj govori o razvojnoj kulturi oko umjetne inteligencije.
Prvo, vidimo da je interna ljestvica za pravnu i etičku provjeru AI primjera i dalje preniska. Sadržaj za developere često se doživljava kao »bezazleni marketing«, ali u praksi postavlja standarde. Ako službeni tutorijal praktički kaže: »uzmite poznatu, zaštićenu franšizu s Kagglea i trenirajte model«, taj će se obrazac seliti u studentske projekte, startupe i komercijalne proizvode.
Drugo, otkriva zabrinjavajuće oslanjanje na etikete platforme. Svima je jasno da Harry Potter nije u javnom domenu. Pozivanje na krivu oznaku na Kaggleu više nije naivnost, nego kvar u sustavu: nitko nije postavio očito pitanje, nitko nije povukao ručnu.
Treće, incident je u raskoraku s Microsoftovom slikom o sebi kao »odgovornom« igraču na polju generativne AI. Isti taj Microsoft u EU i SAD‑u uvjerava korporativne klijente da će preuzeti dio rizika oko autorskih prava kod Copilota, a istodobno u službenom primjeru koristi upitan skup podataka s jednom od najzaštićenijih književnih franšiza.
Tko profitira od takve kulture? Kratkoročno, developeri, koji dobivaju zabavne primjere, i Microsoftov marketing. Gube autori, čija se djela tretiraju kao besplatan resurs; manji AI igrači koji skupo plaćaju licence; te korisnici koji mogu nesvjesno preuzeti pravni rizik ako takve primjere pretvore u komercijalne proizvode.
4. Šira slika
Ovaj slučaj nije iznimka, već dio šire priče. Od 2023. nadalje gledamo niz tužbi protiv OpenAI‑a, Mete, Stability AI‑a i drugih zbog navodnog treniranja na knjigama, novinskim tekstovima, slikama i kodu bez dozvole. Autori tvrde da modeli reproduciraju ili previše vjerno prerađuju njihova djela.
Kao odgovor, veliki igrači nastoje izgledati zrelije: kurirani skupovi podataka, filtri sadržaja, partnerstva s izdavačima, obećanja odštete za enterprise korisnike. Microsoft se predstavlja kao ozbiljan i »compliance first« partner.
Harry Potter tutorijal ruši upravo tu sliku. Pokazuje da se, ispod razine keynote prezentacija, u nekim timovima i dalje razmišlja logikom: »uzmi ono što je najefektnije za demo, a za ostalo ćemo se snaći«. Upravo ta logika stoji u pozadini današnjih pravnih i regulatornih problema.
Tu je i kreativna dimenzija: generativna AI kao remiks stroj poznate intelektualne svojine. Tekstovi nisu bili samo skriveno učilište; demo se eksplicitno hvalio time da može odgovarati na detaljna pitanja o knjigama i stvarati novu fanfikciju s istim likovima. To je siva zona između dopuštene transformativne uporabe i nedopuštenog izvedenog djela – granica koju sudovi tek crtaju.
Paralelno, osobito u Europi, niču modeli koji se svjesno odriču »divljih« podataka: treniraju se na licenciranim novinskim arhivima, stručnim zbirkama, internim dokumentima tvrtki gdje su prava jasna. Takvi modeli možda nisu toliko »magični«, ali su usklađeniji s pravnim okvirom koji se u EU upravo dovršava.
5. Europski i regionalni kut
Iz perspektive EU, uključujući Hrvatsku, ovaj slučaj dotiče nekoliko ključnih tema.
Prvo, autorsko pravo je ovdje temelj kulturne politike. Direktiva o autorskom pravu dopušta određene iznimke za rudarenje teksta i podataka, ali uz opciju da nositelji prava to izričito isključe. Te iznimke nisu zamišljene za javne tutorijale koji praktično upućuju: »uzemi piratske bestselere i napravi AI uslugu«.
Drugo, na snagu stupaju ili dolaze novi EU propisi: Akt o digitalnim uslugama (DSA) traži veću transparentnost i procjenu rizika od velikih platformi, a Akt o umjetnoj inteligenciji donijet će obvezu dokumentiranja podrijetla podataka i poštivanja prava intelektualnog vlasništva. Primjeri poput Microsoftovog bloga bit će idealan argument za one koji tvrde da samoregulacija velikih igrača nije dovoljna.
Za hrvatske tvrtke i timove koji grade rješenja na Azureu, AWS‑u ili Google Cloudu ključna je poruka: slijediti službeni tutorijal ne znači automatski biti usklađen s EU i hrvatskim propisima. Odgovornost pred regulatorom snosi i onaj tko rješenje implementira i nudi na tržištu.
Regija jugoistočne Europe dodatno ima specifičan izazov – mali jezici i manjak kvalitetnih javnih korpusa. Napast da se posegne za »sivim« izvorima (piratske knjižnice, nejasno označeni skupovi podataka) je realna. No upravo tu se krije prilika: modeli trenirani na zakonito pribavljenim hrvatskim, srpskim, slovenskim ili bosanskim tekstovima, uz suradnju s lokalnim izdavačima i medijima, mogli bi postati konkurentska prednost u EU.
6. Pogled unaprijed
Vjerojatno nećemo gledati spektakularan nastavak ove priče. Blog je obrisan, skup na Kaggleu također, i ako nositelji prava ne odluče napraviti primjer od ovog slučaja, incident će se utopiti u buci drugih AI‑kontroverzi.
Ali posljedice u pozadini bit će opipljive.
Unutar velikih kompanija dodatno će se pooštriti pravila: obvezni pravni pregled za sav sadržaj koji uključuje AI primjere, crne liste franšiza i likova za demoe, te korištenje isključivo unaprijed odobrenih skupova podataka. Developer evangelisti će se žaliti da to ubija kreativnost; pravnici će reći da je alternativa regulatorna kazna.
Za razvojne timove u Zagrebu, Splitu ili Sarajevu poruka je jasna: ako Microsoft može ovako pogriješiti, ne možete si priuštiti slijepo povjerenje u bilo koji „dataset s interneta“. Ako gradite ozbiljan proizvod, trebate strategiju podataka: vlastite izvore, jasno ugovorene licence ili stvarno javno dobro.
Regulatori u EU ovaj će slučaj vidjeti kao dodatnu potvrdu da je potrebno inzistirati na sljedivosti i dokumentaciji. Granica između internog eksperimentiranja i javno dostupne, komercijalne usluge bit će sve oštrija – i kazneno važnija.
Ključno pitanje je hoće li industrija ovo shvatiti kao beznačajnu epizodu ili kao simptom dubljeg problema – kulture »podaci pod svaku cijenu«. Od tog odgovora ovisit će hoćemo li za nekoliko godina govoriti o AI ekosustavu u kojem je poštivanje autorskih prava norma, ili o nizu ponavljajućih afera koje će usporavati prihvaćanje tehnologije.
7. Zaključak
Microsoftov Harry Potter tutorijal nije samo nespretan blog, nego ogledalo jedne navike: dio AI industrije još uvijek doživljava tuđe stvaralaštvo kao besplatno gorivo. Brisanje objave prikriva problem, ali ga ne rješava. Ako generativna AI postaje temelj digitalne infrastrukture, podrijetlo podataka mora postati jednako važno kao arhitektura modela. Za hrvatske i regionalne developere ostaje ključno pitanje: na čijim pravima zapravo stojite kada sljedeći put pustite AI funkciju u produkciju?



