Ameriške medijske hiše so dosegle pomembno zmago proti OpenAI – in zdaj želijo še več.
Zvezno sodišče je odredilo, da mora OpenAI tožnikom v postopku, ki ga vodi The New York Times, izročiti 20 milijonov dnevniških zapisov pogovorov z ChatGPT. Mediji pa zdaj zahtevajo tudi preiskavo domnevnih »množičnih brisanj« in, če bo mogoče, obnovitev še milijonov pogovorov, za katere so uporabniki verjeli, da so trajno izbrisani.
Sodnik potrdi: 20 milijonov dnevnikov mora na mizo
Okrožni sodnik ZDA Sidney Stein je v ponedeljek zavrnil ugovore OpenAI in potrdil odločitev magistratke One Wang.
OpenAI je trdil, da Wangova ni dovolj zaščitila zasebnosti uporabnikov, ki niso stranke v postopku, ko je odredila predajo 20 milijonov dnevniških zapisov. Podjetje je predlagalo milejšo alternativo: samo bi zagnalo iskalne nize, poiskalo potencialno sporne odgovore in tožnikom predalo le zadetke.
Stein temu ni sledil.
Presodil je, da je Wangova zasebnost uporabnikov ustrezno tehtala:
- skupni obseg podatkov je bil znižan iz »desetih milijard« dnevnikov na 20 milijonov;
- OpenAI je iz vseh pogovorov odstranil osebne identifikacijske podatke.
Hkrati se je strinjal, da morajo imeti tožniki dostop do celotnega vzorca 20 milijonov dnevnikov – ne le do očitnih kršitev. Kot je zapisala Wangova, so lahko »dnevniški zapisi, ki ne vsebujejo reprodukcij del tožnikov, še vedno relevantni za obrambo OpenAI na podlagi poštene uporabe (fair use).«
OpenAI je še očital, da Wangova ni posebej pojasnila, zakaj je zavrnila njihov predlog s ključnimi besedami. Stein je zapisal, da njena obrazložitev – zakaj zahteva predajo celotnega, deidentificiranega vzorca – zadošča in ni »očitno napačna ali v nasprotju z zakonom«.
OpenAI po poročanju Ars Technice še proučuje, ali ima sploh še kakšno možnost pravnega ugovora, a videti je, da se poti hitro zapirajo – potem ko je podjetje javno obljubljalo, da bo storilo vse, da zaščiti zasebnost običajnih uporabnikov.
V blog objavi, nazadnje posodobljeni sredi decembra, OpenAI poudarja, da so vsi podatki, ki jih bo delil, »prešli proces deidentifikacije, namenjen odstranitvi ali zakritju OVO in drugih zasebnih informacij«. Tožniki bodo podatke lahko preiskovali, vendar ne bodo smeli kopirati ali tiskati ničesar, kar ni neposredno relevantno za spor, pravi podjetje.
Bitka za sankcije: domnevna »množična brisanja«
Obenem se za kulisami zaostruje spor glede ravnanja s podatki.
Medijske hiše – na čelu z The New York Times – trdijo, da bodo dnevniški zapisi razkrili več kot le klasične avtorske kršitve. Pričakujejo, da bodo našle:
- odgovore chatbotov, ki reproducirajo njihove članke brez licence;
- izpise, ki »razredčijo« njihove blagovne znamke;
- odgovore, ki odstranjujejo informacije o upravljanju avtorskih pravic (CMI) in tako zakrijejo vir vsebine.
Hkrati obtožujejo OpenAI in soobtoženega Microsofta zavlačevanja.
Microsoft se je sicer strinjal, da bo predal 8,1 milijona dnevniških zapisov Copilota, vendar brez jasnega roka. Tožniki zato sodišče prosijo, naj odredi takojšnjo predajo v »lahko preiskovalni, na daljavo dostopni obliki« – najpozneje do 9. januarja oziroma dan po odločitvi o njihovem predlogu. Microsoft za Ars ni želel komentirati.
Še bolj občutljive so obtožbe glede brisanja podatkov pri OpenAI.
Po navedbah v sodnih spisih so mediji šele po 11 mesecih izvedeli, da je »OpenAI uničeval relevantne podatke o izhodih« – ker po vložitvi tožbe ni ustavil rutinskega brisanja. Izbris je zajel »zelo znaten« delež dnevnikov za ChatGPT Free, Pro in Plus.
V spisih je zapisano:
- da je OpenAI v mesecu po vložitvi tožbe The New York Times izbrisal približno tretjino vseh zapisov uporabniških pogovorov;
- da je bilo edino pojasnilo podjetja to, da je bilo število pogovorov »nenavadno nizko (tik pred novim letom 2024)«, kar tožniki označujejo kot nerelevanten izgovor;
- da sta bila zabeležena »dva sunka množičnega brisanja«, ki ju je OpenAI pripisal »tehničnim težavam«.
Tožniki trdijo, da to kaže na »playbook« izogibanja odgovornosti: OpenAI domnevno ni storil ničesar, da bi ustavil rutinske prakse brisanja, čeprav je vedel za spor.
Obenem je po njihovih navedbah podjetje skrbno ohranilo nekatere zapise, ki mu koristijo. Na podlagi pričanja Michaela Trinha, pridruženega glavnega pravnika OpenAI, spisi trdijo, da je OpenAI posebej ohranil podatke računov, omenjenih v tožbah, ni pa podobno zavaroval drugih podatkov, ki bi lahko prikazali tretje osebe, kako iz modelov izvabljajo vsebino medijev.
»Z drugimi besedami,« piše v vlogi, »OpenAI je ohranil dokaze o tem, kako so tožniki sami iz svojih izdelkov izvabljali svoja dela, izbrisal pa dokaze o tega, kako so to počele tretje osebe.«
Koliko podatkov je bilo dejansko izbrisanih, ostaja neznanka. Mediji trdijo, da OpenAI noče razkriti niti »osnovnih informacij« o svojih praksah brisanja. Microsoft pa naj bi, po njihovih besedah, brez težav ohranil podatke Copilota.
Se lahko “izbrisani” pogovori vrnejo?
Tožniki zdaj želijo, da sodišče razmisli o sankcijah za OpenAI in še naprej strogo nadzira ravnanje s podatki uporabnikov.
Od sodišča zahtevajo, naj:
- ohrani odredbo, ki OpenAI prepoveduje trajno brisanje začasnih in »izbrisanih« pogovorov uporabnikov;
- naloži OpenAI, da pojasni »celoten obseg uničenih podatkov o izhodih za vse svoje produkte, zajete v sporu«;
- preveri, ali je mogoče te izbrisane podatke – vključno z domnevnimi »množičnimi brisanji« – obnoviti in jih uporabiti kot dokaze.
Prav ta zadnja točka je za uporabnike ChatGPT najbolj neudobna.
Če se bo sodišče postavilo na stran medijev, bo morda prisililo OpenAI, da poskusi obnoviti pogovore, za katere so mnogi verjeli, da so trajno izbrisani. Odvisno od tega, kako OpenAI tehnično izvaja »brisanje« – logične oznake, zakasnjene odstranitve, varnostne kopije – bi se lahko nenadoma pojavila ogromna količina podatkov.
Spor je uradno o avtorskih pravicah in pošteni uporabi. V praksi pa postaja stresni test za to, kako podjetja z umetno inteligenco ravnajo z vašimi podatki, ko v igro vstopijo milijardni zahtevki in sodne odredbe. Od izida bo odvisno ne le, kako so bila trenirana velika jezikovna orodja, temveč tudi, kaj v resnici pomeni gumb »izbriši«, ko so vaši pogovori shranjeni na strežnikih ponudnika umetne inteligence.



