OpenAI želi, da njegovi modeli razumejo pravo pisarniško delo – tudi, če to pomeni, da podizvajalci naložijo dele svoje prejšnje službe v oblak.
Revija Wired poroča, da OpenAI skupaj s podjetjem za podatke za učenje, Handshake AI, od zunanjih izvajalcev zahteva nalaganje resničnih delovnih rezultatov iz preteklih in trenutnih zaposlitev. Ti dokumenti naj bi služili kot visoko kakovostni podatki za učenje sistemov, kot je ChatGPT, z jasnim ciljem: avtomatizacija več bele ovratniške rutine.
Kaj naj bi OpenAI zahteval
Po interni predstavitvi, ki jo povzema Wired, OpenAI podizvajalcem naroča, naj:
- opišejo naloge, ki so jih opravljali v drugih službah;
- naložijo primere »resničnega, na delovnem mestu nastalega dela«, ki so ga »dejansko opravili«.
Ne gre za povzetke, temveč za izvorne datoteke, vključno z:
- Word dokumenti,
- PDF‑ji,
- PowerPoint predstavitvami,
- Excel preglednicami,
- slikami,
- repozitoriji s kodo.
Prav takšne datoteke pogosto vsebujejo kombinacijo internih procesov, poslovnih strategij in podatkov o strankah.
»Superstar Scrubbing« in prelaganje odgovornosti
OpenAI in Handshake AI po poročanju Wired podizvajalcem sicer jasno povesta, naj ne nalagajo ničesar občutljivega. Navodila zahtevajo, da izvajalci pred nalaganjem izbrišejo poslovne skrivnosti in osebne podatke.
Kot pomoč OpenAI podizvajalce usmerja k orodju na osnovi ChatGPT, imenovanemu »Superstar Scrubbing«, ki naj bi iz datotek odstranilo zaupne informacije, preden te končajo v učnih nizih.
Na papirju to deluje kot zaščitna plast. V praksi pa pomeni, da:
- se presoja o tem, kaj je zaupno, prenaša na posamezne, pogosto slabo plačane izvajalce;
- imajo ti omejen vpogled v to, kaj njihovi nekdanji delodajalci štejejo za poslovno skrivnost;
- jih časovni in finančni pritiski spodbujajo k hitremu zaključevanju nalog.
»Postavlja se v zelo tvegan položaj«
Pravni strokovnjak za intelektualno lastnino Evan Brown je za Wired dejal, da se vsak laboratorij za umetno inteligenco, ki uporablja tak pristop, »postavlja v zelo tvegan položaj«.
Kot poudarja Brown, tak sistem zahteva »veliko zaupanja v podizvajalce, da presodijo, kaj je zaupno in kaj ne«. Če se izvajalec zmoti – ali spregleda kakšno zaupno preglednico, klavzulo v pogodbi ali ime stranke – lahko v učnih podatkih pristanejo:
- poslovne skrivnosti,
- avtorsko zaščiteni materiali, uporabljeni zunaj dogovorjenih licenc,
- osebni podatki, ki sprožijo zahteve zakonodaje o varstvu zasebnosti.
OpenAI se že sooča s tožbami avtorjev in založnikov zaradi uporabe njihovih vsebin pri učenju modelov. Dodaten tok občutljivih dokumentov iz resničnih delovnih okolij bi tveganje še povečal.
Zakaj so ta dela tako privlačna
Po poročanju Wired to ni osamljen primer – številna podjetja na področju umetne inteligence pospešeno najemajo podizvajalce za generiranje visokokakovostnih učnih podatkov, ki so čim bližje temu, kar v resnici počnejo pisarniški delavci.
Takšni podatki pomenijo:
- resnična poročila namesto umetno generiranih primerov,
- dejanske projektne načrte in dopisovanje,
- pravo kodo in tehnično dokumentacijo.
Za OpenAI to pomeni priložnost, da modeli:
- bolje sledijo kompleksnim, večkorakom navodilom,
- delujejo čez različne formate (dokumente, tabele, predstavitve, repozitorije),
- se približajo avtomatizaciji delov delovnih tokov v pisarnah.
Več resničnih podatkov običajno pomeni zmogljivejše modele – a tudi več stika z intelektualno lastnino podjetij.
Odprta vprašanja za delodajalce in regulatorje
OpenAI je na vprašanja Wired o programu zavrnil komentar.
To pušča odprta ključna vprašanja za:
- nekdanje in sedanje delodajalce podizvajalcev,
- regulatorje, ki pripravljajo pravila za učenje modelov umetne inteligence,
- podjetja, ki razmišljajo o uporabi OpenAI v občutljivih okoljih.
Med temi vprašanji so:
- Kako (in ali sploh) OpenAI preverja, kaj podizvajalci nalagajo?
- Ali lahko podjetja naknadno ugotovijo, da so njihovi dokumenti končali v učnih podatkih, in zahtevajo odstranitev?
- Kdo je pravno odgovoren, če izvajalec naloži jasno zaupne materiale?
Ker se količina javno dostopnega besedila zmanjšuje, se laboratoriji za umetno inteligenco očitno selijo globlje v sivo cono podatkov iz delovnih okolij – to so predstavitve, preglednice in specifikacije, ki prvotno nikoli niso bile namenjene odhodu iz podjetja.
Po poročanju Wired se OpenAI pri tem zanaša na navodila, orodje »Superstar Scrubbing« in zaupanje v podizvajalce. Brownovo opozorilo, da se pri tem »postavlja v zelo tvegan položaj«, pa kaže, da bi se ta stava lahko izkazala za zelo drago.



