OpenAI, kompanija iza ChatGPT‑a, sve se više oslanja na stvarne uredske dokumente kako bi trenirala svoje modele – uključujući, čini se, i radove koji pripadaju bivšim poslodavcima.
Prema pisanju Wired‑a, OpenAI i tvrtka za podatke za treniranje Handshake AI od vanjskih izvođača traže da učitaju stvarne radne rezultate s prošlih i sadašnjih poslova. Ti materijali trebali bi pomoći u treniranju modela koji će bolje razumjeti i potencijalno automatizirati uredske, „white‑collar“ zadatke.
Što OpenAI traži od izvođača
U internoj prezentaciji, na koju se poziva Wired, OpenAI izvođačima poručuje da:
- opišu zadatke koje su obavljali na drugim poslovima te
- učitaju primjere „stvarnog, na poslu nastalog rada“ koji su „doista odradili“.
Nije riječ o sažecima, nego o originalnim datotekama, uključujući:
- Word dokumente,
- PDF‑ove,
- PowerPoint prezentacije,
- Excel tablice,
- slike,
- repozitorije s kodom.
Upravo takve datoteke često sadrže poslovne strategije, interne procedure i podatke o klijentima – stvari koje poslodavci na Balkanu i šire obično drže duboko iza firewalla.
„Superstar Scrubbing“ i prebacivanje rizika
OpenAI i Handshake AI, navodi Wired, ipak jasno instruiraju izvođače da prije učitavanja uklone vlasničke informacije i osobne podatke. U prezentaciji ih se upućuje na alat temeljen na ChatGPT‑u, nazvan „Superstar Scrubbing“, koji bi im trebao pomoći da iz dokumenata izbrišu osjetljive detalje prije nego što završe u skupovima podataka za treniranje.
Na razini procedura, to izgleda kao sigurnosna mreža. U praksi se, međutim, ključna odluka o tome što je povjerljivo prebacuje na:
- slabo plaćene izvođače s ograničenim uvidom u politike bivših poslodavaca,
- ljude pod vremenskim pritiskom da što prije završe zadatak,
- radnike koji imaju snažan motiv „ne talasati“ kako bi zadržali angažman.
„Dovodi se u veliki rizik“
Odvjetnik za intelektualno vlasništvo Evan Brown rekao je za Wired da se svaka AI tvrtka koja tako radi „dovodi u veliki rizik“.
Ovakav pristup, ističe Brown, traži „puno povjerenja u izvođače da odluče što jest, a što nije povjerljivo“. Ako izvođač previdi osjetljiv slajd iz prezentacije, klauzulu iz ugovora ili ime klijenta, u trening skupovima mogu završiti:
- poslovne tajne,
- autorski zaštićeni materijali korišteni izvan dogovorenih licenci,
- osobni podaci koji podliježu zakonima o zaštiti privatnosti.
OpenAI se već suočava s tužbama autora i izdavača zbog načina na koji su modeli trenirani. Uključivanje dodatnih dokumenata iz stvarnih radnih okruženja moglo bi dodatno pojačati pravne i reputacijske rizike – i za kompaniju i za bivše poslodavce izvođača.
Zašto su ti dokumenti toliko vrijedni
Širi kontekst koji opisuje Wired dobro se uklapa u globalni trend: veliki AI laboratoriji polako troše „besplatni“ javni tekst na internetu i zato love svježe, visokokvalitetne podatke koji izgledaju kao stvaran uredski rad.
To znači fokus na:
- pravim izvještajima umjesto sintetičkih primjera,
- stvarnim mail threadovima i projektnim planovima,
- produkcijskom kodu i dokumentaciji.
Cilj je stvoriti modele koji mogu:
- pratiti složene, višekoračne upute,
- raditi preko različitih formata (dokumenta, tablica, prezentacija, repozitorija),
- preuzeti sve veće komade uredskih workflowova.
Što su podaci realističniji, to su modeli korisniji – ali i dublje uronjeni u intelektualno vlasništvo stvarnih tvrtki.
Puno otvorenih pitanja, bez komentara OpenAI‑a
OpenAI je, kako navodi Wired, odbio komentirati ovaj program.
To ostavlja niz otvorenih pitanja za:
- bivše i sadašnje poslodavce izvođača u regiji i globalno,
- regulatore koji pišu pravila za treniranje AI modela,
- domaće tvrtke koje razmišljaju hoće li povjeriti svoje podatke cloud uslugama poput OpenAI‑a.
Ključne nedoumice uključuju:
- Kako (i da li uopće) OpenAI provjerava što točno izvođači učitavaju?
- Može li tvrtka ikako saznati da su njene prezentacije ili Excel tablice završile u trening skupu – i zatražiti uklanjanje?
- Tko snosi odgovornost ako izvođač učita očito povjerljive materijale?
Kako zalihe javno dostupnog teksta presušuju, AI industrija ulazi u sivu zonu radnih dokumenata – prezentacija, tablica i specifikacija koje nikad nisu bile namijenjene izlasku iz firme.
Prema izvještaju Wired‑a, OpenAI se u toj zoni oslanja na upute, alat „Superstar Scrubbing“ i veliko povjerenje u izvođače. Brownovo upozorenje da se kompanija tako „dovodi u veliki rizik“ sugerira da bi ta oklada mogla imati visoku cijenu.



