Bericht: OpenAI lässt Auftragnehmer echte Arbeitsdokumente aus früheren Jobs hochladen

10. Januar 2026
5 Min. Lesezeit
OpenAI-Logo an einem modernen Bürogebäude

OpenAI sucht nach besseren Trainingsdaten – und greift dafür offenbar direkt auf die Schreibtische früherer Arbeitgeber zu.

Wie Wired berichtet, fordern OpenAI und das Trainingsdaten-Unternehmen Handshake AI externe Auftragnehmer auf, echte Arbeitsergebnisse aus früheren und aktuellen Jobs hochzuladen. Diese Materialien sollen die Modelle – etwa ChatGPT – so trainieren, dass sie typische Bürotätigkeiten besser verstehen und langfristig automatisieren können.

Was die Auftragnehmer liefern sollen

Einer internen Präsentation zufolge, die Wired vorliegt, werden die Auftragnehmer aufgefordert:

  • Aufgaben aus früheren Beschäftigungen zu beschreiben und
  • Beispiele „realer, am Arbeitsplatz entstandener Arbeit“, die sie „tatsächlich erledigt haben“, hochzuladen.

Explizit gewünscht sind keine Zusammenfassungen, sondern die originalen Dateien, darunter:

  • Word‑Dokumente
  • PDFs
  • PowerPoint‑Präsentationen
  • Excel‑Tabellen
  • Bilder
  • Code‑Repositories

Genau in diesen Formaten stecken üblicherweise interne Prozesse, Geschäftsstrategien oder Kundendaten – also Informationen, die Unternehmen in der Regel als vertraulich einstufen.

„Superstar Scrubbing“ – und viel Vertrauensvorschuss

Laut Wired weist OpenAI die Auftragnehmer an, proprietäre Informationen und personenbezogene Daten vor dem Upload zu löschen. Zur Unterstützung verweist das Unternehmen demnach auf ein ChatGPT‑basiertes Tool namens „Superstar Scrubbing“, das sensible Inhalte aus Dateien entfernen soll, bevor diese in Trainingsdatensätze einfließen.

Formal betrachtet existiert damit eine Compliance‑Schicht. Praktisch verlagert OpenAI jedoch zentrale Entscheidungen nach unten in die Lieferkette – zu einzelnen, häufig gering bezahlten Auftragnehmern, die

  • die Geheimhaltungsregeln früherer Arbeitgeber oft nur eingeschränkt kennen,
  • unter Zeitdruck stehen, um Aufgaben schnell abzuschließen,
  • einen starken Anreiz haben, die Anforderungen des Auftraggebers zu erfüllen.

„Setzt sich einem großen Risiko aus“

Der auf geistiges Eigentum spezialisierte Anwalt Evan Brown sagte zu Wired, jedes KI‑Labor, das auf diese Weise vorgeht, „setzt sich einem großen Risiko aus“.

Der Kern des Problems: Der Ansatz erfordert „eine Menge Vertrauen in seine Auftragnehmer, um zu entscheiden, was vertraulich ist und was nicht“. Sobald ein Auftragnehmer eine Folie, Vertragsklausel oder einen Kundennamen übersieht, könnten in den Trainingsdaten landen:

  • Geschäftsgeheimnisse,
  • urheberrechtlich geschützte Inhalte außerhalb zulässiger Lizenzen,
  • personenbezogene Daten, die Datenschutzgesetze berühren.

OpenAI sieht sich bereits heute mit Klagen von Autor:innen und Verlagen zur Nutzung ihrer Inhalte beim Training konfrontiert. Ein Strom zusätzlicher Dokumente aus realen Arbeitsumgebungen verschärft diese Gemengelage.

Warum diese Daten so wertvoll sind

Hintergrund der Strategie ist laut Wired ein branchenweiter Trend: Große KI‑Anbieter stoßen bei öffentlich verfügbaren Web‑Daten zunehmend an Grenzen und suchen nach hochqualitativen, aufgabenorientierten Datensätzen, die typische Wissensarbeit abbilden.

Besonders gefragt sind daher:

  • echte Berichte statt synthetischer Beispiele,
  • reale Projektpläne und E‑Mail‑Verläufe,
  • produktive Quelltexte und technische Dokumentationen.

Solche Daten sollen Modelle befähigen, besser:

  • komplexen, mehrstufigen Anweisungen zu folgen,
  • über verschiedene Formate hinweg (Dokumente, Tabellen, Präsentationen, Repos) zu arbeiten,
  • Teile von Büro‑Workflows eigenständig zu übernehmen.

Je realistischer die Trainingsdaten, desto leistungsfähiger in der Praxis – aber auch desto näher an der geschützten Informationssphäre von Unternehmen.

Offene Fragen für Unternehmen und Aufsichtsbehörden

OpenAI lehnte gegenüber Wired eine Stellungnahme zu dem Programm ab.

Damit bleiben zentrale Fragen unbeantwortet – sowohl für frühere Arbeitgeber der Auftragnehmer als auch für Regulierer und Unternehmenskunden:

  • Wie prüft OpenAI konkret, welche Dateien hochgeladen werden?
  • Haben betroffene Unternehmen eine Möglichkeit zu erfahren, ob ihre Dokumente in Trainingsdaten gelandet sind – und können sie Entfernung verlangen?
  • Wer trägt die Haftung, wenn klar vertrauliche Unterlagen im Trainingskorpus auftauchen?

Faktisch rücken KI‑Labs damit tiefer in eine Grauzone der Datennutzung vor: Es geht nicht mehr nur um öffentlich zugängliche Webseiten, sondern um Präsentationen, Tabellen und Spezifikationen, die nie für die Außenwelt bestimmt waren.

OpenAI verlässt sich nach Wireds Bericht dabei auf Richtlinien, ein „Superstar Scrubbing“-Tool – und viel Vertrauen in externe Auftragnehmer. Browns Warnung, das Unternehmen setze sich damit „einem großen Risiko“ aus, deutet darauf hin, dass diese Wette rechtlich wie reputationsseitig noch teuer werden könnte.

Kommentare

Hinterlasse einen Kommentar

Noch keine Kommentare. Sei der Erste!

Ähnliche Beiträge

Bleib informiert

Erhalte die neuesten KI- und Tech-Nachrichten direkt in dein Postfach.