Medien verlangen, dass OpenAI Millionen „gelöschter“ ChatGPT-Protokolle wiederherstellt

6. Januar 2026
5 Min. Lesezeit
Abstrakte Illustration von Datenprotokollen und Datenschutz bei einem KI‑Chatbot

US‑Medienhäuser erhöhen den Druck auf OpenAI – und stellen damit auch die Datenpraxis des KI‑Pioniers offen infrage.

In der von der New York Times angeführten Urheberrechtsklage hat ein Bundesrichter angeordnet, dass OpenAI 20 Millionen Protokolle von ChatGPT‑Unterhaltungen herausgeben muss. Nun gehen die Kläger weiter: Sie fordern mögliche Sanktionen und wollen klären lassen, ob zusätzlich Millionen bereits gelöschter Chats technisch wiederhergestellt werden können.

Gericht bestätigt Herausgabe von 20 Millionen Protokollen

Am Montag wies der US‑Bezirksrichter Sidney Stein die Einwände von OpenAI gegen eine frühere Anordnung der Magistratsrichterin Ona Wang zurück.

OpenAI hatte argumentiert, Wang habe die Privatsphäre von ChatGPT‑Nutzern, die nicht an dem Verfahren beteiligt sind, nicht ausreichend berücksichtigt, als sie die Herausgabe von 20 Millionen Protokollen anordnete. Das Unternehmen schlug vor, selbst Suchbegriffe über sämtliche Logs laufen zu lassen und den Medien nur potenziell relevante Treffer zu liefern.

Stein folgte dieser Argumentation nicht.

Er stellte fest, dass Wang die Interessen des Datenschutzes bereits berücksichtigt habe:

  • Der Gesamtumfang wurde von »Zehn Milliarden« Logs auf 20 Millionen reduziert.
  • OpenAI hat laut Gericht alle identifizierenden Informationen aus den Chats entfernt.

Außerdem schloss sich Stein Wangs Einschätzung an, dass die Kläger Zugriff auf die vollständige Stichprobe benötigen – nicht nur auf eindeutig rechtsverletzende Outputs. Wang hatte betont, dass selbst „Output‑Logs, die keine Reproduktionen der Werke der Medienkläger enthalten, dennoch relevant für OpenAIs Fair‑Use‑Verteidigung sein können“.

OpenAI monierte zusätzlich, Wang habe nicht ausdrücklich erklärt, warum sie den Vorschlag mit Suchbegriffen ablehnte. Stein bezeichnete dies als unerheblich: Ihre Begründung für die Anordnung zur Herausgabe der gesamten de‑identifizierten Stichprobe sei ausreichend und weder „offenkundig fehlerhaft noch rechtswidrig“.

Gegenüber Ars Technica ließ OpenAI mitteilen, man prüfe noch, ob es weitere rechtliche Schritte gegen die Anordnung gebe. Faktisch deutet jedoch vieles darauf hin, dass OpenAI eine zentrale Eskalationsstufe im Streit verloren hat – nachdem das Unternehmen zuvor öffentlich angekündigt hatte, alles zu tun, um Gespräche „normaler“ Nutzer zu schützen.

In einem Blogeintrag, zuletzt Mitte Dezember aktualisiert, betont OpenAI, alle zu übergebenden Daten hätten „einen De‑Identifizierungsprozess durchlaufen, der darauf abzielt, PII und andere private Informationen zu entfernen oder zu maskieren“. Die Medienkläger sollen die Daten zwar durchsuchen können, aber nichts kopieren oder ausdrucken dürfen, was nicht unmittelbar fallrelevant ist.

Vorwurf „massiver Löschwellen“ und mögliche Sanktionen

Parallel zur Log‑Anordnung spitzt sich der Streit um mögliche Beweisvernichtung zu.

Die Medienhäuser – mit der New York Times an der Spitze – erwarten, dass die Protokolle nicht nur unautorisierte Textreproduktionen zeigen, sondern auch:

  • Antworten, die ihre Markenrechte verwässern,
  • Outputs, in denen sogenannte Copyright Management Information (CMI) entfernt wurde – also Hinweise auf Quelle und Rechteinhaber.

Gleichzeitig werfen sie OpenAI und dem Mitbeklagten Microsoft Verzögerungstaktiken vor.

Microsoft hat sich bereit erklärt, 8,1 Millionen Protokolle seines Assistenten Copilot herauszugeben, schweigt jedoch zu einem konkreten Zeitpunkt. Die Kläger fordern das Gericht deshalb auf, Microsoft zur „sofortigen“ Bereitstellung in einem durchsuchbaren, remote zugänglichen Format zu verpflichten – bis spätestens 9. Januar oder binnen eines Tages nach der Gerichtsentscheidung über ihren Antrag. Microsoft lehnte eine Stellungnahme gegenüber Ars ab.

Der schwerwiegendste Vorwurf richtet sich allerdings gegen OpenAIs Umgang mit bestehenden Logs.

Nach Angaben der Kläger erfuhren sie erst nach elf Monaten, dass „OpenAI relevante Output‑Log‑Daten vernichtete“, weil das Unternehmen seine routinemäßigen Löschprozesse nach Klageeinreichung nicht aussetzte. Betroffen sei ein „ganz erheblicher“ Teil der Protokolle von ChatGPT Free, Pro und Plus.

In den Schriftsätzen heißt es unter anderem:

  • OpenAI habe im Monat nach Einreichung der Klage der New York Times ungefähr ein Drittel aller Gesprächsdaten gelöscht;
  • die einzige Erklärung des Unternehmens sei gewesen, dass die Anzahl der ChatGPT‑Konversationen „ungewöhnlich niedrig (kurz vor Neujahr 2024)“ gewesen sei – ein Argument, das die Kläger als „irrelevanten Non‑Sequitur“ bezeichnen;
  • es habe „zwei Spitzen massenhafter Löschung“ gegeben, die OpenAI mit „technischen Problemen“ erklärt habe.

Die Medien sprechen von einem „Playbook“, mit dem sich OpenAI Urheberrechtsansprüchen entziehen wolle: Das Unternehmen habe offenkundig „keine Maßnahmen ergriffen, um seine routinemäßigen Vernichtungspraktiken auszusetzen“, obwohl das Verfahren längst lief.

Gleichzeitig habe OpenAI Daten selektiv bewahrt, die der eigenen Verteidigung dienen könnten. Unter Berufung auf die Aussage von Mike Trinh, Associate General Counsel bei OpenAI, führen die Kläger an, das Unternehmen habe Daten von Konten, die in den Beschwerden namentlich erwähnt werden, gezielt gesichert – ohne vergleichbare Sorgfalt für andere Konversationen, die zeigen könnten, wie Dritte Medieninhalte aus den Modellen ziehen.

„Mit anderen Worten“, heißt es in der Klageschrift, „bewahrte OpenAI Beweise dafür auf, dass die Medienkläger ihre eigenen Werke aus den Produkten von OpenAI abgerufen haben, löschte jedoch Beweise dafür, dass Dritte dasselbe taten.“

Wie groß das betroffene Datenvolumen tatsächlich ist, ist unklar. Die Kläger werfen OpenAI vor, selbst „grundlegendste Informationen“ zu den Löschpraktiken zurückzuhalten. Microsoft hingegen habe offenbar „keine Mühe“ gehabt, Copilot‑Daten zu bewahren.

Kommen „gelöschte“ Chats wieder ans Licht?

Die Medienhäuser drängen das Gericht nun, Sanktionen gegen OpenAI zu prüfen und strikte Vorgaben für den weiteren Umgang mit Nutzerdaten zu machen.

Gefordert wird unter anderem, dass das Gericht:

  • eine bestehende Sicherungsanordnung aufrechterhält, die OpenAI daran hindert, temporäre und vermeintlich gelöschte Chats dauerhaft zu entfernen;
  • OpenAI verpflichtet, „den vollen Umfang zerstörter Output‑Log‑Daten für alle in dem Verfahren relevanten Produkte“ offenzulegen;
  • klären lässt, ob die gelöschten Logs – einschließlich der beschriebenen „Massenlöschungen“ – technisch wiederhergestellt werden können, damit sie ebenfalls als Beweismittel dienen.

Gerade diese letzte Forderung könnte viele ChatGPT‑Nutzer beunruhigen.

Sollte das Gericht dem folgen, könnte OpenAI gezwungen sein, nach Konversationen zu suchen, die Nutzer längst abgeschrieben hatten. Je nachdem, wie „Löschen“ im Backend umgesetzt ist – etwa nur als Logik‑Flag, mit Aufbewahrungsfristen oder über Backups – könnte plötzlich ein erhebliches Datenvolumen erneut verfügbar werden.

Formell geht es in dem Verfahren um Urheberrecht und die Grenzen der Fair Use‑Doktrin. Faktisch wird der Prozess aber zu einem Testfall dafür, wie KI‑Unternehmen mit sensiblen Nutzerdaten umgehen, wenn juristischer Druck und milliardenschwere Ansprüche auf dem Spiel stehen. Das Ergebnis dürfte nicht nur bestimmen, wie Trainingsdaten für große Sprachmodelle bewertet werden – sondern auch, wie verbindlich der „Löschen“-Button ist, wenn Ihre Unterhaltung auf den Servern eines KI‑Anbieters endet und ein US‑Bundesgericht Einsicht verlangt.

Kommentare

Hinterlasse einen Kommentar

Noch keine Kommentare. Sei der Erste!

Ähnliche Beiträge

Bleib informiert

Erhalte die neuesten KI- und Tech-Nachrichten direkt in dein Postfach.