Los medios quieren que OpenAI resucite millones de chats “borrados” de ChatGPT

Las grandes cabeceras de EEUU acaban de ganar una batalla clave contra OpenAI. Y ahora apuntan al siguiente frente: los chats que, en teoría, estaban borrados para siempre.

En la demanda por derechos de autor liderada por The New York Times, un juez federal ha ordenado a OpenAI entregar 20 millones de registros de conversaciones de ChatGPT. Los medios no se conforman: piden sanciones por supuesta destrucción de pruebas y quieren saber si es posible recuperar millones de diálogos adicionales que los usuarios creían eliminados.

El juez respalda el acceso a 20 millones de logs

El lunes, el juez de distrito Sidney Stein rechazó las objeciones de OpenAI a una orden previa de la magistrada Ona Wang.

OpenAI sostuvo que Wang no había protegido lo suficiente la privacidad de usuarios que no forman parte del litigio al ordenar la producción de 20 millones de logs. La empresa proponía otra vía: ejecutar sus propias búsquedas sobre todos los registros, localizar las posibles infracciones y entregar solo esos resultados a los medios.

Stein no compró el argumento.

Respaldó que Wang ya había equilibrado los intereses de privacidad:

El universo inicial de datos se redujo de “decenas de miles de millones” de logs a 20 millones.
OpenAI eliminó los datos identificativos de las conversaciones antes de compartirlas.

Además, el juez coincidió con Wang en que los demandantes necesitan la muestra completa, y no solo los casos claros de copia. Como escribió la magistrada, incluso los “logs de salida que no contienen reproducciones de las obras de los demandantes pueden seguir siendo relevantes para la defensa de uso justo (fair use) de OpenAI”.

OpenAI también se quejaba de que Wang no explicara de forma explícita por qué rechazó la propuesta basada en palabras clave. Stein respondió que su razonamiento para exigir la entrega del conjunto íntegro, ya anonimizado, era suficiente y no era “claramente erróneo ni contrario a la ley”.

La compañía dijo a Ars Technica que sigue estudiando si le queda alguna vía para combatir la orden, pero el margen parece mínimo, después de haber prometido públicamente que haría todo lo posible por no exponer las conversaciones de usuarios normales.

En un blog actualizado por última vez a mediados de diciembre, OpenAI insiste en que los datos que se entregarán han “pasado por un proceso de desidentificación destinado a eliminar o enmascarar la PII y otra información privada”. Los medios podrán buscar en esos registros, pero no copiar ni imprimir nada que no sea directamente relevante para el caso.

Acusaciones de “borrados masivos” y petición de sanciones

La parte más tensa del caso ahora es otra: qué ha pasado con los logs que ya no existen.

Los grupos de medios –con The New York Times a la cabeza– creen que los registros mostrarán:

respuestas del chatbot que reproducen sus artículos sin licencia;
outputs que diluyen sus marcas registradas;
respuestas que eliminan la información de gestión de derechos (CMI) y ocultan el origen del contenido.

Y acusan a OpenAI y al co‑demandado Microsoft de jugar al desgaste.

Microsoft ha aceptado entregar 8,1 millones de logs de Copilot, pero sin comprometerse a una fecha. Los medios han pedido al juez que obligue a la empresa a producir esos datos “inmediatamente”, en un formato fácilmente buscable y accesible de forma remota: proponen como fecha límite el 9 de enero o un día después de que el tribunal resuelva su petición. Microsoft rechazó comentar el tema con Ars.

El dardo más afilado, sin embargo, va dirigido a OpenAI.

Según los escritos presentados ante el tribunal, los demandantes tardaron 11 meses en descubrir que “OpenAI estaba destruyendo datos relevantes de logs de salida” porque no suspendió sus prácticas rutinarias de borrado cuando empezó el litigio. Esa supresión habría afectado a una fracción “bastante sustancial” de los logs de ChatGPT Free, Pro y Plus.

Los documentos alegan que:

OpenAI eliminó aproximadamente un tercio de todas las conversaciones de usuarios en el mes posterior a la demanda del New York Times;
la única explicación de la empresa fue que el número de conversaciones de ChatGPT fue “inusualmente bajo (poco antes de Año Nuevo de 2024)”, algo que los medios tachan de “non sequitur irrelevante”;
se registraron “dos picos de borrado masivo” que OpenAI atribuyó a “problemas técnicos”.

Para los demandantes, esto forma parte de un “playbook” para esquivar reclamaciones de copyright: OpenAI no habría tomado “ninguna medida para suspender sus prácticas de destrucción rutinaria” pese a conocer la demanda.

Al mismo tiempo, acusan a la empresa de conservar de forma selectiva datos que le favorecen. Citando el testimonio de Mike Trinh, associate general counsel de OpenAI, los medios sostienen que la compañía se aseguró de guardar los datos de las cuentas mencionadas en las demandas, pero no hizo lo mismo con conversaciones de terceros que podrían demostrar extracciones sistemáticas de contenido periodístico.

“En otras palabras”, concluye uno de los escritos, “OpenAI preservó pruebas de que los propios demandantes obtenían sus obras de los productos de OpenAI, pero borró pruebas de que terceros hacían lo mismo”.

Nadie fuera de OpenAI sabe todavía cuántos datos se han perdido realmente. Los medios aseguran que la empresa se niega a proporcionar “la información más básica” sobre sus prácticas de borrado. En contraste, Microsoft aparentemente no habría tenido problemas para conservar los logs de Copilot.

¿Qué pasa si el juez ordena “resucitar” los chats borrados?

Los demandantes quieren ahora que el tribunal valore la imposición de sanciones y refuerce el control sobre el ciclo de vida de los datos.

Piden al juez que:

mantenga una orden de preservación que impide a OpenAI borrar definitivamente los chats temporales y los marcados como eliminados;
obligue a OpenAI a explicar “el alcance completo de los datos de logs de salida destruidos para todos sus productos en litigio”;
determine si esos chats borrados –incluidos los supuestos “borrados masivos”– pueden restaurarse para ser examinados como prueba.

Ese último punto es el que puede incomodar a muchos usuarios de ChatGPT.

Si el juez da luz verde, OpenAI podría verse forzada a intentar recuperar conversaciones que los usuarios daban por desaparecidas. En función de cómo implemente internamente el “borrado” –marcas lógicas, retrasos antes del purgado real, copias de seguridad–, podrían reaparecer cantidades significativas de datos.

Oficialmente, el caso trata de derechos de autor y de dónde acaba el uso legítimo (fair use). En la práctica, se está convirtiendo en un examen público de cómo manejan los gigantes de la IA los datos de sus usuarios cuando entran en juego demandas multimillonarias.

Para los lectores del mundo hispano, donde muchos ya usan ChatGPT y Copilot en su día a día laboral, la pregunta de fondo es clara: ¿qué significa realmente “borrar” una conversación cuando tus palabras viven en los servidores de una empresa de IA y un juez federal puede pedir verlas?

Los medios quieren que OpenAI resucite millones de chats “borrados” de ChatGPT

El juez respalda el acceso a 20 millones de logs

Acusaciones de “borrados masivos” y petición de sanciones

¿Qué pasa si el juez ordena “resucitar” los chats borrados?

Comentarios

Deja un comentario

Publicaciones relacionadas

CES 2026: IA física en todas partes, de Nvidia Rubin y AMD Ryzen AI 400 a los experimentos más raros de Razer

Google a los editores: no troceéis vuestros artículos para gustar a los LLM

Ozlo quiere que sus Sleepbuds sean mucho más que tapones: una plataforma de datos del sueño

Mantente informado