OpenAI quiere que sus modelos entiendan el trabajo de oficina de verdad. Y, según Wired, eso incluye pedir a contratistas que suban trozos de sus antiguos empleos.
De acuerdo con documentos y testimonios obtenidos por la revista, OpenAI y la empresa de datos de entrenamiento Handshake AI están solicitando a terceros que carguen trabajos reales de puestos anteriores y actuales. La idea es usar ese material para entrenar sistemas como ChatGPT y acercarse un poco más a la automatización de tareas de cuello blanco.
Qué les está pidiendo OpenAI
Una presentación interna citada por Wired pide a los contratistas que:
- describan tareas que han realizado en otros trabajos, y
- suban ejemplos de «trabajo real, realizado en el puesto» que hayan «hecho realmente».
No se trata de resúmenes, sino de los archivos originales, como:
- documentos de Word,
- PDFs,
- presentaciones en PowerPoint,
- hojas de cálculo de Excel,
- imágenes,
- repositorios de código.
Ese es justo el tipo de material donde suelen vivir estrategias internas, procesos confidenciales y datos de clientes.
El filtro de «Superstar Scrubbing»
Según Wired, OpenAI y Handshake AI dan una instrucción clara: nada de información confidencial ni datos personales. Los contratistas deben eliminar contenido propietario y datos identificables antes de subir sus archivos.
Para ello, OpenAI les señala una herramienta basada en ChatGPT llamada «Superstar Scrubbing», pensada para borrar detalles sensibles de los documentos antes de que entren en los conjuntos de entrenamiento.
Sobre el papel suena a capa de cumplimiento normativo. En la práctica, significa que:
- la decisión sobre qué es confidencial recae en personas externas con poco contexto,
- esos trabajadores suelen cobrar poco y trabajan con presión de tiempo,
- cualquier error puede convertir un documento interno en combustible para la IA.
«Se está poniendo en un gran riesgo»
El abogado especializado en propiedad intelectual Evan Brown lo resumió así en declaraciones a Wired: cualquier laboratorio de IA que adopte este enfoque «se está poniendo en un gran riesgo».
El motivo es sencillo: el sistema depende de «mucha confianza en sus contratistas para decidir qué es y qué no es confidencial». Si un contratista no reconoce una diapositiva sensible, una cláusula contractual delicada o el nombre de un cliente, OpenAI podría acabar entrenando sus modelos con:
- secretos comerciales,
- contenido protegido por derechos de autor usado fuera de licencia,
- datos personales cubiertos por leyes de privacidad.
Para una empresa que ya afronta demandas de autores y editoriales por el uso de obras en el entrenamiento de modelos, añadir documentos de trabajo reales solo aumenta la exposición.
Por qué estos datos son el nuevo oro
El contexto que describe Wired encaja con una tendencia clara: los grandes laboratorios de IA están empezando a chocar con los límites de los datos públicos en la web y buscan datos de alta calidad, centrados en tareas reales.
Eso significa que priorizan:
- informes auténticos frente a ejemplos sintéticos,
- hilos de correo y planes de proyecto reales,
- código y documentación que se usa en producción.
Con eso esperan modelos que puedan:
- seguir instrucciones largas y complejas,
- moverse con soltura entre documentos, hojas de cálculo, presentaciones y repositorios,
- asumir fragmentos cada vez mayores de los flujos de trabajo de oficina.
El problema es que cuanto más se parecen los datos de entrenamiento al día a día de una empresa, más se acercan también a su propiedad intelectual.
Muchas preguntas y ningún comentario
OpenAI declinó hacer comentarios cuando Wired preguntó por este programa.
La falta de respuesta deja en el aire varias preguntas incómodas para:
- antiguos y actuales empleadores de esos contratistas,
- reguladores que preparan normas sobre datos para IA,
- empresas que evalúan el riesgo de integrar OpenAI en procesos críticos.
Entre ellas:
- ¿Cómo comprueba OpenAI qué están subiendo exactamente los contratistas?
- ¿Puede una empresa saber si sus documentos han terminado en un corpus de entrenamiento y pedir que se retiren?
- ¿Quién asume la responsabilidad si un contratista sube materiales claramente confidenciales?
A medida que se agotan las fuentes fáciles de texto público, la industria se adentra en una zona gris: las presentaciones, excels y especificaciones que nunca estaban pensadas para salir de la intranet.
Según el reportaje de Wired, OpenAI confía en unas pautas, una herramienta llamada «Superstar Scrubbing» y mucha fe en sus contratistas para no cruzar la línea. El aviso de Brown, de que la empresa «se está poniendo en un gran riesgo», sugiere que esa apuesta podría salir cara.



