Meta, BitTorrent y la batalla por los datos de IA: cuando el viejo pirateo choca con la nueva IA

En plena fiebre por la IA generativa, el debate público suele girar en torno a modelos y funcionalidades. Pero el verdadero frente de guerra está más abajo, en las tuberías de datos. Meta acaba de descubrirlo: su supuesto uso de BitTorrent para recopilar datos de entrenamiento la ha colocado en el centro de demandas por derechos de autor en EEUU. Y ahora intenta protegerse apoyándose en una reciente decisión del Tribunal Supremo sobre piratería.

Para autores, medios y empresas tecnológicas de habla hispana –en Europa y en Latinoamérica– este caso dice mucho sobre cómo se va a disputar el poder económico de la IA en los próximos años.

La noticia en resumen

Según detalla Ars Technica en un reportaje de Ashley Belanger, Meta se enfrenta en EEUU a dos demandas clave relacionadas con el uso de BitTorrent para nutrir sus modelos de IA:

Entrepreneur Media vs. Meta – una demanda por responsabilidad contributiva en materia de copyright. La acusación sostiene que Meta habría "sembrado" unos 80 TB de obras pirateadas mediante BitTorrent al compilar sus datos de entrenamiento.
Kadrey vs. Meta – una demanda colectiva de autores de libros, inicialmente centrada en una acusación de infracción directa por distribución no autorizada a través de ese mismo sistema de torrents.

La teoría de infracción directa era difícil de probar, porque exigiría demostrar que Meta llegó a poner en circulación copias completas de cada obra. En cambio, como recuerda Ars Technica, la demanda de Entrepreneur Media se basa en la contributory infringement: basta acreditar que Meta facilitó transferencias infractoras a través de BitTorrent.

El juez federal Vince Chhabria ha permitido ahora que los autores incorporen ese argumento de responsabilidad contributiva a su demanda colectiva, pese a reprochar con dureza a sus abogados el retraso y el tono excesivamente agresivo contra Meta. La compañía, por su parte, ha notificado al tribunal que invocará un reciente fallo del Tribunal Supremo en el caso del ISP Cox, que estrecha los supuestos en los que una empresa puede ser responsable de la piratería de terceros.

Por qué importa

Detrás de este caso hay dos preguntas incómodas para toda la industria:

¿Hasta dónde puede externalizar una empresa de IA el riesgo jurídico de sus datos de entrenamiento?
¿Vamos a tratar la recolección de datos para entrenar modelos como una simple copia técnica, o como un uso que exige reglas propias?

La nueva reclamación por responsabilidad contributiva es peligrosa para Meta porque apunta a un comportamiento que se parece poco al de un proveedor de acceso pasivo. La empresa no se limitó a "prestar red": según la demanda, habría participado activamente en un sistema de intercambio de archivos históricamente asociado a la piratería, introduciendo terabytes de obras con copyright en la red para acelerar sus propias descargas.

Si algún día un jurado escucha la historia en lenguaje llano –"Meta se conectó a un enjambre BitTorrent, subió un océano de libros y artículos no licenciados y usó a los demás usuarios para bajar más rápido"– la comparación con un ISP neutro se vuelve difícil de sostener.

Meta intenta apoyarse en el fallo del Supremo en el caso Cox. Tal y como resume Ars Technica, ahí el Tribunal dejó claro que el mero hecho de ofrecer un servicio que algunos usuarios emplean para infringir derechos no basta para responsabilizar por infracción contributiva; en general hace falta probar una inducción afirmativa o un conocimiento muy concreto de actos infractores.

Si los jueces compran la analogía, las grandes tecnológicas salen reforzadas: bastaría con diseñar la arquitectura de forma que haya siempre un grado de separación entre la empresa y la copia concreta. La red (BitTorrent, un hoster, un mirror) hace el trabajo sucio; la compañía sólo "consume" el resultado.

Pero si la teoría de los autores prospera, el efecto rebote será fuerte. El listón de la prueba bajaría: ya no sería imprescindible reconstruir qué fichero pasó por qué nodo, sino demostrar que la empresa eligió conscientemente un mecanismo –como torrents de colecciones pirata– cuya consecuencia normal era redistribuir obras protegidas a gran escala.

En resumen: este caso puede definir si la ley mira o no mira dentro de las tripas técnicas del entrenamiento de modelos.

El contexto más amplio

Lo que está en juego encaja con varias tendencias recientes:

Del scraping al acopio masivo. Al principio, muchos modelos se entrenaron básicamente con crawling de páginas públicas: legalmente discutible, pero disperso. Bajar 80 TB de datos bien organizados vía BitTorrent es otra liga: se parece más a enchufarse a bibliotecas sombra, repositorios de ebooks pirateados o dumps de bases de datos.
Las demandas de copyright como palanca de negociación. Desde 2023 hemos visto una cascada de casos contra OpenAI, Microsoft, Stability AI y otros por entrenar con libros, noticias o código. Son pleitos largos, técnicos y caros. BitTorrent, en cambio, es un viejo conocido de los tribunales y de la opinión pública; la idea de "sembrar" contenidos pirata es mucho más intuitiva que explicar cómo un modelo utiliza vectores en un espacio latente.
Redefinición de la responsabilidad de intermediarios. El caso Cox sigue la línea histórica en EEUU: proteger a quienes proporcionan infraestructura generalista y, a la vez, castigar a los que incitan de forma activa a infringir. Meta se esfuerza por situarse en el primer grupo, aunque en los hechos, en estos litigios, actúa más como un usuario muy sofisticado de esa infraestructura.

Para otros actores –desde startups en Ciudad de México, Bogotá o Buenos Aires hasta scaleups en Barcelona o Madrid– el mensaje es claro: si tu pipeline de datos pasa por fuentes de reputación dudosa, más vale entender bien los riesgos. Los demandantes están aprendiendo a seguir el rastro de los datos, no sólo de las salidas del modelo.

El toque de atención del juez Chhabria a los abogados de los autores añade otro matiz: los tribunales no van a premiar el "tech bashing" vacío. Quien quiera hacer historia contra las grandes de la IA tendrá que combinar narrativa pública con cirugía procesal fina.

La mirada europea e iberoamericana

Desde Europa, el contraste con el marco estadounidense es llamativo.

La UE ya cuenta con excepciones de minería de textos y datos (TDM) que permiten ciertos usos de obras protegidas para análisis automatizado, pero dan a los titulares de derechos la posibilidad de excluirse. El próximo Reglamento de IA de la UE (AI Act) exigirá además que los proveedores de grandes modelos documenten, al menos a alto nivel, los tipos de datos empleados y respeten el derecho de autor europeo.

Un esquema similar al de Meta, operando desde servidores europeos y alimentado con obras de editoriales españolas o latinoamericanas que se hayan opuesto a la TDM, se encontraría con un muro normativo mucho más sólido que el del caso Cox. No bastaría decir "sólo usamos una tecnología estándar".

Para el ecosistema hispanohablante hay, además, varias particularidades:

Mercados fragmentados. El valor cultural y económico del español se reparte entre Europa y América Latina. Si las grandes plataformas entrenan modelos potentes con corpus hispanos obtenidos por vías grises, buena parte de ese valor se concentrará fuera de la región.
Ausencia de grandes players nativos de IA. A diferencia de EEUU o China, no tenemos todavía gigantes de IA generativa con sede en Madrid, Ciudad de México o Bogotá. Eso reduce la capacidad de "pagar con la misma moneda" y obliga a apostar por marcos regulatorios y licencias colectivas.
Lenguas cooficiales y minoritarias. Catalán, gallego, euskera o guaraní dependen especialmente de que alguien se preocupe por datos de calidad. Si el mensaje de los tribunales es que el riesgo por exprimir bibliotecas digitales "pirata" es bajo, la tentación de ignorar la licencia de estos contenidos será máxima.

Lo que viene

En los próximos meses conviene estar atentos a varios movimientos:

El escrito de Meta sobre el caso Cox. Veremos hasta qué punto estira el paralelismo entre su conducta y la de un ISP. Cuanto más fuerce esa lectura, más fácil será para los jueces trazar una línea: una cosa es operar la autopista, otra muy distinta conducir el camión que reparte copias ilegales.
La decisión sobre responsabilidad contributiva. El juez Chhabria ha dejado claro que Meta no afrontará una discovery profunda en la demanda colectiva hasta que los autores superen el filtro de una resolución anticipada sobre los cargos de distribución y contribución. Si lo logran, el incentivo para Meta a cerrar el caso antes de abrir sus correos y chats internos será enorme.
Las batallas sobre privilegio y confidencialidad. Los demandantes ya sugieren que, si ganan en esta fase, intentarán que las discusiones internas sobre BitTorrent no queden protegidas por secreto profesional. Una derrota de Meta en este punto podría tener efecto dominó: otros gigantes de la IA verían sus estrategias de datos expuestas en futuros pleitos.
Posibles acuerdos globales. Si las demandas de copyright relacionadas con IA siguen multiplicándose en EEUU, Reino Unido y la UE, la salida lógica será algún tipo de acuerdo amplio: dinero, licencias para grandes catálogos y quizá mecanismos de opt‑out reconocidos internacionalmente. Europa lleva ventaja conceptual con su marco de TDM, pero el músculo de negociación sigue estando en California.

Mi pronóstico: el caso Cox dará a Meta munición para frenar las teorías de responsabilidad más agresivas, pero no bastará para borrar la diferencia entre un ISP que transporta bits y una empresa que se mete voluntariamente en un enjambre BitTorrent para sembrar datos. Incluso una victoria parcial de los autores bastaría para que el sector entienda que la era del "coge todo lo que puedas" está llegando a su fin.

En resumen

Meta está intentando esconder un comportamiento muy activo –sembrar decenas de terabytes en BitTorrent– detrás de una doctrina pensada para proteger a intermediarios pasivos. Es una apuesta arriesgada. Aunque el fallo Cox eleve el listón de la responsabilidad contributiva, no cambia el hecho de que las decisiones sobre datos de entrenamiento son cada vez más políticas y menos invisibles. Para los actores hispanohablantes, la lección es clara: o construimos ahora modelos de negocio basados en datos licenciados y trazables, o dejaremos que los tribunales –y las grandes tecnológicas– escriban las reglas por nosotros.

Meta, BitTorrent y la batalla por los datos de IA: cuando el viejo pirateo choca con la nueva IA

Meta, BitTorrent y la batalla por los datos de IA: cuando el viejo pirateo choca con la nueva IA

La noticia en resumen

Por qué importa

El contexto más amplio

La mirada europea e iberoamericana

Lo que viene

En resumen

Comentarios

Deja un comentario

Publicaciones relacionadas

Sam Altman, la confianza rota y la oportunidad de reiniciar la IA

Eclipse y su apuesta de 1.300 M$ por el “physical AI”: cuando la IA sale de la pantalla

Trinity de Arcee: el pequeño modelo abierto que incomoda a los gigantes de la IA (y encaja con las prioridades europeas y latinoamericanas)

Mantente informado