El panorama legal de la IA: Un análisis de los más de 100 litigios por uso de datos en Estados Unidos

Para que modelos de IA como ChatGPT, Gemini o Meta AI puedan responder eficazmente a las múltiples consultas diarias de sus usuarios, las empresas detrás de ellos optaron por adquirir datos de cualquier fuente posible, incluyendo libros, artículos periodísticos, letras de canciones, ilustraciones y código fuente. Su filosofía era clara: era mejor pedir perdón que pedir permiso.

Como resultado, los tribunales están saturados de demandas que involucran miles de millones de dólares y ponen en tela de juicio el modelo de negocio de la IA. Mientras que la piratería solía asociarse con individuos descargando películas, ahora son las corporaciones más grandes del mundo las que han replicado esta práctica a gran escala, utilizando una tecnología que inherentemente vulnera los derechos de autor. Las sentencias de estos juicios determinarán la futura construcción de la inteligencia artificial.

Así como un estudiante mejora su preparación para un examen consultando el libro de texto, visitando la biblioteca y leyendo materiales complementarios, los equipos de investigación de los grandes modelos de IA consideraron que el uso de enormes y variados conjuntos de datos producía mejores resultados. El desafío radica en que ese inmenso volumen de datos no surge espontáneamente, sino que fue extraído de la web, bibliotecas digitales y repositorios como LibGen o Z-Library. La defensa común de empresas como OpenAI es invocar el uso justo (fair use) y las excepciones de minería de texto y datos, argumentando que utilizan legítimamente datos sin licencia. Por ello, los tribunales están evaluando cada caso individualmente.

La cuestión de si el entrenamiento de modelos de IA con contenido protegido califica como uso justo es el litigio de derechos de autor más relevante que enfrentan los tribunales. Dependiendo de los resultados, las empresas podrían encarar un futuro incierto, que incluiría el pago retroactivo de licencias, la depuración de bases de datos y, por supuesto, la modificación inmediata de sus métodos de recopilación de datos. Las demandas son cuantiosas: más de 100 casos activos hasta junio de 2026, según un gráfico.

Es importante señalar que este gráfico se limita a los tribunales de Estados Unidos. En Europa, la situación es diferente, con una normativa más estricta que exige la eliminación de datos después de su uso y permite a los creadores reservar sus derechos. La Ley de IA (AI Act) obliga a las empresas a divulgar los datos utilizados en el entrenamiento, una práctica que han evitado sistemáticamente.

El gráfico en cuestión, creado por David McCandless para Information is Beautiful, se basa en datos de ChatGPTisEatingTheWorld.com, reportajes de Wired y noticias relevantes. Su labor es notable, ya que ha logrado sintetizar la complejidad de los litigios en un único gráfico que clarifica quién demanda a quién en el ámbito de la IA.

En el centro del gráfico se encuentran las empresas tecnológicas demandadas, y en el exterior, los demandantes, que abarcan desde escritores y medios de comunicación hasta plataformas y artistas. Cada categoría se distingue por un color, y el tamaño del círculo indica la envergadura de la empresa. Una aclaración importante es que, para mejorar la visualización, cuando un demandante tiene múltiples demandas abiertas, solo se muestra la dirigida al demandado principal, lo que implica que la cantidad real de litigios es mucho mayor.

El mapa de los conflictos

Por un lado, están las compañías que desarrollaron los modelos de IA, como OpenAI, Google, Meta, Anthropic, NVIDIA y Perplexity, entre otras. Por otro, se encuentran demandantes de diversas índoles que alegan que sus obras fueron utilizadas sin permiso ni compensación para entrenar sistemas que ahora compiten directamente con ellos. En síntesis, todas las grandes empresas de IA están siendo demandadas por casi todas las categorías creativas. Algunos casos destacados incluyen:

Bartz vs. Anthropic. La empresa dirigida por Dario Amodei acordó un pago de 1.500 millones de dólares tras demostrarse que había descargado cientos de miles de libros de repositorios no oficiales. El tribunal validó el entrenamiento como uso justo, pero no la manera en que se obtuvieron los datos.

Kadrey vs. Meta. La compañía de Mark Zuckerberg prevaleció en la parte del entrenamiento, pero el juicio continúa por la distribución de contenido pirata.

New York Times vs. OpenAI, aún en proceso. El Times argumenta que ChatGPT reproduce sus artículos casi textualmente, suplantando la fuente original.

Disney vs. Midjourney, aún en proceso: Los principales estudios de entretenimiento luchan contra la generación de imágenes.

Concord, BMG y Universal vs. Anthropic, aún en proceso. Las grandes discográficas demandan por la reproducción de letras protegidas.

La Oficina de Derechos de Autor de EE.UU. publicó en mayo de 2025 un informe de 108 páginas que concluye que no existe una respuesta universal: determinar si el uso de obras para entrenar IA constituye uso justo requiere un análisis individualizado de cada caso. Ni todas las empresas son idénticas ni todos los usos son iguales.

Lo que sí es evidente es que este enfoque de "pedir perdón en lugar de permiso" tiene un costo: Anthropic ha demostrado que puede salir airosa incluso pagando 1.500 millones de dólares, dado que su valoración asciende a 183.000 millones de dólares. Por lo tanto, en la actualidad, la estrategia les ha resultado rentable. La cuestión fundamental es si continuará la avalancha de demandas o si se establecerán normas más claras sobre el uso de datos y habrá una autoridad con la firmeza y el conocimiento para aplicarlas.