Es ampliamente reconocido que las empresas de IA utilizan artículos web para entrenar sus modelos sin compensar a los autores ni obtener su permiso. Medios como The New York Times, el Chicago Tribune y el Toronto Star ya han presentado demandas contra esta práctica. Ahora, otra organización destacada se ha sumado al proceso judicial.
TechCrunch ha informado de que la Enciclopedia Británica y su filial Merriam-Webster han presentado una demanda contra OpenAI, alegando que el gigante de la IA cometió una "infracción masiva de derechos de autor" al extraer y utilizar casi 100.000 de sus artículos en línea para entrenar sus modelos de aprendizaje automático sin permiso.
¿De qué trata esta demanda?
Britannica afirma que ChatGPT genera respuestas que sustituyen su contenido, lo que reduce el tráfico web y los ingresos potenciales. Si los usuarios pueden hacer una pregunta a ChatGPT y recibir una respuesta basada en los artículos de Britannica, es posible que tengan menos incentivos para visitar el sitio web directamente.
La denuncia también apunta al uso que hace OpenAI del contenido de Britannica en el flujo de trabajo RAG de ChatGPT, un proceso en el que la IA busca información actualizada en la web al responder preguntas, alegando que la IA reproduce su contenido, total o parcialmente, al responder preguntas.
Además, Britannica alega que OpenAI está infringiendo la ley de marcas registradas. La empresa argumenta que ChatGPT genera información de forma alucinante y luego la atribuye falsamente al editor. Según Britannica, las alucinaciones de ChatGPT ponen en peligro «el acceso continuo del público a información en línea fiable y de alta calidad».
¿Qué va a pasar después?
Esa es la gran pregunta. No existe un precedente legal sólido que establezca si entrenar una IA con contenido protegido por derechos de autor constituye una infracción de derechos de autor. Cualquiera puede decirte que no está bien usar el trabajo de otra persona para entrenar tus datos, pero la legislación al respecto es, en el mejor de los casos, ambigua.
En un caso reciente que involucró a Anthropic, un juez federal dictaminó que usar contenido protegido por derechos de autor como datos de entrenamiento era lo suficientemente transformador como para ser legal. Sin embargo, el mismo juez determinó que Anthropic había descargado ilegalmente millones de libros, lo que resultó en un acuerdo de 1.500 millones de dólares con los autores afectados.
A medida que este tema sigue evolucionando, los legisladores tienen mucho terreno que cubrir. El resultado de estos casos probablemente determinará cómo las empresas de IA podrán utilizar legalmente el contenido web en el futuro.
El artículo «El último enemigo de ChatGPT es el mejor diccionario y enciclopedia del mundo» apareció primero en Digital Trends .
