Es posible que el 57% de Internet ya sea lodo de IA

septiembre 10, 2024 Aranzulla de Los Pobres

una burbuja de palabras cgi — Google Deepmind/Pexels

No es sólo usted: los resultados de búsqueda realmente están empeorando. Los investigadores de Amazon Web Services (AWS) han realizado un estudio que sugiere que el 57% del contenido actual en Internet es generado por IA o traducido mediante un algoritmo de IA.

El estudio, titulado “ Una cantidad impactante de la Web está traducida automáticamente: conocimientos del paralelismo multidireccional ”, sostiene que la traducción automática (TA) de bajo costo, que toma un contenido determinado y lo regurgita en varios idiomas, es la solución. principal culpable. “Las traducciones paralelas multidireccionales generadas por máquinas no solo dominan la cantidad total de contenido traducido en la web en idiomas de menores recursos donde la traducción automática está disponible; también constituye una gran fracción del contenido web total en esos idiomas”, escribieron los investigadores en el estudio.

También encontraron evidencia de sesgo de selección en el contenido que se traduce automáticamente a varios idiomas en comparación con el contenido publicado en un solo idioma. "Este contenido es más breve, más predecible y tiene una distribución temática diferente en comparación con el contenido traducido a un solo idioma", escribieron los investigadores.

Es más, la creciente cantidad de contenido generado por IA en Internet, combinada con la creciente dependencia de las herramientas de IA para editar y manipular ese contenido, podría conducir a un fenómeno conocido como colapso del modelo, y ya está reduciendo la calidad de los resultados de búsqueda en la web. Dado que los modelos de IA de vanguardia como ChatGPT , Gemini y Claude dependen de cantidades masivas de datos de entrenamiento que solo se pueden adquirir raspando la web pública (ya sea que eso viole los derechos de autor o no), llenando la web pública de datos generados por IA, y El contenido, a menudo inexacto, podría degradar gravemente su rendimiento.

"Es sorprendente lo rápido que se produce el colapso del modelo y lo difícil de alcanzar que puede ser", dijo a Windows Central el Dr. Ilia Shumailov de la Universidad de Oxford. “Al principio, afecta a los datos de las minorías, datos que están mal representados. Luego afecta la diversidad de los resultados y la varianza se reduce. A veces, se observa una pequeña mejora en los datos mayoritarios, lo que oculta la degradación del rendimiento en los datos minoritarios. El colapso del modelo puede tener graves consecuencias”.

Los investigadores demostraron esas consecuencias haciendo que lingüistas profesionales clasificaran 10.000 oraciones en inglés seleccionadas al azar de una de 20 categorías. Los investigadores observaron "un cambio dramático en la distribución de temas al comparar datos paralelos de 2 vías con 8+ vías (es decir, el número de traducciones de idiomas), con temas de 'conversación y opinión' aumentando del 22,5% al 40,1%" de los publicados. .

Esto apunta a un sesgo de selección en el tipo de datos que se traducen a varios idiomas, que es “sustancialmente más probable” que provengan del tema “conversación y opinión”.

Además, los investigadores descubrieron que “las traducciones paralelas altamente multidireccionales tienen una calidad significativamente menor (6,2 puntos de estimación de calidad del cometa peor) que las traducciones paralelas bidireccionales”. Cuando los investigadores auditaron 100 de las oraciones paralelas altamente multidireccionales (aquellas traducidas a más de ocho idiomas), descubrieron que "una gran mayoría" provenía de granjas de contenido con artículos "que caracterizamos como de baja calidad, que requerían poca o ninguna experiencia". , o avanzar en el esfuerzo para crear”.

Eso ciertamente ayuda a explicar por qué el CEO de OpenAI, Sam Altman, sigue insistiendo en que es "imposible" crear herramientas como ChatGPT sin acceso gratuito a obras protegidas por derechos de autor.