Meta quiere potenciar Wikipedia con una actualización de IA
Wikipedia tiene un problema. Y Meta, el Facebook renombrado no hace mucho tiempo, puede tener la respuesta.
Retrocedamos. Wikipedia es uno de losproyectos de colaboración a mayor escala en la historia de la humanidad, con más de 100.000 editores humanos voluntarios que contribuyen a la construcción y el mantenimiento de una enciclopedia increíblemente grande y multilingüe que consta de millones de artículos. Cada mes se agregan más de 17,000 artículos nuevos a Wikipedia, mientras que se realizan ajustes y modificaciones continuamente a su corpus de artículos existente. Los artículos Wiki más populares se han editado miles de veces y reflejan las investigaciones, los conocimientos y la información más reciente.
El desafío, por supuesto, es la precisión. La existencia misma de Wikipedia es una prueba positiva de que un gran número de humanos pueden unirse para crear algo positivo. Pero para que sean realmente útiles y no un muro de grafiti en expansión de afirmaciones sin fundamento, los artículos de Wikipedia deben estar respaldados por hechos. Aquí es donde entran las citas. La idea, y en su mayor parte esto funciona muy bien, es que tanto los usuarios como los editores de Wikipedia puedan confirmar hechos agregando o haciendo clic en hipervínculos que rastrean las declaraciones hasta su fuente.
Cita necesaria
Digamos, por ejemplo, que quiero confirmar la entrada en el artículo de Wikipedia del presidente Barack Obama que dice que Obama viajó a Europa y luego a Kenia en 1988, donde conoció a muchos de sus parientes paternos por primera vez. Todo lo que tengo que hacer es mirar las citas de la oración y, por supuesto, hay tres referencias de libros separadas que aparentemente confirman que el hecho se verifica.
Por el contrario, la frase "cita requerida" es probablemente la más condenatoria de toda Wikipedia, precisamente porque sugiere que no hay evidencia de que el autor no conjuró las palabras del éter digital. Las palabras "cita requerida" adjuntas a un reclamo de Wikipedia equivalen a decirle a alguien un hecho mientras se hacen comillas en el aire.
Sin embargo, las citas no nos lo dicen todo. Si tuviera que decirle que, el año pasado, fui el 23° periodista tecnológico con mayores ingresos en el mundo y que una vez renuncié a una lucrativa carrera como modelo para escribir artículos para Digital Trends, parece superficialmente plausible porque hay hipervínculos para apoyar mis delirios
El hecho de que los hipervínculos no respaldan mis hechos alternativos en absoluto, sino que conducen a páginas no relacionadas en Tendencias digitales solo se revela cuando hace clic en ellos. Para el 99.9 por ciento de los lectores que nunca me han conocido, pueden dejar este artículo con una gran cantidad de impresiones falsas, entre las cuales se encuentra la sorprendentemente baja barrera de entrada al mundo del modelaje. En un mundo con hipervínculos de sobrecarga de información, en el que chapoteamos cada vez más en lo que Nicholas Carr llama " The Shallows ", la existencia de citas en sí mismas parece ser un respaldo fáctico.
Meta vadea en
Pero, ¿qué sucede si los editores de Wikipedia agregan citas, incluso si no se vinculan a páginas que realmente respalden las afirmaciones? A modo de ilustración, un artículo reciente de Wikipedia sobre el miembro de la tribu Blackfeet, Joe Hipp , describió cómo Hipp fue el primer boxeador nativo americano en competir por el título mundial de peso pesado de la AMB y lo vinculó a lo que parecía ser una página web apropiada. Sin embargo, la página web en cuestión no menciona ni el boxeo ni a Joe Hipp.
En el caso de la afirmación de Joe Hipp, el hecho real de Wikipedia era exacto, incluso si la cita era inapropiada. No obstante, es fácil ver cómo esto podría usarse, ya sea deliberadamente o no, para difundir información errónea.
Es aquí donde Meta piensa que ha encontrado una forma de ayudar. Trabajando con la Fundación Wikimedia, Meta AI (que es el laboratorio de investigación y desarrollo de IA para el gigante de las redes sociales) ha desarrollado lo que afirma es el primer modelo de aprendizaje automático capaz de escanear automáticamente cientos de miles de citas a la vez para verificar si son compatibles. las pretensiones correspondientes. Si bien esto estaría lejos de ser el primer bot que usa Wikipedia , podría estar entre los más impresionantes.
“Creo que al final del día nos motivó la curiosidad”, dijo a Digital Trends Fabio Petroni , gerente líder de tecnología de investigación del equipo FAIR (Investigación fundamental de IA) de Meta AI. “Queríamos ver cuál era el límite de esta tecnología. No estábamos absolutamente seguros de si [esta IA] podría hacer algo significativo en este contexto. Nadie había intentado hacer algo similar [antes]”.
Comprender el significado
Entrenada utilizando un conjunto de datos que consta de 4 millones de citas de Wikipedia, la nueva herramienta de Meta puede analizar de manera efectiva la información vinculada a una cita y luego cotejarla con la evidencia de respaldo. Y esto tampoco es solo una comparación directa de cadenas de texto.
“Hay un componente como ese, [mirando] la similitud léxica entre el reclamo y la fuente, pero ese es el caso fácil”, dijo Petroni. “Con estos modelos, lo que hemos hecho es crear un índice de todas estas páginas web dividiéndolas en pasajes y brindando una representación precisa de cada pasaje… Eso no representa el pasaje palabra por palabra, sino el significado del pasaje. . Eso significa que dos fragmentos de texto con significados similares se representarán en una posición muy cercana en el espacio n-dimensional resultante donde se almacenan todos estos pasajes”.
Sin embargo, tan impresionante como la capacidad de detectar citas fraudulentas es el potencial de la herramienta para sugerir mejores referencias. Implementada como un modelo de producción, esta herramienta podría sugerir referencias que ilustrarían mejor un punto determinado. Si bien Petroni se resiste a compararlo con un corrector ortográfico real, marcando errores y sugiriendo mejoras, esa es una manera fácil de pensar en lo que podría hacer.
Pero como explica Petroni, aún queda mucho trabajo por hacer antes de llegar a este punto. “Lo que hemos construido es una prueba de concepto”, dijo. “No es realmente utilizable en este momento. Para que esto sea utilizable, debe tener un índice nuevo que indexe muchos más datos que los que tenemos actualmente. Debe actualizarse constantemente, con nueva información que llega todos los días”.
Esto podría, al menos en teoría, incluir no solo texto, sino también multimedia. Tal vez haya un gran documental autorizado disponible en YouTube al que el sistema podría dirigir a los usuarios. Tal vez la respuesta a un reclamo en particular esté oculta en una imagen en algún lugar en línea.
Una cuestión de calidad
También hay otros desafíos. Notable en su ausencia, al menos en la actualidad, es cualquier intento de calificar de forma independiente la calidad de las fuentes citadas. Esta es un área espinosa en sí misma. Como una simple ilustración, ¿una referencia breve y descartable a un tema en, digamos, el New York Times sería una cita más adecuada y de alta calidad que una fuente más completa, pero menos reconocida? ¿Debe una publicación convencional tener una clasificación más alta que una no convencional?
El algoritmo PageRank de un billón de dólares de Google, sin duda el algoritmo más famoso que se haya creado en torno a las citas, tenía esto incorporado en su modelo, en esencia, equiparando una fuente de alta calidad con una que tenía una gran cantidad de enlaces entrantes. En la actualidad, la IA de Meta no tiene nada como esto.
Si esta IA iba a funcionar como una herramienta eficaz, tendría que tener algo así. Como un ejemplo muy obvio de por qué, imagine que uno se dispusiera a “probar” la opinión más atroz y reprensible para incluirla en una página de Wikipedia. Si la única evidencia necesaria para confirmar que algo es cierto es si se pueden encontrar sentimientos similares publicados en otros lugares en línea, entonces prácticamente cualquier afirmación podría resultar técnicamente correcta, sin importar cuán incorrecta pueda ser.
“[Un área que nos interesa] es tratar de modelar explícitamente la confiabilidad de una fuente, la confiabilidad de un dominio”, dijo Petroni. “Creo que Wikipedia ya tiene una lista de dominios que se consideran confiables y dominios que no se consideran. Pero en lugar de tener una lista fija, sería bueno si pudiéramos encontrar una manera de promocionarlos algorítmicamente”.