La nueva inteligencia artificial de Facebook se traduce entre 100 idiomas

octubre 20, 2020 Aranzulla de Los Pobres

Facebook presentó un nuevo modelo de inteligencia artificial de código abierto que tiene la capacidad de traducir entre 100 idiomas diferentes. Su modelo de inteligencia artificial ni siquiera necesita convertir el texto existente al inglés, lo que permite una traducción más eficiente y precisa.

Presentamos una nueva forma de traducir texto

En una publicación del blog Acerca de Facebook , la plataforma detalló su nuevo modelo de traducción automática multilingüe (MMT), también conocido como M2M-100. Sorprendentemente, este modelo de aprendizaje automático de código abierto "puede traducir entre cualquier par de 100 idiomas sin depender de los datos del inglés".

Si bien este es todavía un proyecto de investigación, es muy prometedor. Angela Fan, asistente de investigación en Facebook, señaló que los modelos de traducción automática "típicos" utilizan diferentes modelos para cada idioma, lo que los hace increíblemente ineficientes para grandes plataformas como Facebook.

Incluso los modelos avanzados no son suficientes, ya que utilizan el inglés como intermediario entre idiomas. Esto significa que el sistema debe traducir primero el texto de origen al inglés y luego traducirlo al idioma de destino.

Los modelos que dependen del inglés no producen las mejores traducciones. Fan señala que al eliminar el inglés de la imagen, el sistema MMT de Facebook puede producir traducciones más precisas, indicando:

Al traducir, digamos, chino al francés, la mayoría de los modelos multilingües centrados en el inglés entrenan de chino a inglés y de inglés a francés, porque los datos de entrenamiento en inglés son los más ampliamente disponibles. Nuestro modelo entrena directamente los datos del chino al francés para preservar mejor el significado.

Entonces, en lugar de usar el inglés como puente, el modelo MMT de Facebook puede traducir entre 100 idiomas diferentes. Según Fan, Facebook ha creado "el conjunto de datos MMT de muchos a muchos más diverso hasta la fecha", que consta de 7.500 millones de pares de oraciones para 100 idiomas.

Para lograr esta hazaña, el equipo de investigación extrajo datos de traducción de idiomas en la web, centrándose primero en los idiomas "con la mayor cantidad de solicitudes de traducción". Luego, los investigadores clasificaron esos idiomas en 14 grupos basados en características compartidas.

A partir de aquí, los investigadores establecieron lenguajes puente para cada grupo y extrajeron datos de entrenamiento para todas las combinaciones posibles. Esto resultó en 7.500 millones de oraciones paralelas en 2.200 direcciones.

Y en cuanto a los idiomas que no están tan extendidos, Facebook utilizó algo llamado retrotraducción para crear traducciones sintéticas.

Todo este proceso acerca al equipo de inteligencia artificial de Facebook a su objetivo de crear un "modelo único que admita todos los idiomas, dialectos y modalidades".

Facebook se acerca a ofrecer mejores traducciones

Facebook ya realiza 20 mil millones de traducciones todos los días en su News Feed, y Facebook AI solo hará que el proceso sea más eficiente. Aunque el nuevo modelo de traducción aún no se ha implementado, definitivamente será útil para los usuarios internacionales de Facebook que necesiten traducciones específicas.