La nueva herramienta de inteligencia artificial de código abierto de Meta te ayuda a limpiar grabaciones ruidosas con solo escribir
Limpiar el audio suele implicar depurar líneas de tiempo y ajustar filtros, pero Meta cree que debería ser tan sencillo como describir el sonido deseado. La compañía ha lanzado un nuevo modelo de IA de código abierto llamado SAM Audio, que puede aislar casi cualquier sonido de una grabación compleja mediante simples indicaciones de texto.
Los usuarios pueden extraer sonidos específicos, como voces, instrumentos o sonidos de fondo, sin tener que recurrir a un software de edición complejo. El modelo ya está disponible en Segment Anything Playground de Meta , que alberga otras herramientas de edición de imágenes y vídeos basadas en indicaciones.
En términos generales, SAM Audio está diseñado para comprender el sonido con el que se desea trabajar y separarlo claramente del resto. Meta afirma que esto facilita una edición de audio más rápida para casos de uso como producción musical, podcasting, cine y televisión, herramientas de accesibilidad e investigación.
Por ejemplo, un creador podría aislar las voces de la grabación de una banda, eliminar el ruido del tráfico de un podcast o eliminar el ladrido de un perro de una grabación que de otro modo sería perfecta, todo ello describiendo lo que quiere que el modelo busque.
Cómo funciona SAM Audio
SAM Audio es un modelo multimodal que admite tres tipos diferentes de indicaciones. Los usuarios pueden describir un sonido mediante texto, hacer clic en una persona u objeto en un video para identificar visualmente el sonido que desean aislar o marcar el intervalo de tiempo en el que el sonido aparece por primera vez. Estas indicaciones pueden usarse solas o combinadas, lo que ofrece a los usuarios un control preciso sobre lo que se separa.
En esencia, el sistema se basa en el motor audiovisual Perception Encoder de Meta. Este actúa como la capacidad del modelo para reconocer y comprender sonidos antes de eliminarlos de la mezcla.
Para mejorar la evaluación de la separación de audio, Meta también ha introducido SAM Audio-Bench, un punto de referencia para medir la eficacia de los modelos en la gestión del habla, la música y los efectos de sonido. Se complementa con SAM Audio Judge, que evalúa la naturalidad y precisión del audio separado para los oyentes humanos, incluso sin pistas de referencia con las que comparar.
Meta afirma que estas evaluaciones muestran que SAM Audio funciona mejor cuando se combinan diferentes tipos de indicaciones y puede manejar audio más rápido que en tiempo real, incluso a escala.
Dicho esto, el modelo presenta claras limitaciones. No admite indicaciones de audio, no puede realizar una separación completa sin ninguna indicación y presenta dificultades con sonidos similares que se superponen, como aislar una sola voz de un coro.
Meta dice que planea mejorar estas áreas y ya está explorando aplicaciones en el mundo real, incluido el trabajo de accesibilidad con fabricantes de audífonos y organizaciones que apoyan a personas con discapacidades.
El lanzamiento de SAM Audio se enmarca en el impulso más amplio de Meta en IA. La compañía está mejorando la claridad de voz en sus gafas de IA para entornos ruidosos , trabajando en la próxima generación de gafas de realidad mixta, que se espera lleguen en 2027 , y desarrollando una IA conversacional que podría competir con ChatGPT , lo que indica un enfoque más amplio en modelos de IA que comprenden el sonido, el contexto y la interacción.
La nueva herramienta de inteligencia artificial de código abierto de Meta te ayuda a limpiar grabaciones ruidosas con solo escribir apareció primero en Digital Trends .
