La IA Gemini de Google ahora puede procesar y hablar sobre archivos de audio

La IA Gemini de Google es multimodal, lo que significa que puede procesar y generar archivos en varios formatos, desde texto e imágenes hasta vídeos . Si bien puede generar audio, hasta ahora no podía procesar archivos de audio subidos por los usuarios. Esto finalmente cambia, ya que Gemini ahora permite compartir archivos de audio y hablar sobre ellos.

¿Cuál es el gran cambio?

La posibilidad de subir archivos de audio ya está disponible en la app móvil de Gemini y también en la versión web. En la burbuja de chat de Gemini, toca el icono "+" y sube el audio seleccionando el icono de subida de archivos con forma de clip. Por cierto, esta función es gratuita para todos los usuarios de Gemini.

Según la página de soporte de Google, puedes subir audioclips de hasta diez minutos de duración. Sin embargo, si contratas los paquetes Gemini AI Pro o Ultra, puedes subir archivos de audio con una duración de hasta tres horas.

Si tienes curiosidad sobre qué otros formatos de archivos puedes enviar a Gemini, aquí tienes un resumen rápido:

  • Hasta 10 archivos de una vez, incluidos archivos ZIP.
  • Vídeo de hasta 2 GB de tamaño. 5 minutos de duración para usuarios gratuitos y 1 hora para clientes pagos.
  • Una carpeta de código o un repositorio de GitHub (hasta 5000 archivos/tamaño 100 MB)

Una bendición para los bibliófilos

No a todo el mundo le gusta sumergirse en un audiolibro, un podcast o la grabación de una conferencia. A veces, los muros de texto son donde surge la verdadera magia, o donde se encuentra la zona de confort cognitiva. Si te consideras de los que buscan la liberación auditiva, esta actualización de Gemini es una auténtica bendición. Y sí, la compatibilidad con audio va más allá del inglés, como puedes ver en la publicación a continuación.

Ya sea que necesites resumir una conferencia larga o extraer solo algunos puntos específicos de un podcast, Gemini se encargará del audio y te dará justo lo que necesitas. Puedes pedirle que escriba informes extensos, resúmenes breves o incluso que los convierta en diapositivas que puedes exportar como imágenes.

Por otro lado, tenemos la fantástica herramienta NotebookLM . Convierte tus largos archivos de texto en un atractivo podcast de audio para dos personas. Si prefieres resúmenes en video, también puedes hacerlo. Y ya que estás, aprovecha la oferta gratuita de Gemini AI Pro que Google ofrece a estudiantes en numerosos países, incluido Estados Unidos.