Si codifica aplicaciones de Android con IA, el nuevo punto de referencia de Google facilita la elección del modelo adecuado

Para los desarrolladores de aplicaciones Android que dependen de la IA para codificar, elegir el modelo adecuado puede ser complicado. No todos los modelos se crean de la misma manera, y muchos no están específicamente entrenados para los flujos de trabajo de desarrollo de Android. Para solucionar esto, Google ha presentado un nuevo punto de referencia para ayudar a los desarrolladores a comprender el rendimiento de los diferentes modelos de IA en tareas de codificación de Android del mundo real.

Denominado Android Bench , el nuevo benchmark está diseñado para evaluar la eficacia de los grandes modelos de lenguaje (LLM) para gestionar las tareas típicas de desarrollo de Android. Google explica que el benchmark evalúa los modelos utilizando tareas reales de proyectos públicos en GitHub y les pide que recreen solicitudes de extracción reales y resuelvan problemas similares a los que experimentan los desarrolladores al crear aplicaciones de Android. Los resultados se verifican para comprobar si realmente resuelven el problema.

En pocas palabras, el benchmark verifica si el código generado por los modelos de IA realmente soluciona el problema, en lugar de parecer correcto a simple vista. Esto ayuda a Google a medir la utilidad real de los diferentes modelos para resolver problemas reales de desarrollo de Android.

Con la primera versión de Android Bench, Google planeó "medir únicamente el rendimiento del modelo y no centrarse en el uso de agentes ni de herramientas". Los resultados revelan una gran brecha, ya que los modelos completaron con éxito entre el 16 % y el 72 % de las tareas de referencia. La compañía afirma que la publicación de estos resultados facilitará a los desarrolladores la comparación de modelos y la selección de los que realmente son capaces de abordar problemas reales de programación en Android.

Además de guiar a los desarrolladores, el benchmark también podría impulsar a las empresas de IA a mejorar la comprensión de sus modelos sobre el desarrollo de Android. Para apoyar este esfuerzo, Google ha publicado la metodología, el conjunto de datos y el marco de pruebas de Android Bench en GitHub. Con el tiempo, esto podría dar lugar a herramientas de IA mejor equipadas para navegar por bases de código Android complejas y ayudar a los desarrolladores a crear y corregir aplicaciones de forma más eficaz.

La publicación Si codifica aplicaciones de Android con IA, el nuevo punto de referencia de Google facilita la elección del modelo correcto apareció primero en Digital Trends .