Los investigadores construyeron modelos de IA que consumen menos energía que una bombilla

La bombilla Harth Sleep-Shift encendida junto a una cama.
Harth / Amazonas

Los grandes modelos de lenguaje que impulsan los chatbots actuales como ChatGPT, Gemini y Claude son sistemas de inteligencia artificial generativa inmensamente poderosos y, además, inmensamente ávidos de poder.

Aparentemente no es necesario, ya que una investigación reciente de la Universidad de California en Santa Cruz ha demostrado que los LLM modernos que ejecutan miles de millones de parámetros pueden funcionar con solo 13 vatios de potencia sin pérdida de rendimiento. Eso es aproximadamente el consumo de una bombilla de 100 W y una mejora de 50 veces con respecto a los 700 W que consume una GPU Nvidia H100 .

"Obtuvimos el mismo rendimiento a un costo mucho menor; todo lo que teníamos que hacer era cambiar fundamentalmente el funcionamiento de las redes neuronales", dijo el autor principal del artículo, Jason Eshraghian. "Luego dimos un paso más y creamos hardware personalizado". Lo hicieron eliminando la matriz de multiplicación de la red neuronal.

La multiplicación de matrices es la piedra angular de los algoritmos que impulsan los LLM actuales. Las palabras se representan como números y luego se organizan en matrices donde se ponderan y multiplican entre sí para producir resultados lingüísticos dependiendo de la importancia de ciertas palabras y su relación con otras palabras en la oración o párrafo.

Estas matrices se almacenan en cientos de GPU físicamente separadas y se recuperan con cada nueva consulta u operación. El proceso de transferir datos que deben multiplicarse entre una multitud de matrices cuesta una cantidad significativa de energía eléctrica y, por tanto, de dinero.

Para solucionar ese problema, el equipo de UC Santa Cruz forzó los números dentro de las matrices a un estado ternario: cada número tenía un valor de uno negativo, cero o uno positivo. Esto permite a los procesadores simplemente sumar los números en lugar de multiplicarlos, un ajuste que no supone ninguna diferencia en el algoritmo pero ahorra una enorme cantidad de costes en términos de hardware. Para mantener el rendimiento a pesar de la reducción en el número de operaciones, el equipo introdujo en el sistema computación basada en el tiempo, creando efectivamente una "memoria" para la red, aumentando la velocidad a la que podía procesar las operaciones disminuidas.

"Desde el punto de vista del diseñador de circuitos, no se necesitan los gastos generales de la multiplicación, que conlleva un gran costo", dijo Eshraghian. Y aunque el equipo implementó su nueva red en hardware FGPA personalizado, siguen confiando en que muchas de las mejoras de eficiencia se pueden adaptar a los modelos existentes utilizando software de código abierto y pequeños ajustes de hardware. Incluso en las GPU estándar, el equipo observó una reducción de 10 veces en el consumo de memoria y mejoró la velocidad operativa en un 25 %.

Dado que los fabricantes de chips como Nvidia y AMD superan continuamente los límites del rendimiento de los procesadores GPU, las demandas eléctricas (y sus costos financieros asociados) para los centros de datos que albergan estos sistemas se han disparado en los últimos años. Con el aumento de la potencia informática viene un aumento proporcional en la cantidad de calor residual que producen los chips, calor residual que ahora requiere sistemas de refrigeración líquida que consumen muchos recursos para disiparse por completo.

El director ejecutivo de Arm, Rene Haas, advirtió a The Register en abril que los centros de datos de IA podrían consumir entre el 20 y el 25% de toda la producción eléctrica de Estados Unidos para finales de la década si no se toman medidas correctivas y rápidamente.