La informática suele ser reconocida por su precisión y velocidad. Sin embargo, investigadores y operadores de centros de datos a gran escala advierten de una amenaza creciente que pone en peligro una de sus promesas fundamentales: la precisión. El problema se conoce como corrupción silenciosa de datos (CDS), un fenómeno en el que defectos de hardware provocan que los programas produzcan resultados incorrectos sin bloquearse, generar un error ni dejar rastro visible.
La amenaza invisible dentro de los chips modernos
La principal preocupación son los defectos de silicio en las CPU, GPU y aceleradores de IA. Estos defectos pueden originarse durante el diseño y la fabricación del chip, o incluso desarrollarse posteriormente debido al envejecimiento o a factores ambientales. Si bien los fabricantes detectan la mayoría de los fallos, incluso las pruebas de producción más rigurosas solo pueden detectar entre el 95 % y el 99 % de los defectos modelados. Es inevitable que algunos chips defectuosos lleguen al mercado.
En ciertos casos, estos defectos provocan fallos visibles, como caídas del sistema. Pero los errores silenciosos son aún más preocupantes. En estos casos, una puerta lógica o una unidad aritmética defectuosa pueden producir un valor erróneo durante la ejecución. Si ese valor se propaga por el programa sin activar los mecanismos de detección, el sistema completa la tarea y devuelve una salida incorrecta, sin indicar que algo salió mal.
Durante décadas, muchos creyeron que los SDC eran eventos poco comunes, casi míticos. Sin embargo, importantes operadores de hiperescala, como Meta, Google y Alibaba, han revelado que aproximadamente una de cada 1000 CPU de sus flotas puede producir corrupciones silenciosas en determinadas condiciones. Se han reportado preocupaciones similares en relación con las GPU y los aceleradores de IA.
La precisión es una propiedad fundamental de la informática. Ya sea procesando transacciones financieras, ejecutando inferencias de IA o gestionando infraestructura, se espera que los sistemas proporcionen resultados precisos en plazos estrictos.
La corrupción silenciosa socava esa confianza. A diferencia de las fallas, que son inmediatamente visibles e investigadas rápidamente, los SDC alteran discretamente los resultados. En centros de datos que operan millones de núcleos, incluso una pequeña tasa de defectos puede traducirse en cientos de resultados de programa incorrectos al día.
La escala de la informática moderna intensifica el problema
Las arquitecturas paralelas masivas, como las GPU y los aceleradores de IA, contienen miles de unidades aritméticas. Cuantos más componentes incluya un sistema, mayor será la probabilidad estadística de que alguno presente defectos.
Medir los SDC directamente es casi imposible; por definición, son silenciosos. Por lo tanto, la industria debe estimar sus tasas y sopesar el coste de la prevención. Existen mecanismos de detección y corrección, pero pueden aumentar significativamente el área de silicio, el consumo de energía y la sobrecarga de rendimiento.
Los investigadores piden soluciones multicapa, que incluyan pruebas de fabricación mejoradas, monitoreo a nivel de flota en centros de datos, modelos de estimación de fallas más inteligentes y enfoques de diseño conjunto de hardware y software que contengan los errores antes de que se propaguen.
A medida que los sistemas informáticos crecen y se aceleran, el desafío es evidente: mantener la velocidad y la precisión sin un coste insostenible. En lo que algunos describen como la "Era Dorada de la Complejidad", garantizar la fiabilidad de la informática podría convertirse en una de las batallas de ingeniería más importantes de la industria.
Los defectos silenciosos de los chips podrían estar corrompiendo datos en las computadoras modernas apareció primero en Digital Trends .
