Cómo la interrupción de AWS en Amazon derribó grandes porciones de la web

Si tuviste problemas para acceder a algunos de tus sitios web y servicios favoritos el 20 de octubre, no estabas solo. Una gran parte de internet sufrió horas de problemas con interrupciones reportadas en numerosos sitios.

Una falla en los servicios AWS de Amazon fue la causa, con graves interrupciones que afectaron gravemente a cientos, si no miles, de servicios. Los propios servicios de Amazon, como Alexa, Ring y Prime Video, experimentaron problemas, al igual que grandes nombres de la web, como Disney+ , Hulu , Roblox , Fortnite , Zoom , The New York Times, McDonald's y más.

Después de 15 horas de interrupción, Amazon finalmente pudo dar la señal de que todo estaba bien y que sus servicios estaban completamente restablecidos.

Interrupción de Internet en AWS: actualizaciones clave

  • 03:53 PM PDT : Amazon emite una declaración detallando lo sucedido.
  • 03:01 PM PDT : Todos los servicios de AWS volvieron a sus operaciones normales.
  • 10:03 AM PDT : “Seguimos implementando medidas de mitigación para el buen funcionamiento del balanceador de carga de red y la recuperación de la conectividad para la mayoría de los servicios de AWS”. Esta interrupción lleva más de 10 horas.
  • 09:13 AM PDT : Amazon afirma que está "observando la recuperación de la conectividad y la API para los servicios de AWS".
  • 08:48 AM PDT : ¡Buenas noticias! Amazon ha identificado el origen de los problemas de conectividad de red que afectaron a los servicios de AWS.
  • 08:04 AM PDT : Amazon requiere más investigaciones, ya que investiga problemas de conectividad.
  • 07:29 AM PDT : Amazon confirma problemas de conectividad para los usuarios.
  • 07:14 AM PDT : ¡Vaya! Parece que la situación está empeorando . «Podemos confirmar errores significativos de API y problemas de conectividad en varios servicios de la región US-EAST-1».
  • 06:42 AM PDT : Amazon confirma que “aún experimenta errores elevados en los lanzamientos de nuevas instancias EC2”.
  • 05:48 AM PDT : Amazon dice que está "avanzando en la resolución del problema con el lanzamiento de nuevas instancias EC2 en la región US-EAST-1".
  • 05:10 AM PDT : Más acciones exitosas a medida que Amazon continúa trabajando en el proceso de recuperación.
  • 04:48 AM PDT : Amazon confirma que muchos servicios aún están afectados mientras continúa solucionando el problema.
  • 04:08 AM PDT : Amazon afirma que "sigue trabajando para lograr una recuperación total".
  • 03:35 AM PDT : “El problema subyacente de DNS se ha mitigado por completo y la mayoría de las operaciones del servicio de AWS ahora funcionan correctamente con normalidad”.
  • 03:03 AM PDT : Los servicios continúan recuperándose mientras Amazon continúa "trabajando hacia una resolución completa"
  • 02:27 AM PDT : «Estamos viendo señales significativas de recuperación», señala Amazon. Menos mal.
  • 02:22 AM PDT : Amazon afirma estar observando señales tempranas de recuperación en algunos servicios de AWS afectados.
  • 02:01 AM PDT : Amazon afirma haber "identificado una posible causa raíz de las tasas de error".
  • 01:26 AM PDT : Amazon afirma que "puede confirmar tasas de error significativas para las solicitudes realizadas al punto final de DynamoDB en la región US-EAST-1".
  • 12:51 AM PDT : Amazon confirma “mayores tasas de error y latencias para múltiples servicios de AWS en la región US-EAST-1”
  • 12:11 AM PDT : Amazon confirma que está investigando el aumento de las tasas de error y las latencias en varios servicios de AWS en la región US-EAST-1.

¿Por qué dejaron de funcionar los servicios de AWS?

Amazon publicó un comunicado el 20 de octubre a las 3:53 p.m. PDT, detallando los eventos del día.

Entre las 23:49 PDT del 19 de octubre y las 02:24 PDT del 20 de octubre, experimentamos un aumento en las tasas de error y las latencias de los servicios de AWS en la región US-EAST-1. Además, los servicios o funciones que dependen de los puntos de conexión US-EAST-1, como IAM y las tablas globales de DynamoDB, también experimentaron problemas durante este periodo.

A las 00:26 del 20 de octubre, identificamos como desencadenante del evento problemas de resolución de DNS en los puntos finales del servicio regional de DynamoDB. Tras resolver el problema de DNS de DynamoDB a las 02:24, los servicios comenzaron a recuperarse, pero sufrimos una falla posterior en el subsistema interno de EC2, responsable del lanzamiento de las instancias de EC2, debido a su dependencia de DynamoDB. A medida que continuamos solucionando las fallas en el lanzamiento de las instancias de EC2, las comprobaciones de estado del balanceador de carga de red también se vieron afectadas, lo que provocó problemas de conectividad de red en varios servicios, como Lambda, DynamoDB y CloudWatch.

Recuperamos las comprobaciones de estado del balanceador de carga de red a las 9:38 a. m. Como parte de la recuperación, limitamos temporalmente algunas operaciones, como el lanzamiento de instancias de EC2, el procesamiento de colas de SQS mediante asignaciones de fuentes de eventos Lambda y las invocaciones asincrónicas de Lambda. Con el tiempo, redujimos la limitación de las operaciones y trabajamos en paralelo para resolver los problemas de conectividad de red hasta que los servicios se recuperaron por completo.

A las 15:01, todos los servicios de AWS volvieron a funcionar con normalidad. Algunos servicios, como AWS Config, Redshift y Connect, siguen teniendo una acumulación de mensajes que terminarán de procesar en las próximas horas. Compartiremos un resumen detallado de AWS posterior al evento.

¿Cuánto tiempo duró la interrupción de AWS?

En total, los servicios de AWS se vieron afectados durante 15 horas el 20 de octubre de 2025, lo que lo convirtió en la mayor interrupción de AWS de Amazon en una década.

Según nuestra investigación sobre interrupciones anteriores de AWS, la interrupción más prolongada de los últimos 10 años se produjo en agosto de 2019, cuando los servicios dejaron de funcionar durante ocho horas.

Interrupción de Internet en AWS en el momento en que ocurrió