En medio de la crisis: una cosa que CrowdStrike y Microsoft no pueden solucionar
Solo vi una pantalla azul de la muerte el domingo 21 de julio, durante 15 horas de viaje a través de dos de los aeropuertos más grandes del país, apenas dos días después de que una actualización de software fallida paralizara millones de computadoras corporativas que ejecutaban el sistema operativo Windows.
"Quizás las cosas estén bien", recuerdo haber pensado mientras mi familia daba los primeros pasos hacia el aeropuerto LaGuardia de Nueva York alrededor de las 9 a.m. Los titulares decían lo contrario, el día 3 del Gran Apagón de Ventanas de 2024 , el área de emisión de boletos y equipaje no se veía demasiado bien. malo.
Debería haber sabido mejor. Había dado literalmente dos pasos dentro del edificio antes de recibir el primero de aproximadamente 3000 correos electrónicos de retraso de Delta en el transcurso del día, junto con aún más notificaciones de las aplicaciones Flighty y Fly Delta. No iba a ser un viaje fácil a casa desde Nueva York hasta Florida, algo que he hecho docenas de veces a lo largo de los años.
No soy ajeno a los retrasos en los vuelos. ( Pasé 15 horas en el Sky Club de LAX a finales de enero; no es algo que recomiendo, a pesar de lo bueno que es). Pero este fue diferente. El clima sucede. Ocurren problemas mecánicos. Apestan, pero todos llegan a un lugar seguro. ¿Esta vez? Un proveedor de seguridad externo estropeó un archivo dentro de Windows. CrowdStrike debería haberlo captado. Microsoft debería haberlo captado. Tampoco lo hizo hasta que fue demasiado tarde. Si bien la solución fue relativamente simple (iniciar en modo seguro o seguir reiniciando la máquina hasta que se reemplace el archivo defectuoso), los efectos de primer orden fueron inmensos.
Son los efectos de segundo y tercer orden los que realmente les salieron mal a las aerolíneas. Delta se vio particularmente afectada: el director ejecutivo, Ed Bastian, escribió el domingo que más de 3.500 vuelos fueron cancelados hasta el sábado y muchos más el domingo. “Por favor, venga a verme al podio si necesita un abrazo”, dijo nuestro agente de puerta alrededor de las 4:30 p. m. del domingo mientras el tablero se actualizaba y decía CANCELADO.
La fila para el mostrador de cambio de reserva en la sala A de Atlanta, una de las siete terminales del aeropuerto más transitado del país, fue cómicamente (o trágicamente) larga. Me senté con un auricular puesto, esperando en la fila de reservaciones de la aerolínea durante dos horas antes de rendirme. (Mi hermano, que tiene un estatus de viajero frecuente mucho más alto, al menos logró que una persona real le dijera que no había manera de que yo saliera antes de medianoche, y que lo mejor que podía hacer era seguir el vuelo asignado durante ahora.)
Finalmente a bordo, en las primeras horas del lunes 22 de julio, una azafata nos dio una idea de lo que realmente estaba complicando las cosas: Delta no sabía dónde estaban sus tripulaciones. Esto se confirmó más tarde ese mismo día en otra publicación de noticias de Delta , que decía que más de la mitad de su sistema de TI ejecuta Windows y que se requería tiempo de sincronización adicional incluso después de que se reiniciaran las máquinas afectadas.
"Las cuadrillas de Delta cuentan con todo el personal y están listas para atender a nuestros clientes", continúa la publicación. "Pero uno de los sistemas más críticos de Delta, que garantiza que todos los vuelos tengan una tripulación completa en el lugar correcto en el momento correcto, es profundamente complejo y requiere la mayor cantidad de tiempo y soporte manual para sincronizarse".
Finalmente llegamos a casa casi a las 2 am. Cansados. Un poco agotado. Pero sólo unas ocho horas de retraso, en total. Tuvimos suerte. Mi hermano pasó unas 30 horas en el aeropuerto de Atlanta dos días antes, tratando de llegar a su casa en Pensacola después de abortar un viaje a la costa oeste. Sin vuelos. No se permiten alquileres de autos de ida. Salvo la espera, no hay otras opciones reales más allá de que alguien conduzca cinco horas en cada sentido para un rescate.
Nuestras historias eran sólo dos de miles, y las nuestras eran de relativamente poco en juego. No teníamos niños viajando solos. No nos quedamos sin mucho dinero, más allá de un par de comidas que no planeábamos tener en un aeropuerto. Nuestras maletas llegaron en el mismo avión.
La solución inmediata al fallo de CrowdStrike fue bastante sencilla. CrowdStrike y Microsoft deben contar con políticas para mitigar la posibilidad de que esto vuelva a suceder. (Por supuesto, volverá a suceder). Pero como dice el refrán, y esta es la versión PG-13, la caca fluye cuesta abajo. Nada de esto fue culpa de las aerolíneas. Pero rápidamente se convirtió en un desastre que debían limpiar.
Y eso es algo que un simple reinicio no puede solucionar. Incluso si lo hacesmás de 8 millones de veces .