En medio de la crisis: una cosa que CrowdStrike y Microsoft no pueden solucionar

Solo vi una pantalla azul de la muerte el domingo 21 de julio, durante 15 horas de viaje a través de dos de los aeropuertos más grandes del país, apenas dos días después de que una actualización de software fallida paralizara millones de computadoras corporativas que ejecutaban el sistema operativo Windows.

"Quizás las cosas estén bien", recuerdo haber pensado mientras mi familia daba los primeros pasos hacia el aeropuerto LaGuardia de Nueva York alrededor de las 9 a.m. Los titulares decían lo contrario, el día 3 del Gran Apagón de Ventanas de 2024 , el área de emisión de boletos y equipaje no se veía demasiado bien. malo.

Debería haber sabido mejor. Había dado literalmente dos pasos dentro del edificio antes de recibir el primero de aproximadamente 3000 correos electrónicos de retraso de Delta en el transcurso del día, junto con aún más notificaciones de las aplicaciones Flighty y Fly Delta. No iba a ser un viaje fácil a casa desde Nueva York hasta Florida, algo que he hecho docenas de veces a lo largo de los años.

Una notificación de la aplicación Flighty en un Apple Watch.
La generalmente excelente aplicación Flighty simplemente no fue diseñada para mantenerse al día con tantos cambios de fuselajes: estas notificaciones llegaban varias veces por hora. Phil Nickinson / Tendencias digitales

No soy ajeno a los retrasos en los vuelos. ( Pasé 15 horas en el Sky Club de LAX a finales de enero; no es algo que recomiendo, a pesar de lo bueno que es). Pero este fue diferente. El clima sucede. Ocurren problemas mecánicos. Apestan, pero todos llegan a un lugar seguro. ¿Esta vez? Un proveedor de seguridad externo estropeó un archivo dentro de Windows. CrowdStrike debería haberlo captado. Microsoft debería haberlo captado. Tampoco lo hizo hasta que fue demasiado tarde. Si bien la solución fue relativamente simple (iniciar en modo seguro o seguir reiniciando la máquina hasta que se reemplace el archivo defectuoso), los efectos de primer orden fueron inmensos.

Son los efectos de segundo y tercer orden los que realmente les salieron mal a las aerolíneas. Delta se vio particularmente afectada: el director ejecutivo, Ed Bastian, escribió el domingo que más de 3.500 vuelos fueron cancelados hasta el sábado y muchos más el domingo. “Por favor, venga a verme al podio si necesita un abrazo”, dijo nuestro agente de puerta alrededor de las 4:30 p. m. del domingo mientras el tablero se actualizaba y decía CANCELADO.

La escena de la puerta A7 del Aeropuerto Internacional Hartsfield-Jackson de Atlanta a última hora de la tarde del 21 de julio de 2024.
Para muchos de nosotros en el Aeropuerto Internacional Hartsfield-Jackson de Atlanta, no había nada que hacer más que esperar y desear que el próximo vuelo no fuera cancelado. Phil Nickinson / Tendencias digitales

La fila para el mostrador de cambio de reserva en la sala A de Atlanta, una de las siete terminales del aeropuerto más transitado del país, fue cómicamente (o trágicamente) larga. Me senté con un auricular puesto, esperando en la fila de reservaciones de la aerolínea durante dos horas antes de rendirme. (Mi hermano, que tiene un estatus de viajero frecuente mucho más alto, al menos logró que una persona real le dijera que no había manera de que yo saliera antes de medianoche, y que lo mejor que podía hacer era seguir el vuelo asignado durante ahora.)

Finalmente a bordo, en las primeras horas del lunes 22 de julio, una azafata nos dio una idea de lo que realmente estaba complicando las cosas: Delta no sabía dónde estaban sus tripulaciones. Esto se confirmó más tarde ese mismo día en otra publicación de noticias de Delta , que decía que más de la mitad de su sistema de TI ejecuta Windows y que se requería tiempo de sincronización adicional incluso después de que se reiniciaran las máquinas afectadas.

"Las cuadrillas de Delta cuentan con todo el personal y están listas para atender a nuestros clientes", continúa la publicación. "Pero uno de los sistemas más críticos de Delta, que garantiza que todos los vuelos tengan una tripulación completa en el lugar correcto en el momento correcto, es profundamente complejo y requiere la mayor cantidad de tiempo y soporte manual para sincronizarse".

Una pantalla de entretenimiento a bordo de un Delta 757-200, esperando salir de Atlanta.
Ya era pasada la medianoche, pero los que conseguimos subirnos a un Boeing 757-200 estábamos muy entusiasmados. Phil Nickinson / Tendencias digitales

Finalmente llegamos a casa casi a las 2 am. Cansados. Un poco agotado. Pero sólo unas ocho horas de retraso, en total. Tuvimos suerte. Mi hermano pasó unas 30 horas en el aeropuerto de Atlanta dos días antes, tratando de llegar a su casa en Pensacola después de abortar un viaje a la costa oeste. Sin vuelos. No se permiten alquileres de autos de ida. Salvo la espera, no hay otras opciones reales más allá de que alguien conduzca cinco horas en cada sentido para un rescate.

Nuestras historias eran sólo dos de miles, y las nuestras eran de relativamente poco en juego. No teníamos niños viajando solos. No nos quedamos sin mucho dinero, más allá de un par de comidas que no planeábamos tener en un aeropuerto. Nuestras maletas llegaron en el mismo avión.

La solución inmediata al fallo de CrowdStrike fue bastante sencilla. CrowdStrike y Microsoft deben contar con políticas para mitigar la posibilidad de que esto vuelva a suceder. (Por supuesto, volverá a suceder). Pero como dice el refrán, y esta es la versión PG-13, la caca fluye cuesta abajo. Nada de esto fue culpa de las aerolíneas. Pero rápidamente se convirtió en un desastre que debían limpiar.

Y eso es algo que un simple reinicio no puede solucionar. Incluso si lo hacesmás de 8 millones de veces .