Cependant, par une coïncidence apparemment terrible, les services de Microsoft étaient également hors service dans la nuit de jeudi à vendredi. Plusieurs services Azure sont tombés en panne jeudi soir, la cause étant citée comme étant « un flux de travail de gestion de cluster backend [qui] a déployé un changement de configuration entraînant le blocage de l'accès backend entre un sous-ensemble de clusters Azure Storage et des ressources de calcul dans la région centrale des États-Unis ». Un porte-parole de Microsoft a déclaré que la mise à jour de CrowdStrike n'était pas liée à la panne d'Azure du 18 juillet. « Ce problème a été entièrement résolu », peut-on lire dans la déclaration.
CrowdStrike, une société de cybersécurité basée à Austin, au Texas, largement utilisée par les entreprises et les agences gouvernementales qui utilisent des ordinateurs Microsoft, a déclaré qu'un défaut dans l'une de ses mises à jour pour les ordinateurs fonctionnant avec le système d'exploitation Windows était à l'origine du problème.
Les réseaux de télévision, les centres d'appel d'urgence et même les Jeux olympiques de Paris ont été touchés. En Inde, en Afrique du Sud, en Thaïlande et dans d'autres pays, les banques et les systèmes financiers se sont effondrés à la suite d'une panne soudaine des ordinateurs. Certains travailleurs ont découvert que leurs ordinateurs portables professionnels démarraient sur des écrans bleus le vendredi matin. Les pannes n'ont pas seulement touché les commandes mobiles de Starbucks, mais aussi un seul motel à Laramie, dans le Wyoming.
Les compagnies aériennes, qui n'ont jamais été les réseaux les plus agiles, ont été particulièrement touchées : American Airlines, United, Delta et Frontier figuraient parmi les compagnies aériennes américaines submergées vendredi matin.
Le problème a également touché les banques, empêchant certains clients d'accéder à leur argent. En Australie, en Nouvelle-Zélande et ailleurs, des personnes ont signalé des problèmes pour se connecter à leurs comptes dans les principales banques de détail. La Bourse de Londres, la plus grande d'Europe, a déclaré que certains de ses services avaient été perturbés, mais que les transactions n'avaient pas été entravées.
Dans le secteur de la distribution, McDonald's a fermé certains de ses magasins au Japon en raison d'un « dysfonctionnement de la caisse enregistreuse », selon un communiqué publié en ligne. La chaîne de magasins d'alimentation britannique Waitrose a été contrainte d'afficher des notes manuscrites informant les clients qu'elle n'acceptait que l'argent en cash. Certains établissements Starbucks ont temporairement fermé leurs portes après la panne du système de commande mobile de l'entreprise, tandis que d'autres sont restés ouverts et ont laissé leurs baristas se démener pour trouver de nouvelles méthodes de travail.
Baltic Hub, un terminal maritime mondial situé en Pologne, a déclaré dans un communiqué qu'il avait dû faire face à des problèmes liés à la panne. L'agence Alaska State Troopers a été l'un des organismes chargés de l'application de la loi à signaler les problèmes, avertissant les gens que le 911 ne fonctionnait temporairement pas. La chaîne britannique Sky News, qui appartient à Comcast, la société mère de NBCUniversal, a été brièvement privée d'antenne.
Quelle en est la cause ?
Les programmes de cybersécurité tels que celui de CrowdStrike se mettent fréquemment et automatiquement à jour pour tenir compte des nouvelles tactiques découvertes par les pirates informatiques. Il existe toujours un léger risque d'incompatibilité entre une mise à jour logicielle et d'autres programmes.
La mise à jour de CrowdStrike aurait dû être routinière, mais une erreur dans son code est entrée en conflit avec Windows et s'est avérée catastrophique.
Le PDG de la société, George Kurtz, a déclaré vendredi matin dans l'émission « TODAY » que si certains clients verraient leur ordinateur réparé automatiquement, d'autres auraient besoin d'un travail manuel pour le réparer. « Le système a reçu une mise à jour, et cette mise à jour contenait un bogue logiciel qui a causé un problème avec le système d'exploitation de Microsoft », a déclaré Kurtz. « Nos systèmes sont toujours à l'affût des dernières attaques de ces adversaires ».
Le PDG de CrowdStrike était le CTO de McAfee lorsqu'en avril 2010 l'entreprise a envoyé une mise à jour qui a supprimé un fichier crucial de Windows XP
Les solutions proposées par CrowdStrike et Microsoft pour remédier aux plantages incessants des systèmes Windows vont du « redémarrage jusqu'à 15 fois » à la suppression de pilotes individuels dans des disques d'exploitation virtuels détachés. La présence du chiffrement BitLocker sur les appareils concernés complique encore les choses.
Le PDG de CrowdStrike, George Kurtz, a indiqué sur X (anciennement Twitter) vendredi que l'entreprise travaillait sur « un défaut trouvé dans une seule mise à jour de contenu pour les hôtes Windows », les hôtes Mac et Linux n'étant pas affectés. « Il ne s'agit pas d'un incident de sécurité ou d'une cyberattaque. Le problème a été identifié, isolé et un correctif a été déployé », a écrit Kurtz.
Comme le note LittleAlex sur Mastodon, Kurtz était directeur de la technologie de l'entreprise de sécurité McAfee lorsqu'en avril 2010, cette entreprise a envoyé une mise à jour qui a supprimé un fichier crucial de Windows XP, ce qui a provoqué des pannes généralisées et a nécessité une réparation des fichiers système par système. Il a posté un lien vers un article parlant de cette panne.
Il faudra du temps pour connaître les coûts d'une telle panne, qui seront difficiles à mesurer. L'analyste CloudZero a estimé vendredi en milieu de matinée que l'incident CrowdStrike avait déjà coûté 24 milliards de dollars, sur la base d'une précédente estimation.
Multiples pannes, responsabilités floues
Par une coïncidence apparemment terrible, les services de Microsoft étaient également hors service dans la nuit de jeudi à vendredi. Plusieurs services Azure sont tombés en panne jeudi soir, la cause étant citée comme étant « un flux de travail de gestion de cluster backend [qui] a déployé un changement de configuration entraînant le blocage de l'accès backend entre un sous-ensemble de clusters Azure Storage et des ressources de calcul dans la région centrale des États-Unis ».
Un porte-parole de Microsoft a déclaré que la mise à jour de CrowdStrike n'était pas liée à la panne d'Azure du 18 juillet. « Ce problème a été entièrement résolu », peut-on lire dans la déclaration.
Jusqu'à présent, les rapports sur ces pannes ont accusé soit Microsoft, soit CrowdStrike, soit un mélange peu clair des deux, d'être les responsables des différentes pannes. C'est peut-être inévitable, étant donné que les pannes se produisent toutes sur une seule plateforme, Windows. Microsoft a elle-même publié une « prise de conscience » concernant le problème de BSOD de CrowdStrike sur les machines virtuelles fonctionnant sous Windows. L'entreprise l'a fréquemment mis à jour vendredi, avec un correctif qui pourrait ou non surprendre les vétérans de l'informatique.
« Nous avons reçu des commentaires de clients indiquant que plusieurs redémarrages (jusqu'à 15 ont été signalés) peuvent être nécessaires, mais dans l'ensemble, les commentaires indiquent que les redémarrages sont une étape de dépannage efficace à ce stade », a écrit Microsoft dans le bulletin. Microsoft recommande également aux clients qui disposent d'une sauvegarde datant « d'avant 19h00 UTC le 18 juillet » de la restaurer ou d'attacher le disque du système d'exploitation à une VM de réparation afin de supprimer le fichier (Windows/System32/Drivers/CrowdStrike/C00000291*.sys) qui est au cœur de la boucle d'amorçage.
Microsoft a cependant affiché sa volonté de travailler main dans la main avec CrowdStrike pour résoudre le problème provoqué par l'entreprise de cybersécurité :
« Nous travaillons 24 heures sur 24 et fournissons des mises à jour et une assistance permanentes. En outre, CrowdStrike nous a aidés à développer une solution évolutive qui permettra à l'infrastructure Azure de Microsoft d'accélérer la correction de la mise à jour défectueuse de CrowdStrike. Nous avons également travaillé avec AWS et GCP pour collaborer sur les approches les plus efficaces.
« Si les mises à jour de logiciels peuvent occasionnellement provoquer des perturbations, les incidents importants tels que l'événement CrowdStrike sont peu fréquents. Nous estimons actuellement que la mise à jour de CrowdStrike a affecté 8,5 millions d'appareils Windows, soit moins d'un pour cent de toutes les machines Windows. Bien que le pourcentage soit faible, les vastes répercussions économiques et sociétales reflètent l'utilisation de CrowdStrike par des entreprises qui gèrent de nombreux services essentiels.
« Cet incident démontre la nature interconnectée de notre vaste écosystème - fournisseurs mondiaux de services en nuage, plateformes logicielles, fournisseurs de sécurité et autres fournisseurs de logiciels, et clients. Il nous rappelle également à quel point il est important pour nous tous, dans l'écosystème technologique, d'accorder la priorité à un déploiement sûr et à une reprise après sinistre en utilisant les mécanismes existants. Comme nous l'avons vu ces deux derniers jours, c'est en collaborant et en travaillant ensemble que nous apprenons, que nous récupérons et que nous avançons le plus efficacement. Nous apprécions la coopération et la collaboration de l'ensemble de notre secteur, et nous continuerons à vous informer des enseignements tirés et des prochaines étapes ».
Troy Hunt, consultant en sécurité, aurait décrit cette double panne comme « la plus grande panne informatique de l'histoire », déclarant : « en gros, c'est ce que nous craignions tous avec le passage à l'an 2000, sauf que cela s'est réellement produit cette fois-ci ».
United Airlines a indiqué qu'elle « reprenait certains vols, mais qu'elle s'attendait à ce que les perturbations se poursuivent tout au long de la journée de vendredi », et qu'elle avait accordé des dérogations à ses clients pour qu'ils modifient leurs plans de voyage. American Airlines a indiqué tôt vendredi qu'elle avait rétabli ses opérations à 5 heures du matin (heure de l'Est), mais qu'elle s'attendait à des retards et à des annulations tout au long de la journée de vendredi.BREAKING: Prominent security consultant Troy Hunt says 'this will be the largest IT outage in history' and 'this is basically what we were all worried about with Y2K, except it’s actually happened this time'
— The Spectator Index (@spectatorindex) July 19, 2024
Source : Microsoft (1, 2) LittleAlex
Et vous ?
Quelle est votre expérience personnelle avec les écrans bleus de la mort (BSOD) ? Avez-vous déjà été confronté à un BSOD et comment avez-vous réagi ?
Pensez-vous que les entreprises technologiques devraient être plus transparentes lorsqu’elles rencontrent des problèmes techniques ? Comment cela pourrait-il affecter la confiance des utilisateurs ?
Quelles mesures pensez-vous que CrowdStrike et Microsoft devraient prendre pour éviter de futures pannes similaires ?
Comment évaluez-vous l’impact financier de ces pannes sur les entreprises et les utilisateurs ? Quelles sont les conséquences à court et à long terme ?
En tant qu’utilisateur, comment gérez-vous les mises à jour logicielles ? Avez-vous déjà rencontré des problèmes après une mise à jour ?