IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les services de Microsoft étaient également hors service au moment de la panne provoquée par CrowdStrike
Provoquant la confusion quant à la responsabilité de chaque panne : Microsoft, CrowdStrike, ou les deux?

Le , par Stéphane le calme

53PARTAGES

13  0 
Une mise à jour logicielle de routine a provoqué vendredi un chaos en cascade qui a englouti les entreprises mondiales, des aéroports aux banques en passant par le commerce de détail et les forces de l'ordre. Il ne s'agissait pas d'une cyberattaque, mais d'une mise à jour défectueuse effectuée par l'une des plus grandes sociétés de cybersécurité au monde pour protéger ses clients contre les pirates informatiques.

Cependant, par une coïncidence apparemment terrible, les services de Microsoft étaient également hors service dans la nuit de jeudi à vendredi. Plusieurs services Azure sont tombés en panne jeudi soir, la cause étant citée comme étant « un flux de travail de gestion de cluster backend [qui] a déployé un changement de configuration entraînant le blocage de l'accès backend entre un sous-ensemble de clusters Azure Storage et des ressources de calcul dans la région centrale des États-Unis ». Un porte-parole de Microsoft a déclaré que la mise à jour de CrowdStrike n'était pas liée à la panne d'Azure du 18 juillet. « Ce problème a été entièrement résolu », peut-on lire dans la déclaration.


CrowdStrike, une société de cybersécurité basée à Austin, au Texas, largement utilisée par les entreprises et les agences gouvernementales qui utilisent des ordinateurs Microsoft, a déclaré qu'un défaut dans l'une de ses mises à jour pour les ordinateurs fonctionnant avec le système d'exploitation Windows était à l'origine du problème.

Les réseaux de télévision, les centres d'appel d'urgence et même les Jeux olympiques de Paris ont été touchés. En Inde, en Afrique du Sud, en Thaïlande et dans d'autres pays, les banques et les systèmes financiers se sont effondrés à la suite d'une panne soudaine des ordinateurs. Certains travailleurs ont découvert que leurs ordinateurs portables professionnels démarraient sur des écrans bleus le vendredi matin. Les pannes n'ont pas seulement touché les commandes mobiles de Starbucks, mais aussi un seul motel à Laramie, dans le Wyoming.

Les compagnies aériennes, qui n'ont jamais été les réseaux les plus agiles, ont été particulièrement touchées : American Airlines, United, Delta et Frontier figuraient parmi les compagnies aériennes américaines submergées vendredi matin.

Le problème a également touché les banques, empêchant certains clients d'accéder à leur argent. En Australie, en Nouvelle-Zélande et ailleurs, des personnes ont signalé des problèmes pour se connecter à leurs comptes dans les principales banques de détail. La Bourse de Londres, la plus grande d'Europe, a déclaré que certains de ses services avaient été perturbés, mais que les transactions n'avaient pas été entravées.

Dans le secteur de la distribution, McDonald's a fermé certains de ses magasins au Japon en raison d'un « dysfonctionnement de la caisse enregistreuse », selon un communiqué publié en ligne. La chaîne de magasins d'alimentation britannique Waitrose a été contrainte d'afficher des notes manuscrites informant les clients qu'elle n'acceptait que l'argent en cash. Certains établissements Starbucks ont temporairement fermé leurs portes après la panne du système de commande mobile de l'entreprise, tandis que d'autres sont restés ouverts et ont laissé leurs baristas se démener pour trouver de nouvelles méthodes de travail.

Baltic Hub, un terminal maritime mondial situé en Pologne, a déclaré dans un communiqué qu'il avait dû faire face à des problèmes liés à la panne. L'agence Alaska State Troopers a été l'un des organismes chargés de l'application de la loi à signaler les problèmes, avertissant les gens que le 911 ne fonctionnait temporairement pas. La chaîne britannique Sky News, qui appartient à Comcast, la société mère de NBCUniversal, a été brièvement privée d'antenne.

Quelle en est la cause ?

Les programmes de cybersécurité tels que celui de CrowdStrike se mettent fréquemment et automatiquement à jour pour tenir compte des nouvelles tactiques découvertes par les pirates informatiques. Il existe toujours un léger risque d'incompatibilité entre une mise à jour logicielle et d'autres programmes.

La mise à jour de CrowdStrike aurait dû être routinière, mais une erreur dans son code est entrée en conflit avec Windows et s'est avérée catastrophique.

Le PDG de la société, George Kurtz, a déclaré vendredi matin dans l'émission « TODAY » que si certains clients verraient leur ordinateur réparé automatiquement, d'autres auraient besoin d'un travail manuel pour le réparer. « Le système a reçu une mise à jour, et cette mise à jour contenait un bogue logiciel qui a causé un problème avec le système d'exploitation de Microsoft », a déclaré Kurtz. « Nos systèmes sont toujours à l'affût des dernières attaques de ces adversaires ».

Le PDG de CrowdStrike était le CTO de McAfee lorsqu'en avril 2010 l'entreprise a envoyé une mise à jour qui a supprimé un fichier crucial de Windows XP

Les solutions proposées par CrowdStrike et Microsoft pour remédier aux plantages incessants des systèmes Windows vont du « redémarrage jusqu'à 15 fois » à la suppression de pilotes individuels dans des disques d'exploitation virtuels détachés. La présence du chiffrement BitLocker sur les appareils concernés complique encore les choses.

Le PDG de CrowdStrike, George Kurtz, a indiqué sur X (anciennement Twitter) vendredi que l'entreprise travaillait sur « un défaut trouvé dans une seule mise à jour de contenu pour les hôtes Windows », les hôtes Mac et Linux n'étant pas affectés. « Il ne s'agit pas d'un incident de sécurité ou d'une cyberattaque. Le problème a été identifié, isolé et un correctif a été déployé », a écrit Kurtz.

Comme le note LittleAlex sur Mastodon, Kurtz était directeur de la technologie de l'entreprise de sécurité McAfee lorsqu'en avril 2010, cette entreprise a envoyé une mise à jour qui a supprimé un fichier crucial de Windows XP, ce qui a provoqué des pannes généralisées et a nécessité une réparation des fichiers système par système. Il a posté un lien vers un article parlant de cette panne.

Il faudra du temps pour connaître les coûts d'une telle panne, qui seront difficiles à mesurer. L'analyste CloudZero a estimé vendredi en milieu de matinée que l'incident CrowdStrike avait déjà coûté 24 milliards de dollars, sur la base d'une précédente estimation.


Multiples pannes, responsabilités floues

Par une coïncidence apparemment terrible, les services de Microsoft étaient également hors service dans la nuit de jeudi à vendredi. Plusieurs services Azure sont tombés en panne jeudi soir, la cause étant citée comme étant « un flux de travail de gestion de cluster backend [qui] a déployé un changement de configuration entraînant le blocage de l'accès backend entre un sous-ensemble de clusters Azure Storage et des ressources de calcul dans la région centrale des États-Unis ».

Un porte-parole de Microsoft a déclaré que la mise à jour de CrowdStrike n'était pas liée à la panne d'Azure du 18 juillet. « Ce problème a été entièrement résolu », peut-on lire dans la déclaration.

Jusqu'à présent, les rapports sur ces pannes ont accusé soit Microsoft, soit CrowdStrike, soit un mélange peu clair des deux, d'être les responsables des différentes pannes. C'est peut-être inévitable, étant donné que les pannes se produisent toutes sur une seule plateforme, Windows. Microsoft a elle-même publié une « prise de conscience » concernant le problème de BSOD de CrowdStrike sur les machines virtuelles fonctionnant sous Windows. L'entreprise l'a fréquemment mis à jour vendredi, avec un correctif qui pourrait ou non surprendre les vétérans de l'informatique.

« Nous avons reçu des commentaires de clients indiquant que plusieurs redémarrages (jusqu'à 15 ont été signalés) peuvent être nécessaires, mais dans l'ensemble, les commentaires indiquent que les redémarrages sont une étape de dépannage efficace à ce stade », a écrit Microsoft dans le bulletin. Microsoft recommande également aux clients qui disposent d'une sauvegarde datant « d'avant 19h00 UTC le 18 juillet » de la restaurer ou d'attacher le disque du système d'exploitation à une VM de réparation afin de supprimer le fichier (Windows/System32/Drivers/CrowdStrike/C00000291*.sys) qui est au cœur de la boucle d'amorçage.

Microsoft a cependant affiché sa volonté de travailler main dans la main avec CrowdStrike pour résoudre le problème provoqué par l'entreprise de cybersécurité :

« Nous travaillons 24 heures sur 24 et fournissons des mises à jour et une assistance permanentes. En outre, CrowdStrike nous a aidés à développer une solution évolutive qui permettra à l'infrastructure Azure de Microsoft d'accélérer la correction de la mise à jour défectueuse de CrowdStrike. Nous avons également travaillé avec AWS et GCP pour collaborer sur les approches les plus efficaces.

« Si les mises à jour de logiciels peuvent occasionnellement provoquer des perturbations, les incidents importants tels que l'événement CrowdStrike sont peu fréquents. Nous estimons actuellement que la mise à jour de CrowdStrike a affecté 8,5 millions d'appareils Windows, soit moins d'un pour cent de toutes les machines Windows. Bien que le pourcentage soit faible, les vastes répercussions économiques et sociétales reflètent l'utilisation de CrowdStrike par des entreprises qui gèrent de nombreux services essentiels.

« Cet incident démontre la nature interconnectée de notre vaste écosystème - fournisseurs mondiaux de services en nuage, plateformes logicielles, fournisseurs de sécurité et autres fournisseurs de logiciels, et clients. Il nous rappelle également à quel point il est important pour nous tous, dans l'écosystème technologique, d'accorder la priorité à un déploiement sûr et à une reprise après sinistre en utilisant les mécanismes existants. Comme nous l'avons vu ces deux derniers jours, c'est en collaborant et en travaillant ensemble que nous apprenons, que nous récupérons et que nous avançons le plus efficacement. Nous apprécions la coopération et la collaboration de l'ensemble de notre secteur, et nous continuerons à vous informer des enseignements tirés et des prochaines étapes ».

Troy Hunt, consultant en sécurité, aurait décrit cette double panne comme « la plus grande panne informatique de l'histoire », déclarant : « en gros, c'est ce que nous craignions tous avec le passage à l'an 2000, sauf que cela s'est réellement produit cette fois-ci ».

United Airlines a indiqué qu'elle « reprenait certains vols, mais qu'elle s'attendait à ce que les perturbations se poursuivent tout au long de la journée de vendredi », et qu'elle avait accordé des dérogations à ses clients pour qu'ils modifient leurs plans de voyage. American Airlines a indiqué tôt vendredi qu'elle avait rétabli ses opérations à 5 heures du matin (heure de l'Est), mais qu'elle s'attendait à des retards et à des annulations tout au long de la journée de vendredi.

Source : Microsoft (1, 2) LittleAlex

Et vous ?

Quelle est votre expérience personnelle avec les écrans bleus de la mort (BSOD) ? Avez-vous déjà été confronté à un BSOD et comment avez-vous réagi ?
Pensez-vous que les entreprises technologiques devraient être plus transparentes lorsqu’elles rencontrent des problèmes techniques ? Comment cela pourrait-il affecter la confiance des utilisateurs ?
Quelles mesures pensez-vous que CrowdStrike et Microsoft devraient prendre pour éviter de futures pannes similaires ?
Comment évaluez-vous l’impact financier de ces pannes sur les entreprises et les utilisateurs ? Quelles sont les conséquences à court et à long terme ?
En tant qu’utilisateur, comment gérez-vous les mises à jour logicielles ? Avez-vous déjà rencontré des problèmes après une mise à jour ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 22/07/2024 à 20:47
Maintenant qu'on connait la raison du bug (et que cela arrive dans 100% des cas avec ce patch), comment cela se fait qu'ils n'aient pas vu ce problème sur leurs machines de test en QA ?
7  0 
Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 22/07/2024 à 20:30
Il y a l'explication technique ici : https://macbidouille.com/news/2024/0...0-adresse-0x9c

CrowdStrike: une lecture mémoire via un pointeur visant la page 0 (adresse 0x9c)

Par Philippe - Dimanche 21 juillet, 14:09 - Catégorie : PC

Il y a eu plusieurs hypothèses qui ont été relayées y-compris ici-même et par votre serviteur, dont une erreur dans les règles ou patterns de détection de virus, qui auraient alors mis en quarantaine des fichiers indispensables à Windows.
Cela ne collait pas avec le fix rapide consistant à éliminer un fichier .sys, puisqu'il aurait alors fallu aussi ramener le ou les fichiers en quarantaine dans leurs emplacements d'origine.
Ça aurait du attirer mon attention. Mais les informations reçues étaient contradictoires.
Grâce à Zach Vorhies on a une piste très crédible.
Non un "Null Pointer" (Pointeur nul valant 0) comme il l'indique, pas un "
" (déréférencement mémoire d'un pointeur valant 0), mais une lecture indirecte de la page 0 via un pointeur non-null (à l'adresse 0x9c précisément).
La page 0 est protégée des accès en lecture et en écriture par le Kernel de Window justement pour provoquer une exception lors de ceux-ci car c'est une erreur courante en assembleur, en C et dans tous les langages où le programmeur gère lui-même les pointeurs via son code.
On ne peut pas protéger matériellement uniquement l'adresse 0, c'est donc toute la page qui est protégée.
L'accès à cette page, que ça soit en lecture ou en écriture, déclenche une Exception de type Violation d'Accès, et généralement l'arrêt du programme si en mode utilisateur.
En mode Kernel, comme c'est le cas ici, cette Exception déclenche le crash du Kernel et donc de Windows!
C'est le jeu de données utilisé "Channel 291" du produit Sensor de CrowdStrike, destiné aux versions sous Windows 7.11 et suivant qui a généré une erreur de logique, expliquant que le problème ne se produise pas sous macOS ou Linux.
Les cause-racines sont une non-validation des données lues par le code (un grand classique), d'avoir poussé une MàJ non validée, d'avoir mis des données corrompues dans une MàJ, et de ne pas avoir procédé à des tests corrects.
CrowdStrike va vraiment avoir des réponses à apporter...
5  0 
Avatar de Eric80
Membre éclairé https://www.developpez.com
Le 23/07/2024 à 17:04
Citation Envoyé par fmartini Voir le message
En effet, le réseau intradef (l'intranet standard de l'armée française) est entièrement coupé d'internet.
ce qui est bien plus pertinent que des solutions tjs connectées.

Le gars ds l interview parle bien des systèmes Microsoft imposés dans les différents ministères, dont la défense. Comme il dit, pour des raisons évidentes de souveraineté, l armée se méfie énormément de Windows et fait tout pour éviter que les infos transitent trop vers MS et la NSA...
5  0 
Avatar de floyer
Membre éclairé https://www.developpez.com
Le 29/08/2024 à 15:33
N’importe quel OS qui permet des extensions en mode noyau s’expose à ce risque. Les différents OS type UNIX n’y échappent pas. (D’ailleurs une mise à jour de Crowdstrike a provoqué des kernel panic sur Linux).

L’architecture de Windows depuis NT n’a rien à voir avec DOS, contrairement à ce que tu sembles dire.

L’approche qui changera vraiment quelque chose est le micronoyau (Mach, QNX, SeL4…) et encore, si un module est un SPOF (typiquement un système de fichier), un défaut dans ce module compromet le fonctionnement du système. Cette approche pourrait rogner un peu les performances… mais pour des applications critiques, pourquoi pas. (Cela me rappelle l’arrivée d’OS/2 où la presse s’indignait oh là là, on perd 2% de performances par rapport à un OS non sécurisé)

Et le principe de mise à jour automatique est vraiment le cœur du problème. Imaginons Oracle « pousser » une nouvelle pile Java à l’insu des développeur et exploitant… même si elle ne tourne qu’en mode utilisateur, cela peut bloquer beaucoup d’applications potentiellement critiques.
5  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 24/07/2024 à 15:17
Citation Envoyé par weed Voir le message
Il faudrait intérroger longuement les DSI des grands groupes, des institutions publics qui font les choix des OS. Connaitre la vrai raison de l'usage de tel OS plutot qu'un autre. Je reste persuadé qu'il y a du lobby, et donc on ne peut pas partler de lobby.

Après il ne faut pas allé dans l'exagération de dire qu'il est le buggé. Aller dans les extrèmes n'est jamais bon. Il faut avant tout de la diversité, et ne pas avoir de dés pipés sur le marché des OS..
Parler de "lobby"? Mais c'est proprement scandaleux comme affirmation

Par contre les petits week-end prolongés pour Monsieur et madame, tout frais payé, débutant le jeudi jusqu'au lundi suivant, dans un hôtel de luxe, dans un pays chaud pour présenter une nouvelle solution à quelques DSI bien choisis, présentation qui dure 1 heure sur toute la durée du week-end, sans qu'une présence soit exigée... ça oui! Mais franchement parler de "lobby"
4  0 
Avatar de Zefling
Expert confirmé https://www.developpez.com
Le 22/07/2024 à 23:26
Quand je vois comment ça se passe, j'ai l'impression que les clients sont les beta-testeurs maintenant.
Nous, pour réduire au maximum les coûts, on va de plus en plus vers les zéro QA.
Il faut tout faire avec des tests, sauf qu'un développeur ne teste pas la même chose qu'un QA. Et je me rends bien compte avec les temps que c'est 2 domaines biens différents.
4  1 
Avatar de phil995511
Membre éprouvé https://www.developpez.com
Le 23/07/2024 à 14:25
Citation Envoyé par denisys Voir le message
Avec une bonne paire de lunette.
En relisant le titre de l’article.
L’article parle de Linux !!
On ne vous a semble-t-il ni appris la courtoisie, ni le respect des autres ;-(

Part ailleurs il n'y a aucune allusion à Linux dans l'article du 23 juillet 2024 "Les coûts de la panne mondiale provoquée par CrowdStrike pourraient dépasser le milliard de dollars".
3  0 
Avatar de weed
Membre chevronné https://www.developpez.com
Le 24/07/2024 à 0:22
Citation Envoyé par Eric80 Voir le message
ce qui est bien plus pertinent que des solutions tjs connectées.

Le gars ds l interview parle bien des systèmes Microsoft imposés dans les différents ministères, dont la défense. Comme il dit, pour des raisons évidentes de souveraineté, l armée se méfie énormément de Windows et fait tout pour éviter que les infos transitent trop vers MS et la NSA...
Sauf que l'amrée utilisent beaucoup de Microsoft, ils ont eu un gros contrat Microsoft en open bar, cela a fait pas mal scandale.
L'insitution qui a su mettre un stop est la gendarmerie mais en aucun cas l'armée.
3  0 
Avatar de weed
Membre chevronné https://www.developpez.com
Le 24/07/2024 à 0:27
Citation Envoyé par phil995511 Voir le message
En plus de Windows ou Linux il y a aussi Unix et Mac OS me semble-t-il... mettre tous ses oeufs dans le même panier peut en effet être potentiellement risqué mais faire confiance à l'OS le plus buggé et le plus piraté de l'histoire est à mes yeux encore plus risqué...
Il faudrait intérroger longuement les DSI des grands groupes, des institutions publics qui font les choix des OS. Connaitre la vrai raison de l'usage de tel OS plutot qu'un autre. Je reste persuadé qu'il y a du lobby, et donc on ne peut pas partler de lobby.

Après il ne faut pas allé dans l'exagération de dire qu'il est le buggé. Aller dans les extrèmes n'est jamais bon. Il faut avant tout de la diversité, et ne pas avoir de dés pipés sur le marché des OS..
3  0 
Avatar de AaâÂäÄàAaâÂäÄàAaâÂäÄ
Membre expérimenté https://www.developpez.com
Le 24/07/2024 à 19:34
Les procédures de test ne sont pas testées...
Ce qui est assez drôle mais que ne m'aurait pas fait rire vendredi !
3  0