Par Jean-François Riverin: Expert en génie logiciel et cofondateur de Zentelia
8 août 2024
Par un beau vendredi matin de juillet, comme tous les matins depuis un peu plus d’un an, George, un technicien de CSK, la plus grande firme de logiciels de sécurité et de protection au monde, pousse la mise à jour hebdomadaire du système. Le système de mise à jour automatique utilise un algorithme avancé de déploiement sans intervention humaine, garantissant la sécurité de millions de systèmes critiques. Confiant que la tâche va s’accomplir, George s’en va prendre son café et son croissant. Il est convaincu que dans quelques minutes, aux quatre coins du monde, d’importants systèmes seront protégés contre les différents types d’attaques et les nouveaux virus qui émergent en quantité croissante et sont de plus en plus menaçants pour la sécurité des pays et des organisations, notamment les compagnies d’aviation comme Delta Air Lines. George est loin d’imaginer la suite d’événements dramatiques qui s’ensuivra. Une panne informatique mondiale.
Une quinzaine de minutes plus tard, pendant que George termine son petit déjeuner, les systèmes du monde entier sont mis à jour, démontrant l’efficacité du système appelé « SENTINEL ». Cependant, au fur et à mesure du déploiement, une incompatibilité avec une correction récente du système d’exploitation provoque une série d’erreurs critiques dans les pilotes de périphériques essentiels. Et George n’est pas au courant. Les systèmes d’exploitation mis à jour cessent de fonctionner un à un en raison d’une mauvaise gestion des dépendances et de la corruption des fichiers système. Tous les voyants pour le déploiement étaient pourtant au vert, et le système automatisé de détection des défauts basé sur « Guardian-AI », une plateforme de test utilisant l’intelligence artificielle, n’a pas réagi. La version a été déployée automatiquement sur les serveurs infonuagiques, affectant des millions d’utilisateurs. Avant même que George ne retourne à son poste, des millions d’utilisateurs se retrouvent devant une interface bleue, connue sous le nom de « The Blue Screen of Death ». L’alerte résonne à l’échelle mondiale. Il est trop tard pour des millions d’utilisateurs de systèmes informatiques critiques de multinationales telles qu’Amazon et la compagnie aérienne Delta, de même que de nombreux hôpitaux et leurs fournisseurs de services. Par ce beau vendredi de juillet, des milliers de vols seront annulés, les principaux établissements de santé reporteront les procédures chirurgicales non urgentes, et, oh, même les commandes mobiles des restaurants et cafés cesseront de fonctionner, laissant les gens sans leur dose de caféine! Trop, c’est trop!
Trois jours après l’événement, des vols sont encore annulés et les compagnies aériennes les plus touchées prendront plusieurs jours supplémentaires avant de retrouver leur fonctionnement normal. Les organismes gouvernementaux responsables des transports du monde entier enquêteront sur la résilience de ces compagnies aériennes. À l’échelle humaine, prenons l’exemple de Sarah, une passagère bloquée à l’aéroport d’Atlanta pendant quatre jours incapable de rentrer chez elle. Son témoignage met en lumière la frustration des utilisateurs finaux : « Je n’ai jamais imaginé qu’en 2024, une seule mise à jour logicielle pourrait nous paralyser aussi longtemps. C’était le chaos absolu et on ne pouvait même pas se commander à boire ou à manger à l’aéroport ». Pour notre ami George, les conséquences sont tout autres : il a passé la fin de semaine au bureau, il n’a pas pu être présent à l’anniversaire de sa fille et il souffre d’un manque de sommeil chronique. Lundi matin, il n’avait pas dormi depuis vendredi, jusqu’à ce qu’un de ses collègues l’oblige à aller prendre un peu de repos.
Ce cas est fictif, mais il s’inspire de la réalité! Ce qui s’est passé 19 juillet 2024 m’a ébranlé. Comptant plus de 25 ans d’expérience en développement logiciel et ayant cofondé une entreprise de consultation spécialisée en prévention et en qualité logicielle, je prends la liberté d’imaginer comment cette panne a pu être vécue de l’intérieur, tant du point de vue du fournisseur à l’origine de la défectuosité que de celui des clients affectés. Cet incident majeur concerne le logiciel Falcon de CrowdStrike. En effet, on parle d’un « crash » d’écrans à l’échelle mondiale, affectant près de 8,5 millions d’utilisateurs des systèmes Microsoft, les laissant pantois devant une interface bleue, la fameuse « Blue Screen of Death ».
Avec George, l’employé fictif de CSK, nous nous pencherons sur les causes du bogue et les mesures à prendre pour éviter que cela ne se reproduise. George, visiblement épuisé, s’adresse à Zoe : « Je ne comprends toujours pas comment c’est arrivé. Le système était conçu pour détecter automatiquement toutes les failles possibles. » Zoe, experte en ingénierie des logiciels et spécialiste des tests, lui répond : « Il y a toujours des failles imprévues, car on ne peut pas tout tester, il faut choisir. Ce qui importe maintenant, c’est de comprendre les racines de ce problème et d’implémenter des solutions pour éviter que cela ne se reproduise ». Ensemble, ils mettront en place des processus et pratiques résilients pour protéger CSK et ses clients. Zoe l’aidera à adopter des pratiques de développement logiciel rigoureuses et fiables, telles que l’utilisation systématique de tests unitaires et d’intégration, la mise en œuvre de revues de code approfondies et l’adoption de pipelines CI/CD robustes et bloquants. Elle mettra également en œuvre les vérifications des systèmes et des validations d’acceptation, tout en mettant adéquatement à profit les « utilisateurs impatients » dans des tests bêta simples et rapides. L’analyse des causes racines permettra une identification de la faille du système de tests, tout aussi importante à vérifier et à valider que le logiciel lui-même, ainsi qu’une gestion des risques appropriée et la mise en place d’une couverture de tests adéquate et efficace.
Comme il y a toujours deux faces à une médaille, un second volet sera examiné dans lequel nous explorerons les leçons à retenir du point de vue du client. Nous retrouverons Ed, directeur de la qualité et des affaires réglementaires de la compagnie aérienne Epsilon, qui dépend de nombreux fournisseurs importants et qui a subi la défaillance du logiciel de sécurité de CSK. Depuis la panne, la crédibilité d’Ed est mise à rude épreuve. Monica, membre de la gouvernance, le bombarde de questions, car elle doit fournir de nombreux documents et preuves aux différentes instances de surveillance et de défense des consommateurs.
« Où sont les plans de contingence, Ed? Quand ont-ils été mis à l’épreuve pour la dernière fois? », demande Monica avec insistance.
Reconnaissant les lacunes de son département, Ed s’est adjoint les services de Talia, une conseillère experte en qualité spécialisée en logiciels. Talia suggère à Ed de mettre en place des pratiques de continuité des affaires, cruciales pour l’entreprise. Cela inclut l’élaboration de plans de reprise après sinistre, l’évaluation régulière des risques et l’adoption de systèmes redondants pour garantir le fonctionnement continu des opérations critiques. Par exemple, Talia recommande des tests de récupération réguliers pour s’assurer que les plans de reprise après sinistre sont efficaces et à jour. Elle insiste également sur la nécessité de former le personnel aux procédures de continuité des affaires et de documenter toutes les actions correctives prises après la panne.
« Nous devons également cibler les points faibles dans nos processus de gestion des risques », souligne Talia. « Utiliser des tableaux de bord de gestion en temps réel nous permettra de surveiller en continu les menaces et les vulnérabilités. »
Elle propose aussi de tenir des audits de sécurité réguliers pour détecter et corriger les failles avant qu’elles ne deviennent des problèmes majeurs. En outre, elle recommande l’intégration de technologies de surveillance avancées pour une détection proactive des anomalies.
Grâce aux suggestions de Talia et à son accompagnement, Ed et son équipe pourront renforcer la résilience de la compagnie Epsilon. Ils pourront aussi améliorer la communication avec les parties prenantes, en fournissant des rapports détaillés sur les actions prises pour prévenir de futures pannes. Cela permettra de restaurer la confiance des clients et des régulateurs, tout en assurant une meilleure préparation pour les futurs défis.
Cette approche nous permettra d’aborder la gestion du risque dans les grandes organisations privées et gouvernementales, et nous permettra ensuite de comprendre comment ces politiques, stratégies et plans s’élaborent jusqu’à la mise en œuvre de mesures, méthodes, techniques et pratiques pour atténuer ces risques.
À suivre.
Ne laissez pas un incident similaire compromettre votre entreprise.
Si vous vous identifiez à Ed ou à George, ne prenez pas le risque d’attendre qu’une catastrophe survienne. Chez Zentelia, nos experts comme Zoé et Talia sont prêts à vous aider à renforcer la résilience et la qualité de vos systèmes logiciels.
Protégez votre entreprise dès aujourd’hui :
Consultation gratuite : Découvrez comment nos solutions peuvent prévenir les pannes, améliorer la qualité de vos logiciels et protéger vos investissements.
Expertise personnalisée : Bénéficiez des conseils et de l’accompagnement hors pair de nos experts pour mettre en place des processus robustes et efficaces.
Prévention proactive : Inscrivez-vous à nos formations en ingénierie des exigences, en gestion de la qualité et des risques et plus encore pour doter votre équipe des compétences nécessaires afin d’adopter des pratiques rigoureuses de développement.
Consultez notre site Web et demandez une consultation gratuite dès maintenant. Inscrivez-vous également à nos formations pour outiller votre équipe qui se prête à faire face aux défis de demain. Ensemble, faisons de la qualité une priorité pour garantir la continuité et la sécurité de vos opérations.
Comments