Panne AWS, ce que les équipes logicielles doivent retenir, redondance cloud, tests de bout en bout, reprise des pipelines CI/CD

Résumé: La panne AWS a démarré par une défaillance DNS qui a révélé des dépendances cachées en Europe. Que doivent retenir les équipes de développement logiciel sur mesure, au-delà de l’appel classique à la redondance cloud? Nous mettons l’accent sur les tests de bout en bout, l’intégrité des pipelines CI/CD, et l’organisation des rôles pour maintenir la stabilité et accélérer la reprise.

La semaine dernière, nous avons analysé le risque plateforme, et Amazon Web Services a subi une perturbation mondiale centrée sur US-EAST-1 qui a dégradé plus d’une douzaine de services et impacté des applications grand public et entreprises. Le Monde a évoqué des problèmes DNS, avec des premières alertes à 00:11. Même si le DNS a été « totalement atténué » à 02:24, des pannes en cascade sur Elastic Compute Cloud (EC2) sont apparues vers 03:35. Un second incident majeur, les sondes de santé Network Load Balancing (NLB), est survenu entre 07:00 et 08:00. AWS a respecté ses SLA, cependant de nombreux sites ont signalé 12 à 15 heures d’indisponibilité.

Effets mondiaux et panique en Europe

La réaction en Europe a été immédiate et visible.

« Mon robot aspirateur ne marche plus, et quelqu’un peut m’expliquer pourquoi un robot à Paris dépend de serveurs aux États-Unis? » a écrit Ulrike Franke, chercheuse senior au sein de l’European Council on Foreign Relations (ECFR). Son post est devenu viral, car il résumait en deux lignes l’absurdité de cette dépendance.

Les décideurs publics ont réagi dans le même sens. Selon Yahoo Actualités, la panne mondiale d’AWS a mis en évidence la dépendance croissante à l’infrastructure d’Amazon, rappelant qu’un simple incident technique peut perturber des millions d’utilisateurs et d’entreprises dans le monde entier.

Vous n’avez pas acheté AWS directement. Votre fournisseur non plus. Un fournisseur de votre fournisseur, oui.

La chaîne d’interdépendances est apparue dès la dégradation d’US-EAST-1, et un service « européen » a hérité d’une panne distante. Le robot parisien pointait en réalité vers Data Center Alley, en Virginie du Nord.

Le jeu du blâme IA : qui a codé, qui a testé ?

Un post d’ingénierie sur Reddit a résumé avec ironie: « Le junior IA a commité le changement, le senior IA l’a relu, le test lead IA l’a validé, et le DevOps IA l’a poussé en prod. »

Les développeurs IA font tout. Ils écrivent du code avec Claude et Codex CLI, et génèrent les tests unitaires. Sundar Pichai estime que l’IA produit plus d’un quart du nouveau code chez Google. Satya Nadella annonce une part encore plus élevée chez Microsoft. Andy Jassy est resté silencieux sur le code d’Amazon, mais le CEO d’AWS a été cité dans le scandale du code généré par l’IA.

Les hyperscalers embauchent-ils encore les meilleurs?

Amazon, Google, Microsoft, et désormais Meta, tiennent à recruter des ingénieurs « all-star ». Des talents de niveau mondial et des processus innovants soutiennent leur prestige, et ils paient le prix fort. Chez Google ou Amazon, les ingénieurs senior atteignent 520 000 $, les niveaux staff et principal dépassent souvent 700 000 $. Ce surcoût reflète la complexité des systèmes, et place chaque ingénieur sous une pression accrue, travail passé au microscope.

La stratégie « all-star » fonctionne pour les clubs de football les plus riches et pour les méga-entreprises IT/IA. La plupart des entreprises « normales », éditeurs ou prestataires, excellent plutôt avec des équipes multifonctionnelles. La combinaison d’architectes systèmes, développeurs front-end et back-end, QA automatisée et ingénieurs DevOps résout les problèmes clients sans exiger un budget « all-star ».

La disparition curieuse de l’ingénieur QA

L’autre effet de cette logique « all-star », c’est la réduction des postes QA dédiés chez les grands acteurs cloud au cours de la dernière décennie. La hausse du coût des visas H-1B, historiquement attribués en majorité à des ingénieurs QA venus d’Inde, accélère la disparition de cette espèce déjà menacée. La qualité est désormais intégrée aux workflows des développeurs et à l’automatisation, et beaucoup d’équipes affichent fièrement zéro QA. Le rôle du sceptique, celui qui ose remettre en question les hypothèses, disparaît rapidement.

Culturellement, on part du principe qu’un ingénieur all-star ne fait pas d’erreur, comme Messi ne marque pas contre son camp. Les tests manuels sont relégués à l’exploration, parfois rejetés comme un anachronisme. Après tout, quel ingénieur respectable voudrait encore inscrire « test manuel » sur son CV ? Résultat : les bugs réapparaissent au pire moment, en production.

Pourquoi même d’excellents pipelines CI/CD échouent?

Un pipeline CI/CD tombe quand ses hypothèses cèdent en séquence. Ces cascades partent souvent d’un petit changement. En juillet 2024, CrowdStrike a expédié un contenu défectueux qui a touché des millions de Windows, écran bleu à la clé. Contrôles insuffisants, déploiement non étagé, rayon d’explosion immense. Différents environnements, différents processus, mais au final le résultat est le même : des millions de systèmes hors ligne.

Nouveau principe: connaître son pipeline CI/CD

Nous travaillons dans l’assurance et d’autres secteurs régulés. Les sinistres, l’onboarding et le service client sont des obligations à la fois légales et réputationnelles. Les pannes ne sont pas abstraites. L’approche ci-dessous reflète cette réalité et place le DevOps au centre, avec la QA intégrée dans la livraison plutôt que traitée comme une étape séparée.

1) Pipelines CI/CD que l’on peut expliquer, exploiter et restaurer

Dans l’assurance, les pipelines sont le vrai système de production. Nous concevons des chaînes simples, traçables et opérables sous stress. Chaque étape, du build au release, reste maîtrisée et récupérable. Résultat : les équipes voient ce qui tourne, corrigent ce qui casse et rétablissent vite le service.

CI/CD infinity animation Three dots orbit an infinity path to suggest feedback flowing from production to integration and back.
SYNCED CI|CD LOOPS 
Regular Releases » Unified Codebase
Automated Tests « QA and Security
TINQIN LOOP
DevSecOps Pipeline
Execution & Delivery
CLIENT LOOP
Production Pipeline
Validation & Discovery

2) Tests de bout en bout qui supposent des pannes partielles

Un test bout en bout a de la valeur seulement s’il reflète l’exploitation réelle. L’objectif est de confirmer que les parcours essentiels tiennent quand la plateforme ralentit, renvoie des données périmées, ou coupe les connexions.

Nous mettons en place des cadres de test qui simulent ces contraintes pour préserver les chemins critiques quand les dépendances dysfonctionnent. Nous concevons une télémétrie indépendante de la région testée, pour garder la visibilité pendant une panne et refléter ce que vivent les utilisateurs, pas seulement ce que rapporte la plateforme.

3) Le budget de redondance cloud est l’angle mort

La panne AWS a montré qu’une dépendance régionale peut se diffuser entre services et continents. La vraie redondance dépasse la sauvegarde. Elle sépare régions, comptes et racines d’identité, afin que les charges critiques continuent quand un plan de contrôle vacille. Tout ne doit pas être multi-région ou multi-cloud, les composants critiques si.

Nous traitons la résilience d’infrastructure dès la phase de conseil et d’architecture. Nous cartographions les dépendances, isolons les charges de travail critiques et concevons les bascules conformes aux exigences de performance et de régulation. Le résultat est une redondance opérationnelle, pas un schéma décoratif.

À cinq ans: quels rôles d’ingénierie logicielle?

Après CrowdStrike, focus sur « le fichier qui a cassé Windows ». Après US-EAST-1, focus sur « la dépendance à AWS a cassé Internet ». Le premier cas ressemblait à un manque QA clair. Le second interroge la résilience de chaque maillon externe d’un pipeline CI/CD, aujourd’hui presque tous.

Division du travail humain

Les hyperscalers ont accru leur vélocité de développement en misant sur des ingénieurs all-star et sur l’automatisation de la qualité. Leurs profits battent des records, difficile donc de contester la méthode. Mais le talent de niveau mondial reste rare par définition. Les autres entreprises doivent compter sur des ingénieurs expérimentés et talentueux, même s’ils ne gagneront jamais de prix Nobel comme Demis Hassabis.

Division du travail de l’IA

Si la trajectoire actuelle de l’IA se poursuit, une grande partie du travail IT passera aux agents et systèmes automatisés. La panne d’AWS en est un avant-goût du banquet de désastre qui nous attend dans cinq ans, lorsque la majorité du code sera écrite et maintenue par l’IA. Le travail s’interromprait, car de nombreux services dépendraient de la même usine d’IA, alimentée par des puces NVIDIA.

Peut-être qu’à ce moment-là, chacun disposera d’un NVIDIA DGX Spark, déjà capable d’exécuter des modèles de 200 milliards de paramètres. Même avec une IA locale et puissante, la question de la responsabilité dans le développement logiciel restera ouverte.

Le mandat opérationnel: principes SDLC pour la résilience cloud

Le but n’est pas de faire la leçon à un hyperscaler. L’enjeu est d’apprendre et d’appliquer là où cela compte. Cette approche s’inscrit dans une véritable philosophie de l’ingénierie, fondée sur l’analyse des causes, la résilience opérationnelle et la rigueur du cycle SDLC. Nous revisitons ces principes qui structurent nos missions, avec une pertinence particulière pour l’assurance et la finance.

  • Conseil et cadrage. Impliquer les parties prenantes pour définir la proposition de valeur, les processus critiques et les contraintes budgétaires avant la conception.
  • Expertise assurance. Maîtrise approfondie des exigences opérationnelles, légales et de conformité des données dans le secteur de l’assurance.
  • Cartographie réglementaire européenne. Assurer l’alignement strict avec le RGPD, DORA et les obligations de résidence des données dès le lancement du projet.
  • Architecture résiliente. Structurer les applications pour garantir la continuité d’activité et la tolérance aux pannes.
  • CI/CD structuré. Segmenter les pipelines de déploiement pour les systèmes critiques et périphériques.
  • Tests de bout en bout. Valider les parcours utilisateurs essentiels, y compris sous charge ou en conditions dégradées.
  • Automatisation QA. Utiliser AutoQA pour transformer les critères d’acceptation en tests exécutables.
  • Équipes DevOps agnostiques cloud. Déployer avec expertise les systèmes nécessitant une redondance multi-cloud.
  • Cybersécurité et supervision. S’appuyer sur nos centres d’exploitation, certifiés ISO 27001, pour renforcer l’observabilité et surveiller les menaces ainsi que la performance des systèmes sur l’ensemble du cloud.

Récapitulatif: la panne AWS rouvre le débat sur le coût EC2 et les arbitrages de dépendance. Elle rappelle que même des infrastructures avancées peuvent trébucher, et que la reprise à l’échelle est possible quand automatisation, visibilité et coordination fonctionnent. Nos équipes opérant déjà sur plusieurs clouds, nous aidons nos clients à concevoir des systèmes multi-cloud ou agnostiques qui équilibrent performance, coûts et résilience. Nos prestations AWS incluent observabilité et monitoring, en complément d’un SOC.