Comment une erreur de Load Balancing a mis hors service des milliers de services

Le 20 octobre 2025, internet a été témoin de l'une des plus grandes pannes numériques de l'histoire récente. Pendant plus de huit heures, des milliers de services sont tombés en panne ou ont connu une instabilité sévère. Le coupable ? Un problème dans le système de load balancing d'Amazon Web Services (AWS), le plus grand fournisseur d'infrastructure cloud au monde.

Snapchat, Fortnite, PicPay, iFood, Mercado Livre et d'innombrables autres services ont été affectés. Mais que s'est-il exactement passé ? Et pourquoi un seul problème chez AWS peut-il causer un effet domino aussi dévastateur ?

La panne

À 4h12 (heure de Brasília), les premiers signalements de problèmes ont commencé. AWS a identifié une défaillance critique dans un sous-système interne responsable de la surveillance de l'intégrité des équilibreurs de charge réseau dans la région US-EAST-1, située dans le nord de la Virginie, aux États-Unis.

Cette région représente la plus grande concentration de centres de données au monde, avec près de 400 installations. Offrant les prix les plus bas au monde (grâce à des exonérations fiscales), US-EAST-1 est extrêmement populaire parmi les entreprises brésiliennes et internationales. On estime qu'une grande partie des données traitées par les services brésiliens passent par là.

Le problème initial a affecté DynamoDB, la base de données centrale d'AWS, et s'est rapidement propagé à d'autres services critiques comme EC2 (serveurs virtuels) et Lambda (exécution de code sans serveur). Ces services étant la base de milliers d'applications, l'impact a été immédiat et mondial.

Chronologie

Les premiers signalements de problèmes ont commencé à 04h12 du matin. Moins de 40 minutes plus tard, à 04h51, AWS a confirmé l'augmentation des erreurs et de la latence dans ses systèmes. À 05h26, le problème a été identifié dans DynamoDB, la base de données centrale de la plateforme. L'application des premières corrections a débuté à 06h22, mais le problème était loin d'être résolu.

La situation s'est considérablement aggravée à 11h14, lorsque le statut du système a été changé en "en détérioration". Ce n'est qu'à 12h43 qu'AWS a réussi à identifier la cause racine : le sous-système de surveillance des load balancers. Des mesures d'atténuation supplémentaires ont été appliquées à 13h13, mais les dégâts étaient déjà faits.

Plus de 6,5 millions de notifications ont été enregistrées sur DownDetector tout au long de la journée. Selon Amazon, 91 services internes d'AWS ont été impactés simultanément, créant un effet en cascade qui s'est propagé sur tout internet.

Qu'est-ce que le Load Balancing ?

Imaginez un restaurant avec une seule caisse. Si 50 personnes arrivent en même temps, une énorme file d'attente se forme et le service devient lent. La solution ? Ouvrir plus de caisses et répartir les clients entre elles intelligemment.

Le load balancing (équilibrage de charge) est exactement cela, mais pour les serveurs. C'est une technique fondamentale qui distribue le trafic réseau ou les requêtes d'applications entre plusieurs serveurs, garantissant qu'aucun serveur ne soit surchargé tandis que d'autres restent inactifs.

Comment ça fonctionne

Un load balancer agit comme un "portier intelligent" qui se situe entre les utilisateurs et les serveurs. Lorsque vous accédez à un site web ou une application, votre requête ne va pas directement à un serveur spécifique—elle passe d'abord par le load balancer, qui décide quel serveur est le mieux positionné pour la traiter.

[Utilisateur] → [Load Balancer] → [Serveur 1]
                                → [Serveur 2]
                                → [Serveur 3]
                                → [Serveur 4]

Stratégies de distribution

Il existe différents algorithmes pour décider quel serveur doit recevoir chaque requête. La méthode Round Robin, par exemple, distribue les requêtes de manière circulaire, en envoyant une à chaque serveur en séquence. L'algorithme Least Connections envoie chaque nouvelle requête au serveur avec le moins de connexions actives à ce moment, équilibrant mieux la charge réelle.

D'autres stratégies incluent IP Hash, qui utilise l'adresse IP du client pour déterminer de manière cohérente quel serveur le traitera, et la méthode Weighted, qui distribue le trafic en fonction de la capacité de chaque serveur. Il existe également le routage Geographic, qui dirige les utilisateurs vers des serveurs géographiquement plus proches, réduisant la latence.

Health Checks

Un aspect critique des load balancers est la surveillance de l'intégrité, connue sous le nom de health check. Le balanceur vérifie constamment si chaque serveur est sain et prêt à recevoir du trafic. Lorsqu'un serveur répond rapidement, il reçoit la charge normale de requêtes. Si le serveur commence à devenir lent ou présente des erreurs, le load balancer réduit automatiquement la quantité de trafic qui lui est dirigée. Et lorsqu'un serveur tombe complètement en panne, il est immédiatement retiré de la rotation, garantissant qu'aucun utilisateur n'est affecté.

C'est précisément dans ce système de surveillance que la défaillance d'AWS s'est produite.

Pourquoi est-ce critique ?

Le load balancing est fondamental pour maintenir internet en fonctionnement de manière fiable et efficace. Premièrement, il garantit une haute disponibilité : si un serveur tombe en panne, le load balancer redirige automatiquement le trafic vers des serveurs sains, et les utilisateurs ne remarquent même pas qu'il y a eu un problème. Cette capacité de récupération automatique est essentielle pour les services qui ne peuvent pas s'arrêter.

L'évolutivité est un autre avantage crucial. Lorsqu'il est nécessaire de servir plus d'utilisateurs, il suffit d'ajouter plus de serveurs au pool et le load balancer distribue automatiquement le trafic vers eux. Il n'est pas nécessaire de reconfigurer toute l'infrastructure ou de faire des changements complexes.

De plus, distribuer la charge entre plusieurs serveurs évite que l'un d'entre eux ne soit surchargé, maintenant des temps de réponse rapides et cohérents pour tous les utilisateurs. Cela impacte directement l'expérience de l'utilisateur final, qui perçoit le service comme rapide et réactif.

Enfin, le load balancing offre une flexibilité pour la maintenance. Il est possible de retirer des serveurs du pool pour des mises à jour, des corrections ou des améliorations sans mettre hors service l'ensemble du service. Le load balancer cesse simplement d'envoyer du trafic vers ces serveurs temporairement, permettant une maintenance sans interruption.

Ce qui n'a pas fonctionné

Selon Amazon, le problème se trouvait dans un sous-système interne responsable de la surveillance de l'intégrité des équilibreurs de charge réseau.

En termes simples : le système qui vérifiait si les load balancers fonctionnaient correctement a commencé à avoir des problèmes. Cela a créé un effet en cascade dévastateur. D'abord, le système de surveillance a échoué, faisant que les load balancers ont commencé à recevoir des informations incorrectes sur l'état de santé des serveurs. Avec des données erronées, les requêtes ont été envoyées à des serveurs qui ne pouvaient pas les traiter correctement.

La situation s'est aggravée lorsque de nouvelles instances EC2 ne pouvaient plus être créées. AWS a dû limiter cela intentionnellement pour éviter une détérioration encore plus importante du problème. Les services qui dépendaient de ces ressources ont commencé à échouer en séquence. DynamoDB, Lambda et d'autres services critiques sont devenus instables, et comme des milliers d'applications dépendent directement de ces services fondamentaux d'AWS, elles ont également cessé de fonctionner, créant la panne généralisée qui a affecté les utilisateurs du monde entier.

L'effet domino

AWS détient 37% du marché mondial du cloud. Lorsqu'il tombe en panne, ce n'est pas seulement "un site web" qui est hors service—c'est une infrastructure qui soutient une grande partie d'internet moderne.

Pensez-y ainsi : si AWS était une compagnie d'électricité, ce serait comme si un problème dans une centrale électrique causait une panne de courant dans toute une région métropolitaine. Peu importe si votre maison a de bons câbles ou des équipements modernes—sans électricité de la source, rien ne fonctionne.

Conclusion

La panne d'AWS d'octobre 2025 a été un rappel que même les systèmes les plus sophistiqués peuvent échouer—et lorsqu'ils échouent dans des composants critiques comme les load balancers, l'impact est massif.

Le load balancing n'est pas seulement une technique d'optimisation ; c'est la colonne vertébrale d'internet moderne. C'est ce qui permet à des milliards de personnes d'accéder à leurs services préférés simultanément sans que tout s'effondre.

Besoin d'aide pour architecturer des systèmes résilients ? Chez Tucupy, nous aidons les entreprises à construire des infrastructures robustes qui résistent aux pannes et évoluent en toute confiance. Contactez-nous pour discuter de votre projet.