Yandex subit une chute historique de son centre de données à Moscou à cause d’une panne électrique

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Une interruption de service sans précédent, touchant Yandex Cloud et d’autres services essentiels, a été causée par une double panne dans la station de soutien, ce qui la rend unique dans son ampleur depuis 15 ans.

Le 30 mars, le principal centre de données de Yandex a subi une panne de service remarquable, affectant plusieurs de ses services, y compris sa plateforme cloud Yandex Cloud. Selon un communiqué officiel et un billet détaillé sur son blog technique Habr, cet incident a été attribué à une défaillance simultanée des deux lignes d’alimentation de haute tension provenant d’une sous-station située près de Moscou.

Ce centre de données, inauguré dans les années 2010 sur un ancien site industriel, était stratégiquement situé à proximité d’une sous-station de 220 kV, qui n’avait jusqu’alors jamais enregistré de pannes depuis son ouverture en 1960. Yandex avait mis en place deux lignes d’alimentation indépendantes de 110 kV, censées garantir suffisamment de redondance pour éviter les interruptions. Cependant, les deux lignes ont échoué simultanément, entraînant ce que l’entreprise qualifie d’événement avec une probabilité d’occurrence d’une fois tous les 20 ans.

Une coupure électrique qui a mis à l’épreuve tous les systèmes

La coupure, débutée à 12h25 (heure locale), a nécessité l’activation des générateurs diesel d’urgence et a conduit à dépendre des systèmes DUPS (sources d’alimentation ininterrompue diesel-rotatives). Bien que les éléments critiques comme l’infrastructure réseau et les services de surveillance aient continué de fonctionner, la zone de disponibilité ru-central1-b de Yandex Cloud a été complètement inactive pendant plusieurs heures. Certains services déployés dans plusieurs zones ont également rencontré des problèmes de disponibilité.

La réactivation de l’alimentation par la sous-station a eu lieu à 15h30, et le processus de réactivation complète de l’infrastructure et des services s’est prolongé jusqu’à minuit le lendemain. La complexité de la procédure, nécessitant des validations manuelles et une supervision directe des ingénieurs, a rallongé le temps de récupération.

Leçons et mesures futures

Yandex a annoncé que cet événement avait conduit à une révision complète de son modèle de résilience énergétique, incluant la possibilité d’ajouter un troisième niveau de secours basé sur des générateurs, en plus des deux existants. La société mettra également en œuvre des exercices de récupération après sinistre plus rigoureux, avec des simulations de pannes doubles, et améliorera l’automatisation des processus de démarrage à froid de ses systèmes.

Parallèlement, Yandex continuera de renforcer les outils de résilience multizone dans Yandex Cloud. Parmi eux, “Zonal Shift”, une technologie de redirection de trafic qui a déjà prouvé son efficacité en permettant aux clients avec des architectures distribuées de mitiger l’impact en redirigeant automatiquement les charges vers d’autres zones disponibles.

Un avertissement pour toute l’industrie

L’incident a servi de rappel pour les opérateurs d’infrastructures critiques : même les systèmes les plus robustes peuvent échouer si les risques exceptionnels ne sont pas pris en compte. « Le multizone n’est plus une option, c’est une nécessité pour tout service critique », a averti Yandex dans son rapport.

L’entreprise, souvent qualifiée de “Google russe”, opère cinq centres de données dans le pays, situés à Vladimir, Sasovo, Ivanteevka, Mytishchi et Kaluga Oblast, ce dernier ayant été récemment inauguré avec une capacité de 63 MW. Depuis sa séparation structurelle de ses opérations européennes, désormais sous le nom de Nebius, Yandex a renforcé son engagement envers l’amélioration de son infrastructure en Russie.

Bien que cet événement ait été contrôlé sans pertes significatives, il servira de cas d’étude pour l’ensemble de l’industrie technologique, illustrant l’importance d’une planification extrême, d’une redondance appropriée et de la transparence dans la gestion des incidents critiques.

Source : HABR et DCD