Corée du Sud apprend à ses dépens l’importance des sauvegardes : un incendie détruit 858 To sans sauvegarde sur le G-Drive gouvernemental

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Un incendie de batteries au National Information Resources Service (NIRS) à Daejeon, le 26 septembre, a provoqué l’une des pertes de données les plus graves enregistrées dans une administration moderne : 858 To d’informations sur le G-Drive —le « disque en ligne» pour les fonctionnaires— ont été complètement détruits et sans copie de sauvegarde. La panne a impacté 96 systèmes gouvernementaux, dont 95 disposaient de sauvegarde. Le seul sans sauvegarde, G-Drive, regroupait le travail de 125 000 employés publics de 74 ministères, avec une utilisation estimée à 17 % du corps administratif central.

Le point central de l’incendie était une salle contenant 384 paquets de batteries, qui a dévasté une grande partie d’une unité de stockage, laissant en panne des services critiques : courrier officiel, service postal en ligne, sites web ministériels, le système de réclamations et pétitions et même le 112 (urgences), selon les premiers bilans. À six jours de l’incident, seulement 16–18 % des 647 systèmes hébergés à la base avaient été restaurés ; le G-Drive demeurait inatteignable en raison de l’absence totale de sauvegardes.

Un “disque du Gouvernement” dépourvu de plan B

Créé en 2017 pour partager des documents (avec 30 Go par utilisateur) et renforcer la sécurité, le G-Drive a peu à peu remplacé le stockage local : une directive du Ministère de l’Intérieur et de la Sécurité enjoignait de ne pas sauvegarder le matériel de travail sur les PC de bureau et de le centraliser sur cette plateforme. La paradoxe est saisissante : le système recommandé pour archivage ne disposait pas de sauvegarde. Une source ministérielle a même justifié en disant que “il ne pouvait pas avoir de copie en raison de sa grande capacité”. À l’échelle des centres de données, 858 To ne sont pas exceptionnels : aujourd’hui, on manipule couramment des pétabytes avec réplication et snapshots.

Les conséquences touchent profondément des domaines comme la gestion du personnel —outil intensif de G-Drive— : huit ans de documents auraient pu disparaître, y compris les comptes rendus internes, la documentation pour l’Assemblée Nationale et potentiellement des données personnelles (vérifications, dossiers disciplinaires). Bien que des systèmes transactionnels tels que e-Person soient hébergés ailleurs (Gwangju), il n’existe pas de recensement précis de ce qui a été détruit : des équipes fouillent PCs, courriels et documents physiques pour reconstituer le peu qui reste opérationnel. L’audit de l’Assemblée prévu ce mois pourrait être compromis par l’incapacité à transmettre la documentation demandée.

Des copies… mais pas toujours ni à jour

Le NIRS a indiqué qu’avant l’incendie, 62 % des 647 systèmes étaient sauvegardés quotidiennement, alors que les 38 % restants l’étaient mensuellement. Dans certains cas, la dernière sauvegarde datait du 31 août, ce qui implique la perte totale de septembre pour ces services. Mieux, le dépôt de stockage proche de la salle sinistrée —où se trouvaient des dépôts essentiels pour relancer les services— est devenu inaccessible en raison de poussière et cendres, freinant la restauration. Le plan officiel prévoit de migrer ces 96 systèmes brûlés vers le centre de Daegu ; une échéance de quatre semaines a été avancée, mais les experts anticipent un délai plus long.

“Trop grand pour copier” : une fausse économie

L’argument selon lequel la capacité limiterait la sauvegarde est techniquement infondé en 2025. Parmi les stratégies solides et testées pour gérer des données à grande échelle, on trouve :

Règle 3-2-1 (trois copies, deux supports, une sauvegarde hors site), aujourd’hui étendue à 3-2-1-1-0 (une copie inaltérable, zéro erreur vérifiée).
Versioning et snapshots réguliers au niveau du système de fichiers ou stockage (ZFS, Ceph, solutions d’object storage avec object lock).
Réplication synchrone/active-active entre deux centres de données pour des RPO/RTO proches de 0, complétée par des sauvegardes différées sur un troisième site (protège contre la corruption logique ou le ransomware).
Segmentation par criticité et SLA : tous les dépôts ne requièrent pas le même RPO, mais aucun ne doit rester sans plan de sauvegarde.

Avec le t tiers d’accès au stockage, la deduplication et la compression, sauvegarder des centaines de téraoctets n’est plus une tâche insurmontable. Ce qui reste hors de portée, c’est reconstruire huit ans de travaux.

Succession de défaillances : technique, gouvernance et culture

Ce qui s’est produit n’est pas qu’un simple incident électrique : cela met en lumière des failles systémiques :

Conception : un service centralisé dépourvu de redondance géographique ou de copie inaltérable.
Gouvernance : des politiques imposant l’usage du G-Drive, mais sans exiger de backup équivalent.
Opérations : des fréquences de sauvegarde discordantes et des fenêtres de sauvegarde mensuelles pour des systèmes à information dynamique.
Gestion des risques : absence de tests réguliers de récupération (on n’est “sûr” d’avoir une sauvegarde qu’après restauration).
Résilience physique : une co-localisation des batteries, stockages et réseaux qui a amplifié l’impact des dégâts.

Impacts humains et responsabilités

Si l’incendie n’a pas causé de victimes directes, un fonctionnaire impliqué dans la récupération s’est suicidé le 3 octobre à Sejong. Un rappel tragique de la charge humaine que représente une catastrophe technologique. Quatre personnes ont été mises en détention pour négligence présumée. Sur le plan politique, l’opposition critique le manque de manuals et audits, et réclame des comptes.

Les changements urgents à mettre en œuvre

Cartographie et classification des données (qui stocke quoi, où, avec quelles RPO/RTO).
Sauvegardes inaltérables (WORM / object lock) et rétentions échelonnées (quotidiennes, hebdomadaires, mensuelles) avec tests de restauration documentés.
Double centre de données actif-actif pour les plateformes principales et troisième site pour les copies, avec séparation physique énergie/stockage.
Surveillance d’intégrité à l’aide de vérifications par blocs, scrubbing et monitoring de conformité avec alertes à destination de la direction.
Plan de crise : runbooks, contacts, exercices sur table et tests de basculement trimestriels.
Culture : induction de métriques de résilience (et pas uniquement disponibilité) et affectation d’un budget dédié à la continuité des activités.

Leçons essentielles pour toute organisation

Un seul emplacement où un donnée existe, elle n’existe pas.
Un RPO = ∞ et un RTO imprévisible résultent *forcément* de l’absence de sauvegarde.
Les incendies de batteries et défaillances simultanées d’énergie et de stockage **se produisent** ; la question est **quand** et **ce qui survivra**.
La simplicité opérationnelle (versioning + réplication + copie inaltérable) l’emporte sur une perfection théorique non mise en œuvre.

Foire Aux Questions

Pourquoi 858 To “ne tenaient pas” dans un plan de sauvegardes ?
Avec les technologies modernes (deduplication, compression, object storage, bandes LTO-9/10 et nuages souverains), tout tient. Le problème était plutôt une question de priorités et de conception.

Une réplication vers d’autres centres de données suffit-elle ?
Non. La réplication protège contre les défaillances physiques, mais la copie inaltérable protège contre la suppression, la corruption, et les ransomwares. Il faut les deux.

À quelle fréquence tester la restauration ?
Au minimum trimestriellement pour les systèmes critiques, mensuellement pour un échantillon représentatif. Sans exercice de restauration, la sauvegarde n’est qu’une hypothèse.

Quels RPO/RTO sont raisonnables pour un “Drive” gouvernemental ?
Pour un dépôt transversal, RPO ≤ 24 h avec snapshots horaires et RTO par phases (lecture en heures, écriture en moins de 48 h) constituent des objectifs atteignables avec une architecture adéquate.

Note : Les données et chronologies évoquées se basent sur les rapports officiels et la couverture médiatique locale après l’incendie du 26 septembre au NIRS de Daejeon, incluant estimations des systèmes affectés, volumes et pourcentages de récupération publiés dans les jours suivants.

Sources : Chosun et Donga