Au-delà du « cloud » de papier : leçons de la panne coréenne et comment concevoir des infrastructures véritablement résilientes

Au-delà du « cloud » de papier : leçons de la panne coréenne et comment concevoir des infrastructures véritablement résilientes

Le récent incendie du centre de données gouvernemental en Corée du Sud, qui a détruit irrémédiablement les archives de 750 000 fonctionnaires, a mis en lumière une réalité inconfortable : tout ce qui se nomme « nuage » n’en est pas réellement un. L’incident, affectant le G-Drive gouvernemental et 96 systèmes critiques, illustre les risques liés à la confiance en des architectures centralisées dépourvues de redondance géographique ou de sauvegardes externes, telles que celle mise en place par le NIRS (National Information Resources Service) à Daejeon, en Corée du Sud.

Quand le « cloud » tient dans un seul bâtiment

« Ce qui s’est passé en Corée n’est pas un problème de cloud, mais de conception », explique David Carrero, cofondateur de Stackscale, entreprise européenne spécialisée dans l’infrastructure cloud privée et le bare-metal. « Un vrai cloud ne se limite pas à un seul centre de données avec beaucoup de stockage ; il repose sur la redondance géographique, l’automatisation des répliques et la reprise après sinistre. Si une catastrophe locale peut effacer votre service, vous n’avez pas réellement construit un cloud, mais un point unique de défaillance ».

Le cas coréen a révélé des défaillances critiques dans la conception : stockage monolithique sans réplicas externes, 96 systèmes critiques sous un même domaine de défaillance, et une dépendance totale à un seul emplacement physique. Conséquence : perte permanente de données et milliers d’heures de productivité perdues.

De la règle 3-2-1 à la 3-2-1-1-0 : une évolution nécessaire

La stratégie traditionnelle de sauvegarde, connue sous le nom de règle 3-2-1 (trois copies, deux supports, une hors site), s’est avérée insuffisante face aux menaces modernes telles que le ransomware ou les défaillances de fournisseurs. La progression vers la règle 3-2-1-1-0 ajoute des couches essentielles de protection :

  • 3 copies des données critiques
  • 2 types différents de supports
  • 1 copie hors site principal
  • 1 copie hors ligne ou isolée (air-gap)
  • 0 erreurs vérifiées par des tests réguliers

Cette approche reconnaît que les risques modernes dépassent les simples défaillances matérielles. Les attaques de ransomware s’étendent désormais pour chiffrer non seulement les données de production, mais aussi les sauvegardes connectées au réseau, tandis que même des géants de la tech ont connu des pertes de données irrémédiables dues à des erreurs administratives.

Architectures actif-actif : une production résiliente face aux catastrophes

« La meilleure assurance n’est pas une seule, mais plusieurs », indique Carrero. « Une architecture actif-actif déployée sur deux centres de données distincts, complétée par des copies immuables dans un troisième site. Ainsi, si un site tombe, vous basculez, et en cas de problème total, vous restaurez à partir d’une copie qui n’a pas été altérée ».

Les solutions avec géoréplication synchrone permettent de déployer des environnements critiques avec RPO=0 (pas de perte de données) et RTO=0 (absence de temps d’arrêt). Ces systèmes répliquent en temps réel les données entre deux centres géographiquement séparés, garantissant l’accès à l’information même en cas de catastrophe affectant un site entier.

La différence entre actif-actif et actif-passif réside dans le délai de réponse : le premier répartit la charge et survit immédiatement à une défaillance, tandis que le second nécessite une commutation, mais constitue une solution plus économique lorsque de courtes interruptions sont acceptables.

Le troisième pilier : des sauvegardes immuables en localisation indépendante

Au-delà de la redondance en production, la stratégie complète exige un troisième élément : des sauvegardes dans un domaine de défaillance indépendant, utilisant des technologies WORM (Write Once, Read Many) ou de déconnexion (air-gap) qui empêchent toute modification ou chiffrement par ransomware.

« Chez Stackscale, nous déployons des environnements géorédundants actif-actif ou actif-passif, complétés par des copies dans un autre centre de données », explique Carrero. « Pour les sauvegardes immuables, nous utilisons des outils comme Proxmox Backup Server ou Veeam, qui proposent la conservation WORM, la vérification des restaurations, et des alertes en cas d’anomalies. L’essentiel n’est pas le logiciel, mais la conception et la répétition des tests de récupération : sans tests, il n’y a pas de vrai plan de reprise après sinistre ».

Alternatives open source : démocratiser la résilience

Proxmox Backup Server représente une alternative open source de niveau entreprise à des solutions propriétaires comme Veeam ou Nakivo. Basé sur Debian et développé intégralement en Rust pour optimiser performance et consommation mémoire, il offre des fonctionnalités clés telles que :

  • Backups incrémentiels avec déduplication automatique
  • Compression ultra-rapide avec Zstandard
  • Soutien au Secure Boot
  • Synchronisation entre dépôts locaux et distants
  • Restaurations granulaires rapides pour VM, conteneurs ou fichiers individuels
  • Intégration native avec Proxmox VE et compatibilité avec VMware, Hyper-V, Kubernetes et autres plateformes

Son modèle de licence AGPL v3 permet à toute organisation, grande ou petite, d’implémenter une stratégie robuste de sauvegarde sans coûts de licence, avec un support professionnel sous abonnement pour les environnements critiques.

Liste de contrôle : comment éviter de répéter Daejeon

Les organisations peuvent jauger leur résilience avec ces critères minimum :

  1. Au moins deux sites pour la production (actif-actif ou avec test de basculement)
  2. Backups dans un troisième emplacement, immuables via WORM ou air-gap
  3. RPO et RTO clairement définis par service et testés régulièrement
  4. Restaurations testées trimestriellement ou semestriellement, pas seulement des journaux de « backup OK »
  5. Segmentation des identifiants de connexion pour les sauvegardes, avec authentification à plusieurs facteurs
  6. Surveillance des anomalies : suppressions massives, chiffrement, modifications de politiques
  7. Respect des normes réglementaires : ENS/ISO 27001 avec preuves d’audit
  8. Contrôle sur les solutions SaaS : capacité d’exportation, de rétention et d’indépendance vis-à-vis du fournisseur

Conclusion : la discipline contre le glamour

Le cas coréen rappelle une vérité fondamentale : une infrastructure résiliente ne se bâtit pas par le marketing mais par une discipline d’ingénierie. La véritable redondance géographique, les copies externes immuables et les tests réguliers de restauration sont les seuls moyens d’empêcher qu’un sinistre physique devienne une catastrophe numérique permanente.

« Ce n’est pas du glamour, c’est de la discipline », conclut Carrero. « Et c’est la seule façon d’éviter qu’à l’heure où un centre de données flambe ou qu’un simple dysfonctionnement, notre mémoire numérique s’évapore aussi ».


À propos de Stackscale

Stackscale (Groupe Aire) est une société européenne du Groupe Aire spécialisée dans l’infrastructure cloud privé et le bare-metal, avec plus de huit centres de données situés principalement à Madrid et Amsterdam. Elle propose des solutions de stockage à géoréplication synchrone, du cloud privé avec Proxmox VE ou VMware, des serveurs dédiés haute performance et des services managés pour les entreprises souhaitant un contrôle total sur leur infrastructure IT sans compromettre la résilience du cloud public.

le dernier