RAID n’est pas une sauvegarde : comment l’utiliser correctement en entreprise (sans fausses promesses)

Info Cloud

X (Twitter) Facebook Pinterest LinkedIn Email

Dans de nombreuses entreprises, le stockage est conçu avec un objectif clair : que le service ne s’interrompe pas en cas de défaillance d’un disque. C’est là que le RAID joue son rôle avec efficacité. Le problème survient lorsque l’on lui prête une autre mission : protéger les données contre tout incident. Et cela, tout simplement, n’est pas vrai.

Un RAID bien conçu améliore la disponibilité et, dans certains cas, la continuité opérationnelle face à des défaillances physiques de disque. Mais il n’empêche pas les suppressions accidentelles, la corruption logique, les erreurs humaines, le chiffrement par ransomware, la perte du site, les identifiants compromis ou les défaillances du contrôleur. En d’autres termes : le RAID réduit l’impact d’un type de panne ; la sauvegarde couvre beaucoup plus.

Ce que le RAID apporte réellement en entreprise

Le RAID est une technique de redondance et/ou de distribution qui combine plusieurs disques en un volume logique. Son apport principal est :

Tolérance aux défaillances de disque (selon le niveau RAID).
Amélioration des performances (surtout en lecture et pour certains modes d’écriture).
Réduction du temps d’indisponibilité en cas de défaillance physique ponctuelle.

Ce qu’il ne fournit pas :

Historique des versions (pas de “retour en arrière” si un fichier est effacé).
Aislamiento ante el malware/ransomware (si le volume est chiffré, c’est le RAID qui l’est aussi).
Protection contre la corruption silencieuse ou les erreurs logicielles.
Recovery en cas de catastrophe (incendie, inondation, vol, panne électrique grave, erreur massive).

Les niveaux RAID les plus courants et quand ils sont appropriés

RAID 0 (striping, sans redondance)
Performance pure. Une défaillance entraîne la perte totale. Utile uniquement pour caches temporaires, scratch de rendu, laboratoires ou données désappréciables.

RAID 1 (miroir)
Duplication des données sur deux disques. Généralement utilisé pour les volumes système, contrôleurs, petits services ou démarrages où une récupération simple est prioritaire. Il ne protège pas contre la suppression, le ransomware ou la corruption.

RAID 5 (parité distribuée, minimum 3 disques)
Équilibre entre capacité et tolérance à la perte d’un disque. Très répandu dans les NAS et les systèmes de fichiers, mais avec une limite importante : sur de grands disques, la reconstruction peut prendre du temps et le risque pendant cette opération augmente. En charge intensive en écriture, la pénalité se fait également sentir.

RAID 6 (double parité, minimum 4 disques)
Tolère la panne de deux disques. Fréquent dans les grands volumes, les référentiels et les baies où l’on souhaite plus de marge lors des reconstructions. La pénalité pour l’écriture est plus élevée que RAID 5, mais la résilience est renforcée.

RAID 10 (1+0 : miroir + striping)
Souvent considéré comme la solution « classique » pour bases de données, virtualisation et charges IOPS : bon rendement et redondance solide. En échange, il sacrifie une partie de la capacité (environ 50% utilisable) et nécessite plus de disques.

La couche souvent négligée : reconstruction et « fenêtre de risque »

Lorsqu’un disque tombe, le RAID passe en mode dégradé. Dès lors, le système vit une fenêtre de risque :

La reconstruction peut durer plusieurs heures, voire days, selon la taille, la charge et le type de disque.
Les performances peuvent chuter, alors que la stabilité est la plus critique.
Une seconde panne (ou un secteur non récupérable) peut faire échouer le volume en RAID 5.

C’est pourquoi, en 2026, la vraie question n’est pas « quel RAID est le meilleur » mais quel RAID est cohérent avec la taille du disque, la criticité et le RTO/RPO du service.

Contrôleur, cache et politiques : là où se gagnent (ou se perdent) les enjeux

Dans les environnements professionnels, le RAID fonctionne généralement de l’une de ces façons :

Contrôleur RAID dédié (PERC, Smart Array, MegaRAID) : fournit cache, BBU/mémoire flash, et des politiques d’écriture plus sécurisées.
HBA + logiciel (mdadm, ZFS) : plus de transparence et de contrôle ; avec un bon design, c’est une excellente option, mais cela demande de la discipline opérationnelle.
Baie/NAS/SAN : le RAID fait partie du système de stockage, accessible via iSCSI/NFS/FC, avec d’autres couches (snapshots, réplications, etc.).

Il existe une règle essentielle : si la contrôleur (ou son cache) tombe en panne, le RAID peut devenir votre incident. C’est pourquoi on insiste tant sur la stabilité du microcode, les pièces de rechange, la compatibilité et les plans de remplacement.

La phrase à se répéter : RAID ne remplace pas une politique de sauvegarde

La stratégie optimale consiste souvent à combiner plusieurs éléments :

RAID pour la disponibilité (maintenir les services en ligne malgré une panne de disque).
Snapshots (rapides, contre erreurs récentes, mais pas infaillibles si un attaquant prend le contrôle).
Sauvegardes avec rétention et tests (la seule garantie réelle de récupération).
Invariance/air gap/offsite pour résister au ransomware et aux erreurs massives.
DR si la continuité de l’activité ne peut dépendre d’un seul site de production.

Pour faire simple : le RAID évite que « la voiture ne se bloque suite à une crevaison ». La sauvegarde évite que « vous perdiez la voiture » par erreur, vol ou incendie.

Bonnes pratiques minimales

Respecter la règle 3-2-1 : 3 copies, 2 supports différents, 1 copie hors site ou immuable.
Maintenir au moins une copie hors ligne ou immuable (Object Lock, WORM, dépôts renforcés).
Tester régulièrement la restauration (un backup non testé est une chance jetée).
Séparer les identifiants et limiter les privilèges (un admin qui peut supprimer, un attaquant avec ses identifiants aussi).
Surveiller l’état des disques, SMART, latences et erreurs de lecture : détecter avant qu’il ne soit trop tard.