Depuis des décennies, toute personne abordant l’ingénierie de la fiabilité connaissait cette représentation emblématique : la courbe de la baignoire. Au début, une courbe de défauts précoces ; ensuite, une plateforme stable ; enfin, un pic de défaillance à mesure que le matériel s’use. Simple, élégante, rassurante. Mais avec l’accumulation de données concrètes et massives, elle ne tient plus la route. C’est ce qu’affirme Backblaze — célèbre pour publier trimestriellement ses bases de données de défaillances disques — fort de 13 ans de télémétrie continue et de centaines de milliers d’unités surveillées dans ses centres de données : les disques durs durent mieux et se dégradent plus tard, et le modèle de défaillance qu’ils observent ne correspond pas à la classique courbe en U.
La compagne a comparé trois moments historiques : 2013, 2021 et 2025. Le contraste est saisissant. En 2013, le pic de taux annuel de défaillance (AFR) atteignait environ 13,73 % à 3 ans et 3 mois (maxima voisin, 13,30 % à 3 ans et 9 mois). En 2021, il montait à 14,24 %, mais beaucoup plus tard, à 7 ans et 9 mois. Et en 2025… le “mur” est repoussé encore plus loin et surtout beaucoup plus bas : pic de 4,25 % à 10 ans et 3 mois. Autrement dit, trois fois inférieur aux pics de 2013 et 2021 et nettement au seuil de fin de vie. À l’autre extrémité, la phase de démarrage de la courbe s’est aussi améliorée : entre 0 et 1 an d’utilisation, l’AFR ne dépasse guère 1,30 % (la dernière AFR trimestrielle est à 1,36 %).
Qu’est-ce que (et que n’est pas) la “courbe en baignoire”
La courbe de la baignoire est une représentation visuelle simplifiée : les appareils défaillent davantage au début (défauts de fabrication se manifestant rapidement), moins pendant leur maturité (défaillances régulières) et plus vers la fin, sous l’effet de l’usure. Elle a une valeur pédagogique indéniable, mais rationalise à l’extrême : ne considère que le temps comme la seule variable, et suppose que l’environnement, les modèles, le firmware, les profils de charge et les processus opérationnels restent inchangés. En réalité, dans un centre de données, ces conditions ne sont jamais identiques. Les opérateurs s’efforcent de standardiser la température, les vibrations, l’alimentation et la charge, mais il existe des cohortes d’achat, des modèles différents, des mises à jour et des changements opérationnels qui modifient la photographie finale.
Backblaze l’a vérifié sur son propre historique. En 2013, l’analyse portait sur une flotte beaucoup plus petite —environ 35 000 disques, avec plus de 100 Po en production à septembre 2014— comprenant de nombreux modèles de consommation réutilisés dans des châssis (le drive farming, “décaqueter” les disques de leurs boîtiers commerciaux pour les monter en racks), ce qui augmentait les risques de “coup” opérationnels. En 2021, la base de référence était bien plus grande : environ 206 928 disques, suite à l’extension du centre de données de Sacramento, à l’ouverture de Phoenix et Amsterdam, au lancement de Backblaze B2 et à l’entrée en bourse. En 2025, le total atteignait près de 317 230 disques (fin du Q2-2025, hors exclusions habituelles).
Plus l’échantillon est grand, moins les “dents de scie” statistiques apparaissent, sauf en cas de problème réel spécifique à un modèle ou si l’on approche de la fin de vie. Avec une maturité opérationnelle accrue, la qualité de la gestion s’améliore : achats groupés, critères plus fins pour le désengagement, standards d’acceptation plus stricts. Tout cela déforme la courbe par rapport à l’idéal théorique. Mais le constat global est clair : la fiabilité moyenne s’améliore, et les pics de défaillance arrivent maintenant plus tard et moins haut.
L’évolution des données (et leur importance)
Backblaze en reconnaît la complexité : comparer 2013, 2021 et 2025 demande du contexte :
- Taille et composition de la flotte. En 2013, moins de disques, mais une plus grande variabilité (nombreux modèles de consommation réutilisés). En 2021 et 2025, flottes plus vastes et plus homogènes en environnement de centre de données. Moins de disques, chaque défaillance a d’autant plus d’impact, et les pics sont plus “bruyants”.
- Les cohortes d’achat. Acheter à grande échelle signifie que plusieurs unités du même modèle entrent simultanément. Si le modèle est fragile, le pic de défaillances se groupe ; s’il est robuste, la courbe se stabilise sur plusieurs années.
- Le retrait des disques. La stratégie actuelle permet de retirer des disques encore fonctionnels (pour gérer le risque ou augmenter la capacité) avant leur défaillance. Cela réduit la population sans provoquer le pic attendu si tous restaient jusqu’à leur fin de vie.
- La méthodologie. Pour estimer “l’âge” des disques initiaux sans enregistrement quotidien complet (cas 2013), la société a calculé la date d’introduction en combinant les heures de marche (SMART 9) et la première date connue. Ensuite, elle croise défaillances et âge pour dériver l’AFR. Plus de traçabilité = calcul plus précis.
Ces facteurs combinés expliquent pourquoi, même si la forme de la courbe de 2021 et 2025 se ressemble, le niveau s’en trouve amélioré : AFR plus faible et stable pendant une grande partie de la durée de vie et un repop final qui n’est plus une montagne, mais plus un escaliers tardif.
Les révélations de 2025 (et leur regard vers 2029)
Reprenons les chiffres :
- Pic 2013 : 13,73 % AFR à 3 ans 3 mois (et 13,30 % à 3 ans 9 mois).
- Pic 2021 : 14,24 % à 7 ans 9 mois.
- Pic 2025 : 4,25 % à 10 ans 3 mois.
- AFR année 0-1 (2025) : environ 1,30 %, AFR trimestriel récent : 1,36 %.
En synthèse : plus de longévité et plus de prévisibilité. Backblaze s’engage à revenir sur cette analyse en 2029 pour voir si le pic de défaillance s’est encore déplacé vers la droite (et s’il baisse davantage).
Et si la courbe classique avait raison, en partie seulement ?
La courbe en baignoire n’est pas “fausse”, mais elle est incomplète. Elle demeure une intuition utile lorsque le temps est la variable principale et que l’environnement reste relativement homogène. Mais dans un centre de données moderne, il faut prendre en compte :
- Variations par modèle et lot (contrôle qualité, firmware, densité).
- Changements opérationnels (nouveaux centres, racks, meilleures refroidissements).
- Fin de vie anticipée (retrait prématuré pour gestion des risques ou extension de capacité).
- Profils de charge différents dans le temps (plus séquentiel ou plus aléatoire, pics ou flux soutenus).
Ces nuances aplatissement la partie centrale de la courbe et ramènent le pic final à un niveau inférieur. L’essentiel de 2025 n’est pas que la courbe “a disparu”, mais que le pic final se retarde (vers la durée de vie) et se réduit (environ un tiers de ce qu’il était il y a quelques années). Pour les responsables d’infrastructure, cela signifie moins de surprises et plus d’années utiles par unité.
Ce que cela signifie pour un centre de donnée (et ce qu’il faut garder à l’esprit)
- Modèles, pas marques. La variabilité par modèle demeure. Bonne nouvelle : en moyenne, la longévité s’améliore. Prudence : surveiller chaque SKU avec des métriques RMA/AFR et cohortes d’achats.
- Stratégie d’achat. Répartir les acquisitions en doses pour atténuer les risques de pics liés à un lot. Acheter en une seule fois facilite la logistique, mais concentre aussi les risques si le modèle est défaillant.
- Retrait stratégique. Retirer les disques à temps réduit les défaillances visibles. Laisser les disques “jusqu’à la dernière byte” peut être efficace, mais cela augmente le risque de pics de défaillance en fin de vie. L’équilibre dépend du profil de service et des RTO/RPO.
- SMART n’est pas une boule de cristal. La télémétrie aide, mais ne détecte pas toutes les défaillances immédiates. La surveillance multi-critères : taux d’errance, erreurs I/O, latence, températures, vibrations par rack.
- Environnement stable = meilleur AFR. La gestion du climat (température, humidité, vibrations, alimentation) s’accumule. Elle réduit le “bruit” et permet de détecter plus tôt qu’un modèle ou une série se désolidarise.
L’essentiel : ce que “ne faillit pas” compte aussi
Il y a un point méthodologique crucial : en désactivant précocement certains disques, on en retire certains de la flotte tout en restant opérationnels. Cela baisse la population en fin de vie sans provoquer les pics de défaillance habituels si on aurait attendu leur fin. Ce n’est pas une tricherie, c’est une opération réelle. Pour comparer différentes années, il faut lire “entre les lignes” : connaître le moment d’achat, l’usage, et le moment de sortie.
Et pour l’utilisateur lambda ? Une synthèse rapide
- Les disques durs modernes, utilisés dans les centres, durent plus longtemps qu’il y a dix ans.
- Les risques de défaillance précoce sont basse: AFR environ 1,30 % la première année.
- Le pic de défaillance se déplace, en moyenne, plus tard (en 2025, passé la décennie) et avec un niveau notablement plus bas.
Cela ne garantit pas que votre disque à la maison durera autant, puisqu’il supporte des conditions différentes en termes de charge, température, vibrations et processus. Mais, en tendance générale, c’est une bonne nouvelle pour tous ceux qui confient leur vie numérique à des disques tournants.
Questions fréquentes
Qu’est-ce que précisément la “taux annuel de défaillance” (AFR) et pourquoi est-ce important ?
L’AFR correspond à la probabilité annuelle qu’un disque échoue dans une population donnée. Elle permet de comparer des cohortes ou des modèles à une métrique uniforme. En 2025, Backblaze indique un taux AFR trimestriel de 1,36 % et un pic de 4,25 % à 10 ans 3 mois.
Si les disques s’améliorent, puis-je oublier la courbe en baignoire ?
Non. La courbe classique reste une pourvoyeur d’intuition, mais elle est incomplète. En centres modernes, la défaillance dépend du modèle, de l’environnement, des cohortes, du firmware et de l’usage. La tendance de 2025 indique : moins de défaillances précoces, longue période plate, et un pic final plus doux.
Qu’est-ce qui a changé entre 2013, 2021 et 2025 pour améliorer la situation ?
Trois éléments : plus de données (flottes de 206 928 et 317 230 disques contre 35 000 initialement), meilleure gestion opérationnelle (achats et retirements plus sophistiqués), et une gamme de modèles plus résistants pour le contexte du centre de données. Cela réduit le bruit, repousse le pic et en diminue l’importance.
Que peuvent faire les équipes systèmes pour tirer parti de cette tendance ?
Suivre les métriques par modèle, planifier les achats en série, ajuster les retirements selon RTO/RPO, surveiller plus que SMART (latences, erreurs, température, vibrations), et tester leurs plans de remplacement et de récupération. La durée de vie s’allonge, mais la conception du système fait toujours la différence.