Interruption majeure de Google Cloud : le 12 juin, un incident global perturbe des milliers d’entreprises
Le 12 juin, Google Cloud a connu l’une des plus importantes interruptions mondiales de ces dernières années, impactant des services essentiels pour de nombreuses entreprises et utilisateurs à travers le globe. L’incident, qui a débuté à 19h51 (heure espagnole), a duré au moins trois heures et demie, touchant plusieurs produits de Google Cloud Platform (GCP) et Google Workspace, allant de l’infrastructure aux services de messagerie, de stockage et d’analyse de données.
Que s’est-il passé ?
Selon les informations officielles fournies par Google, la cause principale de cet incident fut une mauvaise mise à jour automatique des quotas dans le système de gestion des API, qui s’est propagée à l’échelle mondiale, entraînant le rejet massif de requêtes externes. Ce dysfonctionnement a particulièrement impacté la gestion des quotas d’API, bloquant des demandes légitimes et provoquant des erreurs (503) en cascade dans des services tels que Compute Engine, Cloud Storage, BigQuery, App Engine et Gmail, entre autres.
Bien que Google ait détecté rapidement l’erreur et mis en œuvre une solution temporaire en désactivant la vérification des quotas, le processus de récupération fut inégal. Dans la région us-central1 (Iowa), où de nombreuses ressources sont concentrées, la restauration a été plus lente en raison d’une surcharge dans la base de données des politiques de quotas.
Impact sur les entreprises et les utilisateurs
Durant plusieurs heures, des milliers d’organisations en Europe, en Asie et en Amérique ont rencontré des interruptions intermittentes d’accès à des tableaux de bord, API, sauvegardes automatiques, exécutions d’applications et services de messagerie comme Gmail et Drive. Même si les ressources en cours d’exécution n’ont pas été stoppées, l’impossibilité d’accéder à des fonctionnalités administratives a engendré incertitudes et problèmes de continuité pour les équipes informatiques.
Particulièrement préoccupant fut l’impact sur les services gérés de données, y compris Cloud Bigtable, BigQuery, Spanner, où des interruptions de lecture et d’écriture ont été signalées.
Google a admis que cet incident n’aurait pas dû se produire et a annoncé plusieurs mesures immédiates :
- Renforcer la plateforme de gestion des API pour éviter les défaillances causées par des données corrompues.
- Améliorer la validation et la surveillance avant la propagation de modifications à l’échelle mondiale.
- Renforcer les systèmes de gestion des erreurs face à des scénarios de données non valides.
Impact en Espagne et en Europe
Les centres de données touchés comprenaient ceux de Madrid, Helsinki, Paris, Berlin, Londres, Milan, Francfort, Bruxelles et Varsovie. L’incident a affecté toute l’infrastructure cloud et workspace, impactant tant les grandes que les petites entreprises, les gouvernements et les administrations publiques.
Récupération et état actuel
À 22h49 (heure espagnole), Google a confirmé que la majorité des services étaient de nouveau opérationnels, à l’exception de certaines opérations dans les régions les plus affectées, notamment us-central1. La société a reconnu la gravité de l’incident et s’est engagée à publier un rapport technique détaillé, incluant une analyse des causes et des mesures préventives.
Réflexion : quelles leçons tirer ?
Cet incident rappelle que, bien que la cloud offre une haute disponibilité et évolutivité, aucun fournisseur n’est à l’abri de défaillances majeures. Les entreprises devraient :
- Mettre en œuvre des stratégies multicloud et des sauvegardes indépendantes.
- Documenter des plans de contingence et de réponse face aux pannes des fournisseurs externes.
- Surveiller les services critiques via des plateformes externes.
- Évaluer régulièrement les accords de niveau de service (SLA) et la capacité de récupération après des erreurs systémiques.
Google doit maintenant travailler à regagner la confiance de milliers d’entreprises affectées, et l’écosystème attend des détails sur cette erreur de conception ainsi que sur les mesures mises en œuvre pour éviter une nouvelle défaillance globale.
Source : Statut Google
Cybersécurité en vacances : comment se protéger de la fraude numérique cet été