Commvault a présenté Clumio for Apache Iceberg sur AWS, la première solution «Iceberg-aware» avec copie isolée (air-gapped) spécialement conçue pour protéger les data lakehouses utilisés en IA et en analytique à grande échelle. Son objectif : combler les lacunes en matière de résilience qui exposent aux pertes de données, aux rançongiciels et aux risques de conformité, lorsque les organisations comptent uniquement sur des snapshots natifs ou des copie sans prendre en compte la semantique spécifique d’Apache Iceberg.
Pourquoi une copie « Iceberg-aware » est-elle indispensable ?
Apache Iceberg fournit des tables transactionnelles (metadonnées, manifests, snapshots et delete files) sur objets (par exemple, Amazon S3) permettant lectures atomiques, voyage dans le temps et évolution des schémas. Effectuer une sauvegarde sans comprendre cette architecture oblige à reconnecter manuellement les tables lors de la restauration — ce qui comporte un risque accru d’incohérences et des temps d’indisponibilité prolongés. De plus, les snapshots natifs résident généralement dans la même compte et le même domaine de contrôle, sans mécanisme de copie isolée face à des compromissions de comptes ou des borrados malveillants.
Clumio pour Apache Iceberg répond à ces enjeux :
- Consistance transactionnelle : sauvegarde de l’état complet des tables (metadonnées + données), avec prise en charge de restaurations point-in-time, que ce soit par snapshot, inter-régions, inter-comptes ou en place.
- Copie air-gapped et inaltérable : stockage dans un environnement isolé, conçu pour résister aux rançongiciels, aux compromissions de crédentiels et aux borrados accidentels ou malveillants.
Principales caractéristiques
- Sauvegardes « Iceberg-aware » : compréhension des manifests, positions/suppression d’égalité et metastore pour une restauration sans reconfiguration manuelle ; réduction des erreurs et MTTR (temps moyen de réparation) dans les data lakehouses.
- Isolation et inaltérabilité : copies distinctes du compte source, avec rétention illimitée des snapshots pour la conformité et la gouvernance, sans impacter la performance du lac actif.
- Efficacité de stockage : uniquement des changements après la sauvegarde initiale (approche incrémentale), ce qui réduit les fenêtres de sauvegarde et diminue le TCO.
- Disponibilité sur AWS Marketplace : compatibilité avec les tables autogérées via le catalogue AWS Glue et les tables gérées (Amazon S3 Tables).
Contexte de marché
L’adoption d’Iceberg connaît une croissance exponentielle — des acteurs comme Netflix, Apple ou Airbnb l’évoquent publiquement — et les enquêtes sectorielles placent le lakehouse comme architecture dominante en analytique pour les trois prochaines années. Cependant, nombreuses sont les organisations qui n’ont pas intégré la résilience native à l’échelle des tables : elles protègent S3 ou leur metastore, mais sans garantir une récupération cohérente de l’ensemble de leurs données.
Dans le contexte de l’IA et des analyses, où les datasets constituent des actifs cruciaux, cette lacune représente un risque sérieux : de longues périodes d’indisponibilité, des données corrompues qui entravent les SLA et le respect de la conformité.
Intégration dans la stratégie de Commvault sur AWS
Clumio pour Iceberg s’ajoute aux capacités de résilience pour Amazon S3 et DynamoDB, avec pour ambition de couvrir l’ensemble du pipeline de données sur AWS : depuis les objets et les bases NoSQL, jusqu’à la couche de tables transactionnelles du lakehouse. La proposition : aucune autre offre ne combine à ce point la conscience d’Iceberg + air-gap + restauration massive avec un tel niveau de profondeur.
Avis
- Commvault : “Les données alimentant IA et analytique sont parmi les plus précieuses et souvent les plus exposées. Pour la première fois, leur protection peut être automatisée et isolée”, explique Woon Jung (CTO, Cloud Native).
- IDC : pour Archana Venkatraman, la protection « Apache-aware » avec restauration transactionnelle et air-gap est devenue impérative face à l’expansion des lakehouses en IA.
Considérations pour les équipes data et sécurité
- Modèle de menace : au-delà du ransomware, pensez aux compromissions de comptes et effacements — l’air-gap répond à ces risques.
- RPO/RTO : la capture transactionnelle et les options de restauration (inter-comptes/régions) permettent d’assurer des RPO faibles et des RTO prévisibles.
- Cohérence : vérifiez que l’état restauré (metastore + manifests + delete files) reflète un point dans le temps cohérent pour les requêtes et les pipelines.
- Coûts : l’approche incrémentale réduit la capacité et l’usage de bande passante par rapport à des sauvegardes complètes répétées ; évaluez la rétention versus la conformité.
- Opération : intégrez cette solution avec vos catalogues, orchestrateurs et jobs dépendant des tables ; planifiez des tests de restauration réguliers.
Disponibilité
Clumio pour Apache Iceberg sur AWS est désormais GA sur AWS Marketplace, avec support pour AWS Glue Data Catalog et Amazon S3 Tables. Commvault approfondira cette offre lors de SHIFT 2025 (11–12 novembre, NYC ; session virtuelle le 19).
Résumé
Cette annonce rehausse le niveau de cyber-résilience dans les lakehouses en IA : d’une simple sauvegarde d’archives S3 à une protection avancée des tables Iceberg via copie isolée, inaltérabilité et restauration transactionnelle. Pour les entreprises dont l’activité repose sur des modèles et des analyses sous SLA stricts, cette solution constitue la différence entre un retour opérationnel en heures avec une cohérence garantie ou une reconstruction manuelle sur plusieurs jours, avec le risque d’incohérences.
Source : commvault