Cloudera accélère l’IA et l’analyse avec un lakehouse ouvert : Catalogue REST d’Iceberg pour zero-copy et interopérabilité, et un optimiseur qui promet jusqu’à 13× plus de performances

Red Hat présente Ramalama : Rendre l'Intelligence Artificielle ennuyeuse pour en faciliter l'utilisation

Cloudera a annoncé lors de EVOLVE25 NYC deux innovations qui renforcent son engagement en faveur d’un lakehouse ouvert basé sur Apache Iceberg : d’une part, l’intégration de Cloudera Iceberg REST Catalog dans toute sa plateforme — pour partager des données sans copie et avec des métadonnées unifiées — ; d’autre part, Cloudera Lakehouse Optimizer, un service d’optimisation automatique et de maintenance intelligente des tables Iceberg, qui, selon ses tests internes, accélère les requêtes jusqu’à 13 fois et réduit l’espace de stockage de 36 %. Ces deux produits sont disponibles dès aujourd’hui, tandis que la version on-premises de l’Optimizer sera lancée dans une version future.

Ce mouvement traduit une stratégie claire : alors que les entreprises cherchent à rapprocher l’IA de leurs données, la complexité architecturale, les silos et la gouvernance fragmentée deviennent des freins. Cloudera propose un même cycle de sécurité et de gouvernance — son Shared Data Experience (SDX) — avec un catalogue REST qui communique avec Iceberg et ouvre le contenu à plusieurs moteurs sans déplacement ni duplication, ainsi qu’un moteur d’optimisation qui maintient les tables saines et performantes pour tout engine compatible.


Pourquoi c’est important : IA “dans n’importe quel cloud” sans déplacer les données

Dans la pratique, déplacer les données pour entraîner, inférer ou analyser augmente les coûts, expose à des risques et retarde la prise de décision. Le Catalogue REST d’Iceberg intégré par Cloudera répond à cette problématique : expose les tables et métadonnées via REST, avec des politiques unifiées et un traçage/provenance étendu à tout consommateur autorisé. La promesse : parvenir à une interopérabilité zero-copy avec des moteurs tiers — Snowflake, Databricks, AWS Athena, AWS EMR, Salesforce, entre autres — en maintenant des ACID et une gouvernance cohérente via SDX.

Parallèlement, le Lakehouse Optimizer réduit la “friction invisible” des tables Iceberg : réécriture intelligente des manifests et des position deletes, compactage, clustering, maintenance proactive et politiques déclaratives par table ou par catalogue complet. Ce qui nécessitait auparavant des jobs ad hoc, des fenêtres de maintenance, des playbooks ou une dette opérationnelle, se voit maintenant promettre une automatisation avec une observation à l’échelle de l’entreprise.


Cloudera Iceberg REST Catalog : Interopérabilité ouverte, gouvernance unifiée et coût total de possession réduit

Cloudera affirme être le premier fournisseur à intégrer le Iceberg REST Catalog dans une plateforme complète de données et IA — allant de l’ingestion en temps réel au traitement massif, jusqu’au consommation en BI et IA. Les fonctionnalités clés incluent :

  • Partage de données sans copie : des tiers accèdent directement aux données gérées par Cloudera en absence de copie, que ce soit dans le cloud public, le centre de données ou à l’edge.
  • Gouvernance et sécurité unifiées : avec SDX, les politiques d’accès, le traçage et l’audits s’étendent aux outils externes, éliminant les “zones d’ombre” dans le périmètre.
  • Métadonnées ouvertes : un découverte instantanée des actifs sans s’enfermer dans des catalogues propriétaires ; le Catálogo REST devient la source de vérité pour accélérer le développement IA et analytique.
  • Réduction du TCO, délai de mise en valeur raccourci : Cloudera indique que ses clients ont rapporté jusqu’à 79 % d’économies sur le stockage tout en améliorant leur visibilité pour leur activité. Par exemple, une multinationale du secteur spatial aurait réalisé cet Allègement tout en renforçant ses pipelines IA.

En résumé : en standardisant l’accès via REST et Iceberg, Cloudera veut permettre à chaque entreprise de tester sa stratégie data sans « s’enfermer » dans un catalogue propriétaire, tout en conservant contrôle, visibilité et conformité.


Lakehouse Optimizer : Maintenance “sans intervention” pour Iceberg (et tout moteur compatible)

L’Optimizer se présente comme un service intelligent, ouvert à tout moteur compatible avec Iceberg et doté d’une interface de politiques granulaires :

  • Optimisation avancée : dépasse le “maintenance basique” en réécrivant manifests et fichiers position delete, en gérant la compactation et la mise en page pour améliorer les performances tout en réduisant les coûts.
  • Politiques déclaratives : appliquées par table ou par catalogue, le moteur exécute et surveille.
  • Observabilité : métriques, tableaux de bord et traçabilité pour comprendre ce qui est optimisé, quand et à quel niveau ; tout pour une gestion optimisée.
  • Résultats vérifiés en interne : jusqu’à 13× en performance de requête et -36 % en espace de stockage.

Cloudera ajoute que ce sera le seul service de ce genre en version on-premises dans un futur proche, une offre distincte pour les secteurs réglementés ou nécessitant une souveraineté, qui ne peuvent ou ne souhaitent pas confier leur control plane au cloud.


Une véritable position et promesse d’un lakehouse ouvert

La vision de Cloudera — qui a été pionnière dans le domaine du Big Data — repose sur Apache Iceberg comme format ouvert et standard de facto pour les lakehouses. Le Catálogo REST offre interopérabilité et métadonnées partagées ; SDX applique sûreté et gouvernance sur 100 % des données ; l’Optimizer automatise la propreté et l’efficacité sans dépendre du moteur d’interrogation.

Selon Leo Brunnick, Chief Product Officer de Cloudera, l’entreprise investit pour que Iceberg devienne “prête pour l’entreprise”, avec une trinité de flexibilité, évolutivité et insights sans compromis, “là où et quand cela est nécessaire”. La vision déclarée : être “la seule plateforme capable de porter l’IA vers les données — dans toutes les clouds, le centre de données et le edge — en conservant un gouvernement unifié et une analytique multi-moteurs sans copies ni lock-in”.


Ce que cela signifie pour une équipe data… et pour le CFO

Moins d’ETL pour partager

Le Catalog REST évite la duplication de pipelines juste pour « servir » un sous-ensemble de données à un moteur tiers. Moins de travail répétitif, moins de latence entre la source et le consommateur.

Même gouvernance sur tout le périmètre

Les politiques, le traçage et l’audit sont hérité ; le risque de zones d’ombres diminue. Pour la conformité, l’audit interne et la sécurité, cela signifie moins de surprises.

Coûts

Les chiffres d’économies jusqu’à 79 % sur le stockage et de 36 % sur l’Optimizer que Cloudera cite comme exemples montrent que moins de copies, des fichiers plus compacts, une table toujours optimisée et des requêtes moins coûteuses parce qu’elles lisent moins de données, sont de vraies plus-values pour le CFO, à valider en contexte.

Multi-moteurs en pratique

Si une équipe utilise Athena, une autre Databricks et une troisième Snowflake, le catalogue ne vous “enferme” pas : il suffit de pointer et de respecter les politiques. La friction entre équipes diminue, tandis que le retour sur investissement en data s’accroit.


Analyse de marché : Iceberg comme lingua franca

La montée en puissance de Cloudera coïncide avec la consolidation d’Iceberg en tant que format ouvert qui supporte des tables ACID sur du object storage, avec des schémas évolutifs et des métadonnées riches. La différenciation porte sur :

  • Gouvernance (SDX vs. stacks fermés)
  • Partage (Catalogo REST vs. catalogues propriétaires)
  • Maintenance (Optimizer vs. jobs manuels et housekeeping traditionnel)
  • Lieu d’exécution (cloud, on-premises, edge)

Cloudera cherche à lier ces éléments. Sa vision “data anywhere → AI everywhere” et son architecture open répondent à une exigence récurrente : interopérabilité et souveraineté sans tout reconstruire.


Disponibilités et prochaines étapes

Cloudera confirme que Data Sharing avec Iceberg REST Catalog et Lakehouse Optimizer sont disponibles dès aujourd’hui. La version on-premises de l’Optimizer sera lancée ultérieurement, sans date précise. Plus d’informations commerciales et techniques sont disponibles sur Cloudera.com.


Questions fréquentes

Qu’est-ce que précisément l’“Iceberg REST Catalog” et en quoi diffère-t-il d’un catalogue propriétaire ?
Il s’agit d’une implémentation REST du catalogue Apache Iceberg qui expose ouvertement tables et métadonnées de façon standardisée. Contrairement aux catalogues propriétaires, il permet à des moteurs tiers (Snowflake, Databricks, Athena, EMR, Salesforce…) d’accéder directement aux données gérées par Cloudera sans copie, tout en héritant des politiques, du traçage et de l’audit via SDX, évitant ainsi le lock-in.

Comment le Lakehouse Optimizer parvient-il à améliorer jusqu’à 13× la performance des requêtes ?
Il s’appuie sur une optimisation avancée : réécriture des manifests et fichiers position delete, gestion efficace de la compactation et du layout, tout en automatisant le housekeeping. En réduisant le nombre de fichiers, la fragmentation et les lectures inutiles, les requêtes sont accélérées car elles traitent moins de bytes.

Puis-je utiliser ces fonctionnalités sur n’importe quel cloud ou aussi en local ?
Le Catalogue REST et l’interopérabilité zero-copy sont accessibles dans les clouds publics, centres de données et au edge gérés par Cloudera. L’Optimizer est déjà proposé sous forme de service cloud ; la société a annoncé qu’il sera également disponible en version on-premises dans une version à venir.

De où provient le “jusqu’à 79 %” d’économies sur stockage ?
Cloudera attribue cette réduction à ses clients qui, en éradiquant les copie redondante et en unifiant l’accès via le REST Catalog et SDX, ont diminué le nombre de datasets répliqués et optimisé leur empreinte d’object storage. La performance réelle varie selon les cas, selon les __patrons de copie__, volume historique et degré d’adoption du zero-copy sharing et de l’Optimizer.

Source : cloudera

le dernier