Snowflake, la plateforme spécialisée dans le AI Data Cloud, annonce la disponibilité en version preview publique de Snowpark Connect pour Apache Spark™. Cette nouvelle fonctionnalité permet aux utilisateurs de Spark d’exécuter leur code directement sur le moteur de Snowflake. Grâce à cette intégration, les performances sont améliorées, les coûts sont réduits et la gestion opérationnelle devient beaucoup plus simple pour les organisations traitant des charges de travail intensives en données.
Basée sur une architecture client-serveur déconnectée, Snowpark Connect distingue le code de l’utilisateur du cluster Spark en charge du traitement. Introduite par la communauté Apache Spark™ dans la version 3.4, cette nouvelle architecture permet d’exécuter directement les travaux Spark via le moteur Snowflake.
Les utilisateurs peuvent ainsi exécuter du code Spark moderne — incluant Spark DataFrame, Spark SQL et fonctions définies par l’utilisateur (UDF) — sans avoir à maintenir des environnements Spark séparés ni se soucier des dépendances, de la compatibilité ou des mises à jour. Snowflake gère automatiquement tout le processus avec un scalabilité dynamique et une optimisation des performances, ce qui supprime la charge opérationnelle pour les développeurs.
Par ailleurs, déplacer le traitement des données vers Snowflake permet d’établir un cadre unique de gouvernance dès le début du flux de données, assurant cohérence, sécurité et conformité réglementaire tout au long du cycle de vie, sans dupliquer les efforts.
Une étude interne de Snowflake indique que les clients utilisant Snowpark Client pour créer des pipelines en Python, Java ou Scala ont obtenu en moyenne un rendement 5,6 fois supérieur et réalisé des économies de 41 % par rapport aux environnements Spark traditionnels.
En manifestant cette volonté d’innovation, Snowflake renforce son engagement à fournir des outils performants et intégrés pour les développeurs et scientifiques de données, intégrant le meilleur de Spark dans son écosystème cloud.
Snowpark Connect pour Spark exploite l’architecture déconnectée de Spark Connect, permettant aux applications d’envoyer un plan logique non résolu à un cluster Spark distant pour traitement. Cette séparation client-serveur est une pierre angulaire de la conception de Snowpark depuis ses débuts. La compatibilité de Snowpark Connect avec les versions 3.5.x de Spark garantit l’accès aux dernières fonctionnalités et améliorations.
Cette innovation supprime la nécessité de déplacer les données entre Spark et Snowflake, un processus souvent coûteux, lent et complexe en matière de gouvernance. Désormais, les organisations peuvent exécuter du code Spark DataFrame, SQL et UDF directement dans Snowflake via divers outils comme Snowflake Notebooks, Jupyter, procédures stockées, VSCode, Airflow ou Snowpark Submit, offrant ainsi une intégration fluide dans différents stockages Snowflake, Iceberg (interne ou externe) et options cloud.
Snowpark Connect fonctionne également avec des tables Apache Iceberg™, qu’il s’agisse de tableaux gérés en externe ou de bases de données reliées à des catalogues. Ceci permet de profiter de la puissance, des performances, de la simplicité d’utilisation et de la gouvernance de Snowflake, sans avoir à déplacer les données ou à réécrire le code Spark.
Comment fonctionnent les serveurs IBM Power et pourquoi sont-ils essentiels pour optimiser les processus critiques dans les entreprises