Databricks a annoncé Data Intelligence for Cybersecurity, une offre qui transpose son architecture Lakehouse dans le domaine de la cybersécurité, avec un message clair : fusionner données et opérations pour permettre aux équipes de détecter et d’enquêter sur les menaces – y compris celles alimentées par l’IA – avec plus de contexte et moins de friction. Cette nouveauté s’appuie sur l’écosystème de partenaires de l’entreprise et sur Agent Bricks, le cadre permettant de construire des agents d’IA qui non seulement analysent les données, mais exécutent des actions gouvernées à chaque étape du flux de sécurité.
Le problème qu’ils cherchent à résoudre : données fragmentées, modèles génériques et réponses lentes
Alors que les attaquants intègrent l’IA à leur boîte à outils, de nombreuses organisations restent liées à des modèles génériques et à des données dispersées entre SIEM, EDR, NDR, des logs cloud et des applications. Le résultat : visibilité partielle, bruit et délai de réponse accru. Databricks propose de briser ces silos sur un Lakehouse qui ingère et normalise des télémétries à grande échelle, avec une gouvernance centralisée (catalogue, politiques, filiation) et une analytique en temps réel.
Ce que comprend “Data Intelligence for Cybersecurity”
- Agents d’IA à grande échelle (Agent Bricks) : cadre pour développer et exploiter des agents prêts pour la production avec précision et actions gouvernées (par exemple, isoler un hôte, ouvrir un ticket, ajuster une configuration).
- Sécurité conversationnelle : recherche en langage naturel, tableaux de bord et insights en temps réel rendant l’état et les alertes accessibles aux experts et leaders non techniques.
- Couche de données unifiée : lakehouse rassemblant toutes les sources de sécurité pour une visibilité étendue de l’attaque et de son contexte, sans rester enfermé dans les limites classiques des SIEM ni dépendances à un seul fournisseur.
« Avec Data Intelligence for Cybersecurity, données et IA deviennent la meilleure défense », résume Omar Khawaja, VP de la Sécurité et CISO de terrain chez Databricks. « Cela permet une approche plus précise, gouvernée et flexible pour construire des agents qui combattent de manière proactive les menaces modernes. »
Clients et résultats initiaux
- Arctic Wolf traite >8 milliards d’événements hebdomadaires et accélère l’innovation en IA pour son SOC.
- Barracuda: -75 % sur les coûts quotidiens de traitement/densification, alertes <5 minutes et plus de temps consacré à l’ingénierie pour de nouvelles détections.
- Palo Alto Networks: unification de données fragmentées et x3 la vitesse de détection avec IA, tout en réduisant les coûts opérationnels.
- SAP Enterprise Cloud Services: -80 % du temps d’ingénierie, >5× la rapidité de déploiement des règles ; avec davantage de visibilité et d’économies.
Écosystème de partenaires
Intégrations avec une large gamme de fournisseurs de détection, classification, protection des données et services (parmi eux : Abnormal AI, Accenture Federal, ActiveFence, Arctic Wolf, BigID, Deloitte, Panther, Varonis), qui visent des résultats mesurables et une défense unifiée.
Quels bénéfices pour un CISO grâce à cette approche ?
- Moins de silos, plus de contexte : un seul plan de données pour corréler télémétries et enrichissements (identités, actifs, cloud, SaaS).
- Du tableau de bord à l’action : des agents qui opèrent selon des politiques et avec une traçabilité, clôturant ainsi le cycle de détection → analyse → réponse.
- Gouvernance horizontale : catalogues et contrôles uniformes (Unity Catalog/Delta Lake) entre équipes et environnements (local, cloud, edge).
- Santé financière du SOC : stockage et calcul optimisés dans le lakehouse, avec une ouverture pour éviter les coûts dysfonctionnels et la dépendance aux outils SIEM.
Cas d’usage pertinents
- Détection et réponse (SecOps) : unification des logs (cloud, EDR/NDR, SaaS), détéctions en streaming et playbooks actionnables par agents.
- Threat hunting et détection de fraudes avec recherche conversationnelle et modèles propre (pas génériques).
- Etat de la posture de sécurité des données : intégration avec classification, découverte et protection des données sensibles (par exemple avec Varonis).
- MDR/MSSP : plateformes traitant des volumes massifs et nécessitant des coûts linéaires, elasticité et de l’IA propriétaire.
Risques et questions à considérer (vision équilibrée)
- Gouvernance des agents : définir limites d’action, approbations humaines et traçabilité pour éviter des automatismes dangereux.
- Qualité des données : un lac unifié ne donne de résultats que si le modélisation, la normalisation et le catalogue sont réalisés ; sinon, garbage in ⇒ garbage out.
- Coexistence avec le SIEM : arbitrer ce qui reste dans le SIEM (conformité, rétention légale) et ce qui migre dans le lakehouse (analytique/IA, économies d’échelle).
- Latence et coûts : dimensionner le traitement en streaming et batch, ainsi que l’utilisation du stockage, pour équilibrer temps réel et budget.
- Vie privée et transferts : si des données personnelles sont traitées, respecter le RGPD, NIS2, DORA et mettre en place des mécanismes de transfert appropriés.
Schéma architectural (vue d’ensemble)
- Ingestion : connecteurs vers sources (cloud, endpoints, réseau, SaaS) → Delta Lake avec schémas gérés.
- Traitement : Spark/Structured Streaming + modèles (MLflow) + features (Feature Store).
- Gouvernance : Unity Catalog (politiques, filiation, masquage).
- Action : Agent Bricks orchestrant playbooks avec barrières de sécurité, intégrés avec ITSM, EDR/NDR, IAM, firewalls.
- Observabilité : tableaux de bord, NLQ (requêtes en langage naturel), métriques de détection et MTTR.
Conclusion
Cette annonce place Databricks au cœur d’une tendance désormais incontournable : la cybersécurité en tant que problème de données à grande échelle et d’agents qui interviennent avec une gouvernance. Pour les organisations freinées par des silos, des coûts ou des modèles génériques, la combinaison de lakehouse et d’agents ouvre une voie prometteuse vers une détection plus rapide, une enquête enrichie et une réponse fluide. La réussite dépendra de la qualité de l’ingestion, des contrôles des agents, et de la capacité à maintenir une coexistence efficace avec le SIEM.
Pour plus d’informations, Databricks a publié des ressources techniques, des solutions briefs et des cas clients dans son blog et ses pages dédiées à Data Intelligence for Cybersecurity.