F5 (NASDAQ : FFIV) a annoncé l’expansion de BIG-IP Next for Kubernetes avec les nouvelles NVIDIA BlueField-4 DPU, ciblant les usines d’IA à l’échelle gigascale. Cette combinaison promet jusqu’à 800 Gb/s de réseau multi-locataire avec contrôle intelligent, des améliorations en sécurité zero-trust et une accélération des charges LLM (inférence), ce qui, selon F5, se traduit par une augmentation de +30 % de la capacité de génération de tokens tout en maintenant des normes “cloud-grade”.
Ce mouvement s’inscrit dans la tendance à transférer les fonctions de réseau et de sécurité vers le DPU (unité de traitement des données) pour libérer les GPU des tâches non liées à l’IA et réduire la latence p99. Dans des environnements avec de énormes fenêtres de contexte, des agents autonomes et un trafic multi-modèle, chaque microseconde compte.
Ce que l’intégration F5 + BlueField-4 apporte en résumé
- Performance, multi-tenance et sécurité : F5 améliore la capacité de tokens de plus de 30 % en déchargeant le chemin de données et les contrôles vers le DPU, tout en préservant l’isolement entre locataires jusqu’à 800 Gb/s.
 - Inférence LLM optimisée : intégration avec NVIDIA Dynamo et KV Cache Manager pour réduire la latence, mieux exploiter le GPU, permettre un service décomposé et s’adapter à une variabilité de la mémoire (modifications du prompt et du contexte).
 - Routage intelligent multi-modèle : via NVIDIA NIM (microservices), le control plane de F5 peut diriger le trafic entre plusieurs modèles pour optimiser le TTFT (Temps Jusqu’au Premier Token), le coût ou la qualité.
 - Gouvernance granulaire des tokens : métriques et visibilité pour la conformité, la comptabilité et la gestion des risques, essentielles en environnement multi-équipes.
 - MCP à grande échelle et sécurisé : protection renforcée du Model Context Protocol, permettant aux agents et outils dépendant du MCP de conserver leur rapidité sans compromis sur la sécurité.
 - Zero-trust sur VM et bare-metal : supporté par NVIDIA DOCA Platform Framework (DPF), avec segmentations des locataires et réseaux d’IA distribués sécurisés par conception.
 - Programmabilité : F5 iRules appliquées aux flux IA pour créer des politiques, rate-limits ou stratégies de sécurité sur mesure.
 
Adaptation pratique : Le DPU accélère et isole le chemin rapide des données (chiffrement, télémétrie, segmentation, WAF/L4-7, etc.), tandis que F5 apporte observation et contrôle pour que le scheduler IA serve plus de tokens avec moins d’attente.
Pourquoi cela est important pour les charges d’IA modernes
1) Plus de tokens par seconde et un meilleur TTFT
- KV-cache actif et géré : moins de misses en cache, moins de sauts vers la mémoire, GPU plus occupé par le calcul réel.
 - Déchargement DPU : moins de switching de contexte sur la CPU hôte, moins de variations et un p99 plus prévisible.
 
2) Efficience dans les clusters hétérogènes
- Avec NIM, le control plane peut équilibrer entre modèles/versions (coût/latence/qualité) de façon transparente pour le client.
 - Idéal pour les zones isolées, les tests A/B, le fallback régional ou géographique, ou la dégration progressive en pointe.
 
3) Sécurité et multi-tenance sans perte de performance
- DOCA/DPF permet la micro-segmentation des locataires et services IA (par projet, équipe ou client), avec chiffrement et politiques proches de la couche physique.
 - Réduction de la surface d’exposition sur l’hôte et conformité facilitée dans les environnements réglementés.
 
4) Gouvernance de l’utilisation
- Accountability des tokens par modèle/locataire/file d’attente : base pour facturation interne, visualisation, gestion des budgets ou détection d’abus.
 
Positionnement dans la chaîne de valeur d’une “fábrica d’IA”
Couche physique/IO : BlueField-4 DPU (accélération réseau, chiffrement, télémétrie, DOCA).
Couche réseau/sécurité L4-L7 : F5 BIG-IP Next for Kubernetes (proxy de service, WAF/API, équilibrage, iRules).
Couche de serving et orchestration des modèles : NVIDIA NIM + Dynamo + KV Cache Manager (runtime, planificateurs, gestion mémoire/état).
Couche applicative : gateways IA, routeurs multi-modèles, MCP, agents.
La proposition consiste à désagréger le serving (état, cache, contrôle) du calcul sur GPU et à pousser la gestion réseau/sec urité vers le DPU, pour scaler par blocs (plus de nœuds, mêmes SLOs).
Considérations pour une adoption planifiée
- Topologies : valider le débit effectif par nœud (jusqu’à 800 Gb/s est la limite de l’interface ; considérer goodput avec chiffrement, télémétrie et politiques actives).
 - SLOs : définir TTFT, tokens/s, p95/p99 et budgets d’erreur par queue/modèle/locataire ; activer l’autoscaling basé sur des métriques réelles (file d’attente, utilisation, hit cache).
 - Politiques et iRules : rate-limit par locataire, capping des tokens, fallback de modèle, circuit breaking vers routes saturées.
 - Observabilité : traçabilité L7 + comptabilisation des tokens + utilisation GPU; alerte en cas de dégrégation du KV-cache ou de dérive de latence.
 - Sécurité : DOCA/DPF pour la micro-segmentation, mTLS entre microservices, WAF/security API sur les endpoints publics et politiques MCP renforcées.
 - Coûts : comparer tokens/$ avec GPU libérée vs. coûts du DPU et empreinte F5 ; mesurer l’économie réalisée par la consolidation des fonctions réseau/securité.
 
Cas d’usage type
- Inférence multi-modèle (grandes fenêtres de contexte) avec SLO de TTFT faible.
 - Trafic multi-locataires (équipes/clients) avec limite de budget et priorités.
 - Conformité (comptabilité des tokens, traçabilité des décisions, politiques auditables).
 - Déploiements hybrides : VM et bare-metal en on-prem/colo avec Zero Trust cohérent.
 
Les petites écritures
F5 présente son annonce comme une expansion de sa solution Kubernetes basée sur BlueField-4 ; les bénéfices évoqués (comme +30 % de capacité de tokens) dépendent du disegn, chargement et tuning. Comme toute communication produit, elle comporte des déclarations prospectives soumises à l’intégration, au contexte et aux résultats variables selon l’environnement.
Résumé
F5 et NVIDIA poussent le réseau et la sécurité dans le DPU et désagregent le serving pour que les GPU se consacrent à l’IA, et non à l’envoi de paquets. Avec BIG-IP Next for Kubernetes sur BlueField-4, les organisations peuvent servir plus de tokens, plus tôt, avec moins de jitter, maintenir l’isolement des locataires et gouverner l’usage, une combinaison clé pour la prochaine vague d’usines d’IA et de systèmes agentifs.
via : f5.com