Cloudflare lance sa 12e génération de serveurs : 145 % plus performants et 63 % plus efficaces

Cloudflare a annoncé le déploiement général de sa prochaine génération de serveurs, la Generation 12 (Gen 12), propulsée par les processeurs AMD EPYC 9684X (nom de code « Genoa-X »). Cette nouvelle génération se concentre sur l’offre d’une performance exceptionnelle à tous les services de Cloudflare, l’amélioration du support pour les charges de travail d’intelligence artificielle et d’apprentissage automatique, la réalisation de progrès significatifs en efficacité énergétique et l’amélioration des caractéristiques de sécurité.

Parmi les principales améliorations apportées par cette génération par rapport à la précédente, on trouve :

  • Performance doublée : Grâce à une collaboration étroite entre Cloudflare et AMD, les serveurs Gen 12 peuvent gérer plus du double de requêtes par seconde (RPS) que les serveurs Gen 11, résultant en des coûts d’infrastructure réduits.
  • Plus grande efficacité énergétique : L’efficacité en RPS par watt s’est améliorée de plus de 60 % par rapport à la génération précédente. Cela aide à réduire les dépenses opérationnelles et l’empreinte carbone de Cloudflare.
  • Meilleur support pour l’IA et le ML : La conception thermo-mécanique des serveurs Gen 12 a été mise à jour pour supporter des GPU plus puissants, permettant de gérer de plus grands modèles de langage et d’augmenter la performance pour les modèles plus petits.
  • Améliorations de la sécurité : Des capacités de root of trust matériel (HRoT) ont été intégrées pour assurer l’intégrité du firmware de démarrage et du contrôleur de gestion de la carte. De plus, le module de contrôle sécurisé de centres de données (DC-SCM) est modulaire et agnostique du fournisseur, permettant une image unifiée de l’openBMC et un prototypage plus rapide.
  • Stratégie multi-fournisseurs : Afin d’assurer la continuité et la résilience dans le déploiement de son infrastructure, Cloudflare a adopté une stratégie robuste multi-fournisseurs pour atténuer les risques dans la chaîne d’approvisionnement.

Détails techniques du serveur Gen 12

Le serveur Gen 12 a les spécifications suivantes :

Caractéristiques Gen 12 Gen 11 Précédent
Format 2U1N – Un seul socket 1U1N – Un seul socket
Processeur AMD EPYC 9684X Genoa-X de 96 cœurs AMD EPYC 7713 Milan de 64 cœurs
Mémoire 384 Go de DDR5-4800
x12 canaux de mémoire
384 Go de DDR4-3200
x8 canaux de mémoire
Stockage 2x NVMe E1.S de 7,68 To 2x NVMe M.2 de 1,92 To
Réseau Dual 25 GbE OCP 3.0 Dual 25 GbE OCP 2.0
Gestion du Système DC-SCM 2.0
ASPEED AST2600 (BMC) + AST1060 (HRoT)
ASPEED AST2500 (BMC)
Alimentation 800W – Niveau Titanium 650W – Niveau Titanium

Comparaison des modèles de CPU

Cloudflare a évalué plusieurs options de CPU pour la Gen 12, se concentrant sur trois candidats principaux de la série AMD EPYC de 4e génération : Genoa 9654, Bergamo 9754 et Genoa-X 9684X. Voici les différences dans les spécifications entre ces modèles et l’AMD EPYC 7713 utilisé dans les serveurs Gen 11 :

Modèle de CPU AMD EPYC 7713 AMD EPYC 9654 AMD EPYC 9754 AMD EPYC 9684X
Série Milan Genoa Bergamo Genoa-X
Cœurs de CPU 64 96 128 96
Fils 128 192 256 192
Fréquence de Base 2,0 GHz 2,4 GHz 2,25 GHz 2,4 GHz
Fréquence Maximale 3,67 GHz 3,7 GHz 3,1 GHz 3,7 GHz
Fréquence Boost (tous les cœurs) 2,7 GHz* 3,55 GHz 3,1 GHz 3,42 GHz
Cache L3 Total 256 Mo 384 Mo 256 Mo 1.152 Mo
Cache L3 par cœur 4 Mo 4 Mo 2 Mo 12 Mo
TDP Maximum 240W 400W 400W 400W

*Note : La fréquence boost de tous les cœurs de l’AMD EPYC 7713 de 2.7 GHz n’est pas une spécification officielle, mais se base sur des données recueillies dans la flotte de production de Cloudflare.

Performance et efficacité

Lors des tests, chacune de ces CPU a dépassé en performance au moins 2 fois la génération précédente. L’AMD EPYC 9684X « Genoa-X » avec la technologie 3D V-cache a offert la plus grande amélioration, avec une performance 2,45 fois supérieure à l’AMD EPYC 7713 « Milan » des serveurs Gen 11.

En comparant les performances entre Genoa-X 9684X et Genoa 9654, une différence d’environ 22,5 % a été observée. La principale différence réside dans la quantité de cache L3 disponible ; le Genoa-X 9684X dispose de 1.152 Mo de cache L3, soit trois fois plus que les 384 Mo du Genoa 9654. Les charges de travail de Cloudflare bénéficient d’un cache de niveau bas plus important, évitant les pénalités de latence associées à la récupération de données depuis la mémoire.

Engagement envers l’efficacité énergétique

Bien que le serveur Gen 12 consomme 600 watts à une température ambiante typique de 25 °C (une augmentation de 50 % par rapport au Gen 11), il offre une augmentation de 145 % en performance. L’efficacité énergétique s’est améliorée de 63 %, ce qui contribue à réduire de manière significative les dépenses opérationnelles et l’empreinte carbone de Cloudflare.

Mémoire et stockage

  • Mémoire : Les serveurs Gen 12 utilisent de la mémoire DDR5 avec douze canaux entièrement exploités, offrant une meilleure largeur de bande et efficacité. Ils sont configurés avec 384 Go de mémoire, sur la base d’une analyse de l’utilisation optimale et de l’allocation des ressources.
  • Stockage : Il y a eu une transition du format M.2 vers le E1.S. Les serveurs sont équipés de deux unités NVMe de 8 To chacune, totalisant 16 To de stockage. Ce changement permet une plus grande capacité et un meilleur refroidissement.

Réseau et connectivité

Une mise à jour vers des cartes réseau compatibles avec OCP 3.0 a été effectuée, en utilisant les adaptateurs Intel Ethernet Network Adapter E810 et NVIDIA Mellanox ConnectX-6 Lx. Ces cartes offrent plus de files d’attente MSI-X, qui peuvent être attribuées au plus grand nombre de cœurs de la CPU AMD EPYC 9684X. En outre, elles fournissent des améliorations dans le support des offloads, réduisant la charge sur le noyau et améliorant la performance.

Améliorations de la sécurité

Les serveurs Gen 12 intègrent le Projet Argus, l’une des premières implémentations du Centre de Données Secure Control Module 2.0 (DC-SCM 2.0). Cela dissocie les fonctions de gestion et de sécurité du serveur de la carte mère. Le contrôleur de gestion de carte (BMC), le root of trust matériel (HRoT), le module de plateforme sécurisée (TPM) et les mémoires flash doubles pour BMC/BIOS sont installés sur le DC-SCM.

Ces mises à jour rendent les serveurs Gen 12 plus sécurisés et résilients face aux attaques de firmware.

Préparé pour l’IA et le futur

Avec l’augmentation de la demande pour les charges de travail d’apprentissage automatique et d’intelligence artificielle, Cloudflare a conçu le serveur Gen 12 pour accueillir des GPU plus puissants, soutenant son service Workers AI. Cela permet de déployer des GPU de façon stratégique dans des régions clés pour réduire la latence d’inférence pour ses clients.

Regard vers l’avant

Les serveurs Gen 12 sont déjà déployés et opérationnels dans plusieurs centres de données Cloudflare autour du monde, traitant des millions de requêtes par seconde. La société explore déjà la prochaine génération, avec des CPU AMD EPYC de 5e génération (nom de code « Turin ») disponibles pour des tests et la planification de l’architecture du serveur Gen 13.

Source : CloudFlare

le dernier