Cloudflare a annoncé le déploiement général de sa prochaine génération de serveurs, la Generation 12 (Gen 12), propulsée par les processeurs AMD EPYC 9684X (nom de code « Genoa-X »). Cette nouvelle génération se concentre sur l’offre d’une performance exceptionnelle à tous les services de Cloudflare, l’amélioration du support pour les charges de travail d’intelligence artificielle et d’apprentissage automatique, la réalisation de progrès significatifs en efficacité énergétique et l’amélioration des caractéristiques de sécurité.
Parmi les principales améliorations apportées par cette génération par rapport à la précédente, on trouve :
- Performance doublée : Grâce à une collaboration étroite entre Cloudflare et AMD, les serveurs Gen 12 peuvent gérer plus du double de requêtes par seconde (RPS) que les serveurs Gen 11, résultant en des coûts d’infrastructure réduits.
- Plus grande efficacité énergétique : L’efficacité en RPS par watt s’est améliorée de plus de 60 % par rapport à la génération précédente. Cela aide à réduire les dépenses opérationnelles et l’empreinte carbone de Cloudflare.
- Meilleur support pour l’IA et le ML : La conception thermo-mécanique des serveurs Gen 12 a été mise à jour pour supporter des GPU plus puissants, permettant de gérer de plus grands modèles de langage et d’augmenter la performance pour les modèles plus petits.
- Améliorations de la sécurité : Des capacités de root of trust matériel (HRoT) ont été intégrées pour assurer l’intégrité du firmware de démarrage et du contrôleur de gestion de la carte. De plus, le module de contrôle sécurisé de centres de données (DC-SCM) est modulaire et agnostique du fournisseur, permettant une image unifiée de l’openBMC et un prototypage plus rapide.
- Stratégie multi-fournisseurs : Afin d’assurer la continuité et la résilience dans le déploiement de son infrastructure, Cloudflare a adopté une stratégie robuste multi-fournisseurs pour atténuer les risques dans la chaîne d’approvisionnement.
Détails techniques du serveur Gen 12
Le serveur Gen 12 a les spécifications suivantes :
Caractéristiques | Gen 12 | Gen 11 Précédent |
---|---|---|
Format | 2U1N – Un seul socket | 1U1N – Un seul socket |
Processeur | AMD EPYC 9684X Genoa-X de 96 cœurs | AMD EPYC 7713 Milan de 64 cœurs |
Mémoire | 384 Go de DDR5-4800 x12 canaux de mémoire |
384 Go de DDR4-3200 x8 canaux de mémoire |
Stockage | 2x NVMe E1.S de 7,68 To | 2x NVMe M.2 de 1,92 To |
Réseau | Dual 25 GbE OCP 3.0 | Dual 25 GbE OCP 2.0 |
Gestion du Système | DC-SCM 2.0 ASPEED AST2600 (BMC) + AST1060 (HRoT) |
ASPEED AST2500 (BMC) |
Alimentation | 800W – Niveau Titanium | 650W – Niveau Titanium |
Comparaison des modèles de CPU
Cloudflare a évalué plusieurs options de CPU pour la Gen 12, se concentrant sur trois candidats principaux de la série AMD EPYC de 4e génération : Genoa 9654, Bergamo 9754 et Genoa-X 9684X. Voici les différences dans les spécifications entre ces modèles et l’AMD EPYC 7713 utilisé dans les serveurs Gen 11 :
Modèle de CPU | AMD EPYC 7713 | AMD EPYC 9654 | AMD EPYC 9754 | AMD EPYC 9684X |
---|---|---|---|---|
Série | Milan | Genoa | Bergamo | Genoa-X |
Cœurs de CPU | 64 | 96 | 128 | 96 |
Fils | 128 | 192 | 256 | 192 |
Fréquence de Base | 2,0 GHz | 2,4 GHz | 2,25 GHz | 2,4 GHz |
Fréquence Maximale | 3,67 GHz | 3,7 GHz | 3,1 GHz | 3,7 GHz |
Fréquence Boost (tous les cœurs) | 2,7 GHz* | 3,55 GHz | 3,1 GHz | 3,42 GHz |
Cache L3 Total | 256 Mo | 384 Mo | 256 Mo | 1.152 Mo |
Cache L3 par cœur | 4 Mo | 4 Mo | 2 Mo | 12 Mo |
TDP Maximum | 240W | 400W | 400W | 400W |
*Note : La fréquence boost de tous les cœurs de l’AMD EPYC 7713 de 2.7 GHz n’est pas une spécification officielle, mais se base sur des données recueillies dans la flotte de production de Cloudflare.
Performance et efficacité
Lors des tests, chacune de ces CPU a dépassé en performance au moins 2 fois la génération précédente. L’AMD EPYC 9684X « Genoa-X » avec la technologie 3D V-cache a offert la plus grande amélioration, avec une performance 2,45 fois supérieure à l’AMD EPYC 7713 « Milan » des serveurs Gen 11.
En comparant les performances entre Genoa-X 9684X et Genoa 9654, une différence d’environ 22,5 % a été observée. La principale différence réside dans la quantité de cache L3 disponible ; le Genoa-X 9684X dispose de 1.152 Mo de cache L3, soit trois fois plus que les 384 Mo du Genoa 9654. Les charges de travail de Cloudflare bénéficient d’un cache de niveau bas plus important, évitant les pénalités de latence associées à la récupération de données depuis la mémoire.
Engagement envers l’efficacité énergétique
Bien que le serveur Gen 12 consomme 600 watts à une température ambiante typique de 25 °C (une augmentation de 50 % par rapport au Gen 11), il offre une augmentation de 145 % en performance. L’efficacité énergétique s’est améliorée de 63 %, ce qui contribue à réduire de manière significative les dépenses opérationnelles et l’empreinte carbone de Cloudflare.
Mémoire et stockage
- Mémoire : Les serveurs Gen 12 utilisent de la mémoire DDR5 avec douze canaux entièrement exploités, offrant une meilleure largeur de bandeLa largeur de bande est la capacité maximale de transfert d… et efficacité. Ils sont configurés avec 384 Go de mémoire, sur la base d’une analyse de l’utilisation optimale et de l’allocation des ressources.
- Stockage : Il y a eu une transition du format M.2 vers le E1.S. Les serveurs sont équipés de deux unités NVMe de 8 To chacune, totalisant 16 To de stockage. Ce changement permet une plus grande capacité et un meilleur refroidissement.
Réseau et connectivité
Une mise à jour vers des cartes réseau compatibles avec OCP 3.0 a été effectuée, en utilisant les adaptateurs Intel Ethernet Network Adapter E810 et NVIDIA Mellanox ConnectX-6 Lx. Ces cartes offrent plus de files d’attente MSI-X, qui peuvent être attribuées au plus grand nombre de cœurs de la CPU AMD EPYC 9684X. En outre, elles fournissent des améliorations dans le support des offloads, réduisant la charge sur le noyau et améliorant la performance.
Améliorations de la sécurité
Les serveurs Gen 12 intègrent le Projet Argus, l’une des premières implémentations du Centre de DonnéesUn centre de données ou centre de calcul de données (CCD) … Secure Control Module 2.0 (DC-SCM 2.0). Cela dissocie les fonctions de gestion et de sécurité du serveur de la carte mère. Le contrôleur de gestion de carte (BMC), le root of trust matériel (HRoT), le module de plateforme sécurisée (TPM) et les mémoires flash doubles pour BMC/BIOS sont installés sur le DC-SCM.
Ces mises à jour rendent les serveurs Gen 12 plus sécurisés et résilients face aux attaques de firmware.
Préparé pour l’IA et le futur
Avec l’augmentation de la demande pour les charges de travail d’apprentissage automatique et d’intelligence artificielle, Cloudflare a conçu le serveur Gen 12 pour accueillir des GPU plus puissants, soutenant son service Workers AI. Cela permet de déployer des GPU de façon stratégique dans des régions clés pour réduire la latence d’inférence pour ses clients.
Regard vers l’avant
Les serveurs Gen 12 sont déjà déployés et opérationnels dans plusieurs centres de données Cloudflare autour du monde, traitant des millions de requêtes par seconde. La société explore déjà la prochaine génération, avec des CPU AMD EPYC de 5e génération (nom de code « Turin ») disponibles pour des tests et la planification de l’architecture du serveur Gen 13.
Source : CloudFlare