Kog AI stimule une révolution dans l’inférence avec AMD MI300X : jusqu’à 3,5 fois plus rapide que les moteurs actuels

Kog AI stimule une révolution dans l'inférence avec AMD MI300X : jusqu'à 3,5 fois plus rapide que les moteurs actuels

Une startup française marque un tournant dans le domaine de l’inférence en intelligence artificielle en annonçant que son moteur d’inférence atteint une vitesse de génération de tokens jusqu’à 3,5 fois supérieure à celle des solutions leaders telles que vLLM et TensorRT-LLM, grâce à l’utilisation de GPUs AMD Instinct™ MI300X. Cette avancée positionne Kog AI à l’avant-garde des plateformes d’inférence de nouvelle génération, renforçant la souveraineté technologique européenne.

Dans le contexte de l’intelligence artificielle générative, la rapidité d’inférence — c’est-à-dire la capacité à produire des réponses séquentielles en temps réel — devient cruciale pour des applications telles que les agents autonomes, les assistants virtuels ou la reconnaissance vocale instantanée. Pourtant, la majorité des moteurs d’inférence actuels restent optimisés pour de gros chats, souvent au détriment de la performance sur des flux individuels complexes.

Kog AI a dévoilé ses premiers essais où son moteur dépasse largement ses concurrents sur toutes les métriques essentielles. Parmi les résultats remarquables : une vitesse allant jusqu’à 3,5 fois plus rapide en génération de tokens, une performance constante allant de modèles de 1 milliard à 32 milliards de paramètres (Llama, Mistral, Qwen), et une latence inter-GPU record de seulement 4 microsecondes, réduisant jusqu’à quatre fois les temps habituels.

Ce moteur d’inférence, performant même avec des modèles compacts, peut être ajusté pour égaler ou dépasser la précision de modèles beaucoup plus volumineux sur des tâches spécifiques, tout en réduisant considérablement les coûts d’infrastructure et en multipliant par dix la vitesse.

Contrairement aux solutions existantes, Kog AI a conçu son moteur « from scratch » en utilisant C++ et du code assembleur hautement optimisé, supprimant ainsi les goulets d’étranglement au niveau matériel et logiciel. Une innovation clé est la création de la bibliothèque KCCL (Kog Collective Communications Library), qui offre des latences ultra-faibles lors de la communication distribuée entre GPU.

Ce système flexible peut s’adapter à divers environnements — locaux, cloud ou hybrides — et peut être déployé via API ou conteneurs Docker, avec une application immédiate dans la transcription vocale en temps réel, les agents autonomes ou les assistants avec raisonnement avancé.

Ce lancement n’est pas seulement technique, mais aussi une déclaration d’indépendance numérique. La startup française incarne une nouvelle vague d’innovation qui vise à réduire la dépendance aux infrastructures américaines ou asiatiques tout en développant une intelligence artificielle souveraine, agile et spécialisée.

« Les applications d’IA modernes ne peuvent tolérer des latences élevées ni des infrastructures inefficaces », déclarent les responsables de Kog. « Notre objectif est de faire de l’inférence en temps réel une norme, et non l’exception. »

Dans un contexte où les coûts d’inférence explosent et où la latence compromet l’expérience utilisateur, la proposition de Kog AI apparaît comme une alternative scalable, performante et souveraine. En s’associant avec AMD et en exploitant le potentiel du MI300X, l’un des accélérateurs d’IA les plus puissants du marché, la France confirme qu’elle peut non seulement rivaliser, mais aussi mener l’innovation pour la prochaine génération d’intelligence artificielle.

le dernier