Rebellions a annoncé l’acquisition de SqueezeBits, une startup sud-coréenne spécialisée dans l’optimisation de l’inférence et la compression de modèles d’intelligence artificielle. Cette opération renforce une tendance de plus en plus perceptible sur le marché des infrastructures IA : produire des chips ne suffit plus. Pour rivaliser sur des déploiements réels, il faut également maîtriser le logiciel qui permet d’exécuter ces modèles avec rapidité, coût maîtrisé et fiabilité.
L’entreprise basée à Séoul souhaite évoluer d’un fabricant de NPUs vers un fournisseur d’infrastructures IA complet, de bout en bout. Avec SqueezeBits, Rebellions intègre une pièce essentielle qu’elle travaillait déjà en collaboration étroite : l’optimisation de modèles, la réduction de la charge computationnelle, le logiciel de mise en service (serving) et l’adaptation de frameworks ouverts tels que vLLM à des environnements basés sur NPU. Rebellions affirme que les deux sociétés collaborent depuis 2024 sur des technologies de compression de modèles et des logiciels dédiés à ses puces.
Le message de fond est clair : la bataille dans le domaine de l’IA d’entreprise se déplace vers l’inférence, c’est-à-dire le moment où un modèle répond à une requête réelle d’un utilisateur, d’une application ou d’un système. C’est ici que se décident le coût par requête, la latence, la consommation électrique, ainsi que la capacité à faire évoluer un service sans que la facture explose.
Du chip au système complet
Rebellions ne souhaite pas se limiter à une image de fabricant de semi-conducteurs. Suite à l’acquisition de SqueezeBits, sa proposition se concentre désormais sur une plateforme intégrée combinant hardware NPU, optimisation logicielle et inférence en mode service. Cela signifie couvrir toutes les étapes : depuis la réception d’une requête jusqu’à l’exécution du modèle et la transmission de la réponse.
Cette tendance s’inscrit dans un cadre plus large. En IA générative, la performance brute du chip compte, mais ne suffit pas à expliquer à elle seule la qualité du résultat final. Un accélérateur peut être efficace sur le papier, mais sous-performer si le modèle n’est pas bien adapté, si le serving n’exploite pas adéquatement le hardware, si la gestion mémoire est déficiente ou si la pile logicielle oblige les développeurs à réécrire trop de code.
SqueezeBits apporte précisément cette expertise. Fondée en mars 2022, l’entreprise travaille sur la compression et l’optimisation de modèles pour réduire les coûts de déploiement et d’exploitation des services IA. Rebellions souligne que la startup a collaboré avec des acteurs mondiaux du hardware comme Intel ou NVIDIA, en développant des technologies pour accélérer les modèles tout en réduisant leurs coûts dans divers environnements informatiques.
| Élément de l’infrastructure | Ce qu’apporte l’acquisition |
|---|---|
| NPU de Rebellions | Hardware spécialisé pour l’inférence IA |
| Compression de modèles | Réduction de la consommation mémoire et calcul |
| Optimisation de l’inférence | Latence réduite et meilleure exploitation du accélérateur |
| Serving | Exécution des modèles en production |
| vLLM et frameworks ouverts | Moins de barrières pour les développeurs |
| Intégration full-stack | Moins de travail manuel lors des déploiements |
L’aspect clé est l’intégration. Beaucoup d’entreprises cherchent des alternatives aux GPU pour l’inférence, mais ne veulent pas s’engager dans une migration complexe. Si un NPU nécessite de trop grands changements dans le code, les outils ou le processus de déploiement, ses avantages en termes de coût ou de consommation peuvent rester anecdotiques en laboratoire. D’où l’importance fondamentale du logiciel, aussi essentiel que le silicium.
vLLM, PyTorch et la nécessité de préserver le flux de développement
Rebellions et SqueezeBits avaient déjà collaboré dans la communauté sud-coréenne de développeurs via des ateliers centrés sur vLLM, un framework open source très utilisé pour l’inférence de grands modèles de langage. Dans un résumé technique publié par SqueezeBits, les deux sociétés expliquaient que ces ateliers s’étaient déroulés sur des serveurs NPU ATOM-MAX de Rebellions, avec Kubernetes comme couche d’infrastructure et des flux basés sur PyTorch, Optimum et vLLM.
Ce détail est plus important qu’il n’y paraît. L’adoption de nouveaux accélérateurs ne dépend pas uniquement de benchmarks, mais aussi de la capacité des équipes à utiliser des outils familiers, à maintenir leurs méthodes de déploiement et à obtenir des gains sans tout réécrire. SqueezeBits soulignait dans cet atelier que le plugin vLLM-RBLN permet de conserver la majorité du flux de code habituel pour GPU, avec seulement quelques modifications.
Pour Rebellions, l’acquisition de SqueezeBits permet de faire évoluer cette couche au sein de son offre. Ce n’est pas qu’un achat de talents : c’est une étape pour réduire l’écart entre hardware spécialisé et applications concrètes. Sur un marché dominé par NVIDIA, les alternatives doivent offrir plus que des chips efficaces : elles doivent garantir à leurs développeurs une exécution fluide des modèles, un support clair pour les clients, et une performance opérationnelle fiable.
Une étape stratégique dans la voie de l’indépendance IA coréenne
C’est aussi une lecture industrielle. Rebellions s’inscrit comme une des initiatives sud-coréennes les plus visibles pour bâtir une filière IA locale. En décembre 2024, elle a finalisé sa fusion avec SAPEON Korea, qu’elle présentait comme la naissance du premier unicorn coréen de chips IA sous la marque Rebellions. Cette opération a fusionné les capacités de deux acteurs nationaux du semi-conducteur IA et renforcé la dimension internationale de la société.
Avec SqueezeBits, l’objectif s’élargit : il ne s’agit plus seulement d’intégrer deux fabricants de chips, mais d’incorporer des logiciels d’inférence et d’optimisation. Rebellions affirme que cette acquisition s’inscrit dans une stratégie de construction d’une infrastructure IA souveraine, en rappelant que, en mars 2026, elle a été sélectionnée comme premier investissement direct du Fonds de croissance national, reflétant l’ambition de créer une sorte de “K-NVIDIA”.
Il ne faut pas prendre la comparaison avec NVIDIA trop littéralement. La société n’est pas seulement leader grâce à ses GPUs, mais aussi grâce à CUDA, ses bibliothèques, ses réseaux, ses systèmes complets, ses logiciels d’inférence, son support aux développeurs et un vaste réseau de partenaires. Si la Corée veut bâtir un acteur local capable de rivaliser, elle doit mobiliser une offre cohérente : chips, logiciels, outils, communauté, cas d’usage.
Dans ce contexte, SqueezeBits pourrait jouer un rôle clé. La compression de modèles, qui réduit mémoire, accélère la réponse et optimise l’usage du hardware, devient une couche différenciante essentielle pour rendre une infrastructure compétitive, avec un argument fort en faveur de la souveraineté technologique.
L’inférence au cœur de la stratégie commerciale
Cette opération illustre une tendance croissante : la prochaine étape de l’IA ne se mesurera pas seulement à la taille des modèles entraînés, mais à leur capacité à fonctionner efficacement en production. Chaque chatbot d’entreprise, agent, moteur de recherche interne, copilote, outil d’analyse ou système automatisé requiert une inférence continue. Le coût opérationnel devient ainsi une question centrale.
Dans ce contexte, la compression, la quantification, la gestion mémoire, le batching, le caching et le serving deviennent des éléments bien plus que techniques : ce sont des facteurs déterminants pour la viabilité économique d’un service.
Rebellions se positionne idéalement sur ce terrain. Son objectif est de permettre à ses clients d’utiliser des NPUs comme infrastructures d’inférence, sans complexité accrue. L’acquisition de SqueezeBits vise justement à réduire cette friction, à simplifier le déploiement et à favoriser une adoption plus large.
Cette opération ne garantit pas à elle seule la compétition face aux géants du secteur – NVIDIA, AMD, Intel, Google, AWS, Huawei et autres disposent de ressources, de clients et de plateformes bien établis. Toutefois, elle montre que la société sud-coréenne a bien compris l’enjeu critique : en IA, le hardware sans logiciel reste incomplet. Et en inference, l’efficacité ne se traduit que si elle parvient jusqu’à la production.
Questions fréquentes
Qu’a acheté Rebellions ?
Rebellions a acquis SqueezeBits, une startup spécialisée dans l’optimisation de l’inférence, la compression de modèles et le software pour exécuter l’IA de façon plus efficace.
Pourquoi cette acquisition est-elle stratégique ?
Parce qu’elle permet à Rebellions d’intégrer hardware NPU, optimisation logicielle et serving d’inférence sur une même plateforme, simplifiant ainsi la vie des clients.
Qu’est-ce que l’inférence en IA ?
C’est la phase où un modèle entraîné reçoit une requête, la traite et fournit une réponse. C’est la partie qui pèse le plus dans le déploiement à grande échelle.
Quel était le lien entre Rebellions et SqueezeBits avant l’acquisition ?
Depuis 2024, ils collaboraient sur la compression de modèles, le logiciel pour NPUs et des activités pour développeurs utilisant vLLM.
Que signifie “K-NVIDIA” ?
C’est une référence à l’ambition de la Corée du Sud de bâtir un acteur national capable de rivaliser dans le domaine des infrastructures IA, en matière de chips, logiciels et systèmes.
via : rebellions.ai