Depuis plusieurs années, l’« IA en périphérie » sur Raspberry Pi était principalement associée à la vision par ordinateur : détection d’objets, estimation de poses ou segmentation de scènes avec une caméra et un accélérateur dédié. Mais en 2026, le discours a évolué. La popularité des modèles génératifs — en particulier les modèles de langage (LLM) et les modèles vision-langage (VLM) — a déplacé l’attente du simple « reconnaissance visuelle » vers un « compréhension, réponse et assistance ». Ce saut, jusqu’à présent, obligeait souvent à passer par des services cloud, avec leurs coûts récurrents et leurs enjeux de confidentialité.
Dans ce contexte, Raspberry Pi a présenté la Raspberry Pi AI HAT+ 2, une nouvelle carte d’extension dédiée au Raspberry Pi 5 conçue spécifiquement pour combler le vide en IA générative locale : exécuter des inférences hors ligne, avec une faible latence et sans abonnement à des API externes. La proposition s’appuie sur un changement clé par rapport à la génération précédente : un nouvel accélérateur, une puissance d’inférence accrue orientée GenAI et surtout, une mémoire dédiée intégrée à la carte.
Une évolution de paradigme : du « vision accélérée » à l’« IA générative locale »
Raspberry Pi rappelle que le premier AI HAT+ a été lancé il y a un peu plus d’un an en tant qu’extension pour le Raspberry Pi 5, équipée d’accélérateurs Hailo-8 (26 TOPS) et Hailo-8L (13 TOPS), avec pour objectif que tout le traitement reste « sur place », directement sur l’appareil. Ce design permettait de construire des solutions plus respectueuses de la vie privée et indépendantes des services cloud, mais il était optimisé pour des réseaux neuronaux de vision, pas pour la montée en puissance des modèles génératifs.
Le AI HAT+ 2 apparaît précisément pour ce nouveau contexte. Il embarque le Hailo-10H et promet un performance de 40 TOPS (INT4) en inférence, visant à faire tenir les charges de travail de l’IA générative «en pratique» dans un Raspberry Pi 5. À cet accélérateur s’ajoute un élément déterminant : 8 GB de RAM dédiée intégrée à la carte, conçue pour gérer des modèles plus volumineux que ceux habituellement utilisés en edge computing, déchargeant ainsi la RAM de la Raspberry Pi. De plus, l’exécution locale — sans connexion réseau — conserve l’objectif initial : faible latence, confidentialité et maîtrise des coûts face au coût des API.
Par ailleurs, Raspberry Pi affirme que ce nouveau HAT ne remet pas en cause ses performances en vision : pour des modèles tels que YOLO, estimation de pose ou segmentation de scène, ses performances restent comparables à celles de l’AI HAT+ de 26 TOPS, en partie grâce à la RAM embarquée. La compatibilité pratique est aussi préservée : l’AI HAT+ 2 conserve l’intégration avec l’écosystème caméra (libcamera, rpicam-apps et Picamera2), ce qui facilite la transition pour ceux qui utilisaient déjà l’ancien environnement.
Tableau comparatif : AI HAT+ vs AI HAT+ 2
| Caractéristique | Raspberry Pi AI HAT+ | Raspberry Pi AI HAT+ 2 |
|---|---|---|
| Accélérateur | Hailo-8 / Hailo-8L | Hailo-10H |
| Performance (inférences) | 26 TOPS / 13 TOPS | 40 TOPS (INT4) |
| Focus principal | Vision | LLM, VLM et GenAI (sans perte de vision) |
| Mémoire dédiée intégrée | — | 8 GB |
| Intégration avec caméras | Oui | Oui (libcamera, rpicam-apps, Picamera2) |
| Prix annoncé | — | 130 dollars |
Modèles disponibles au lancement
Pour illustrer le concept, Raspberry Pi précise qu’à la mise sur le marché, plusieurs LLM seront disponibles à l’installation (avec des tailles adaptées à un environnement en edge). La liste initiale comprend :
- DeepSeek-R1-Distill (1,5 milliard de paramètres)
- Llama 3.2 (1 milliard)
- Qwen 2.5-Coder (1,5 milliard)
- Qwen 2.5-Instruct (1,5 milliard)
- Qwen 2 (1,5 milliard)
La société anticipe également l’arrivée ultérieure de modèles plus gros via des mises à jour.
Lors des démos, Raspberry Pi utilise un backend LLM nommé hailo-ollama et une interface web sous forme de chat avec Open WebUI, permettant une utilisation depuis un navigateur comme s’il s’agissait d’un assistant traditionnel. Sur scène, on a pu voir des exemples de questions-réponses générales, une tâche de programmation avec un modèle orienté code, une traduction simple, et un cas de VLM décrivant une scène à partir d’une caméra en direct. Tout cela fonctionne localement sur un Raspberry Pi 5 équipé du AI HAT+ 2.
Le véritable enjeu de l’edge : des modèles plus petits, mais adaptables
Raspberry Pi souligne une réalité souvent voilée par les titres : les LLM en cloud dominants opèrent à une autre échelle. Selon la société, les modèles en cloud des acteurs comme OpenAI, Meta ou Anthropic font entre 500 milliards et 2 billions de paramètres, tandis que ceux conçus pour l’AI HAT+ 2 tournent généralement entre 1 et 7 milliards, pour correspondre à la mémoire disponible.
Ce décalage induit une différence inévitable : ces modèles « compacts » ne visent pas à couvrir un spectre de connaissances étendu, mais à être utiles dans un cadre spécifique, avec un ensemble de données et un objectif précis. La solution consiste à la personnalisation : l’AI HAT+ 2 supporte le fine-tuning avec LoRA (Low-Rank Adaptation) et l’utilisation du Hailo Dataflow Compiler pour compiler des adaptateurs et exécuter des modèles affinés pour des tâches concrètes (ex. traduction, reconnaissance vocale ou analyse de scènes). En pratique, cela rapproche l’approche d’une logique « industrielle », orientée produit final : moins de promesses générales, plus de spécialisation selon le cas d’usage.
Disponibilité, montage et cas d’usage
Le Raspberry Pi AI HAT+ 2 est commercialisé à 130 dollars et s’adresse explicitement au Raspberry Pi 5, notamment en raison de sa connectivité via PCI Express, en complément du GPIO. Le document technique mentionne aussi un refroidisseur optionnel recommandé pour les charges intensives, et fixe un objectif de pérennité : le produit restera en production au moins jusqu’à janvier 2036.
En termes d’applications, le concept de « GenAI sans cloud » se traduit par des scénarios où la connectivité n’est pas toujours fiable ou souhaitée : gestion de processus hors ligne, analyse sécurisée de données, gestion d’installations ou robots, entre autres. Ces exemples ne sont pas anodins : ce sont justement les secteurs où le coût par appel à un service cloud, la latence ou la sensibilité des données peuvent transformer un prototype prometteur en une solution impraticable.
Questions fréquentes
À quoi sert le Raspberry Pi AI HAT+ 2 si un AI HAT+ existait déjà ?
Le AI HAT+ initial était optimisé pour la vision (détection d’objets, segmentation, etc.). Le AI HAT+ 2 ajoute un accélérateur dédié à l’IA générative et intègre 8 GB de RAM dédiée, permettant d’exécuter des LLM et VLM localement sur le Raspberry Pi 5.
Quels modèles de langage peut-on installer dès le lancement, et quelle taille font-ils ?
Lors du lancement, sont évoqués des modèles comme DeepSeek-R1-Distill (1,5 milliard), Llama 3.2 (1 milliard) et plusieurs variantes de Qwen (1,5 milliard), avec la perspective d’ajouter ultérieurement des modèles plus volumineux.
Quels avantages présente l’utilisation d’un assistant local sur Raspberry Pi par rapport à une API cloud ?
Principalement la confidentialité des données, la faible latence, le fonctionnement en hors ligne et le contrôle des coûts (pas de paiements à l’usage ni dépendance à un fournisseur externe), un aspect crucial dans des secteurs comme l’industrie, l’éducation ou l’IoT.
Peut-on personnaliser des modèles pour des tâches spécifiques avec l’AI HAT+ 2 ?
Oui, Raspberry Pi indique prendre en charge LoRA pour le fine-tuning des modèles de langage et utiliser le Hailo Dataflow Compiler pour compiler des adaptateurs, facilitant l’exécution de modèles ajustés à des cas d’usage précis (ex. traduction, reconnaissance vocale ou analyse de scènes).
Source : raspberrypi