Together AI active ses GPU en Suède et accélère son « atterrissage » européen avec des ateliers d’IA pour ingénieurs

Together AI active ses GPU en Suède et accélère son « atterrissage » européen avec des ateliers d'IA pour ingénieurs

La compagnie d’infrastructure cloud accélérée pour l’IA renforce sa présence en Europe avec une infrastructure opérationnelle en Suède et entame une tournée de formations techniques débutant à Amsterdam. Elle promet une latence réduite pour le Nord et le Centre de l’Europe, la résidence des données dans l’UE, et une sélection pratique de techniques pour ajuster des modèles ouverts.

Together AI annonce une nouvelle étape dans sa stratégie européenne : une infrastructure GPU en service en Suède, accompagnée d’une série d’ateliers gratuits pour former ingénieurs et équipes techniques à l’affinement et au déploiement de modèles ouverts. Le premier atelier — axé sur la mise à jour et la personnalisation de LLM — se tiendra à Amsterdam le 10 septembre.

Ce mouvement allie puissance technologique et accompagnement pédagogique. D’un côté, une région nordique qui rapproche le calcul des utilisateurs du Nord et du Centre du continent ; de l’autre, des événements qui abordent des sujets très spécifiques : post-entrainement (SFT, optimisation des préférences et récompenses vérifiables), décodage spéculatif personnalisé (avec des références à des accélérations de plus de 1,85× sur des modèles comme DeepSeek R1), et quantification pour compresser les LLM et réduire les coûts d’inférence. Selon l’entreprise, l’objectif est que les clients ne se contentent pas d’utiliser les capacités, mais apprennent aussi à exploiter les modèles ouverts avec des coûts et une latence plus faibles.

Infrastructure en Suède : résidence de données et latences plus faibles… qui valent de l’or

La nouvelle région de Together AI en Suède héberge son API d’inférence sans serveur pour une gamme de modèles ouverts populaires — tels que gpt-oss, DeepSeek, Meta Llama et Qwen — et permet également aux clients de solliciter des grappes de GPU et des endpoints dédiés directement sur le territoire suédois.

La société met en avant deux bénéfices opérationnels immédiats :

  • Conformité et résidence des données dans l’UE. En positionnant les serveurs GPU en Suède, les équipes juridiques et de sécurité des clients européens disposent d’un point d’ancrage juridictionnel pour répondre aux exigences de gouvernance et de transparence. Dans les secteurs réglementés ou soumis à des audits stricts, ce vecteur n’est pas anecdotique : évite les transferts de données inutiles et facilite le dialogue avec les autorités et les comités de risque.
  • Réduction de la latence perceptible. En rapprochant l’inférence de l’utilisateur final, le temps de trajet réseau peut être réduit entre 50 et 70 ms, ce qui — dans des applications interactives — se traduit par des améliorations du temps de réponse jusqu’à 25–30 %. Pour le chat, l’édition assistée, les agents invoquant des outils ou les flux de complétion incrémentale, ces millisecondes se sentent.

Pour ceux ayant besoin de canaux exclusifs de capacité, les endpoints dédiés et clusters sur demande restent la réponse. Le témoignage de Caesar (caesar.xyz) — plateforme d’IA axée sur la recherche approfondie et les professionnels du savoir — illustre cette approche hybride :

« Nous utilisons actuellement les endpoints dédiés de Together (une implémentation de 8×H200 Llama 4 Maverick) pour impulser notre phase de transformation avec une haute concurrence et de grandes fenêtres de contexte. À l’approche du lancement public, nous sommes enthousiastes à l’idée de déployer nos charges de travail dans la nouvelle région de Together AI en Suède pour offrir une latence plus faible et répondre aux besoins de données de la région des clients européens. La combinaison de capacité dédiée et de elasticité sans serveur de Together AI nous permet d’escalader rapidement à mesure que la demande augmente.” — Mark McKenzie, fondateur de Caesar.

Le message pour le marché est clair : capacité dédiée lorsque la charge est stable ou que le SLA l’exige, et mode serverless pour absorber les pics et contenir les coûts dans des scénarios imprévisibles — deux modes qui cohabitent et peuvent être orchestrés depuis la même plateforme.

L’autre « aile » : ateliers pratiques pour faire monter en compétence les équipes

La société ne se limite pas à activer des serveurs ; elle souhaite également accroître la courbe d’apprentissage des développeurs et des équipes data. C’est pourquoi, parallèlement à l’ouverture en Suède, elle lance une tournée d’ateliers sur l’amélioration des compétences en IA. Le premier, à Amsterdam le 10 septembre, porte sur la façon de mettre à jour et personnaliser des modèles ouverts à l’aide de méthodes éprouvées en production.

Les contenus annoncés couvrent trois axes essentiels pour transformer un prototype en un système robuste :

  1. Post-entrainement avec SFT, préférences et récompenses vérifiables.
    • SFT avec des données spécifiques au domaine : préparer et mélanger des jeux de données spécialisés (juridique, financier ou industriel) pour que le modèle parle « la langue » du métier.
    • Optimisation des préférences : ajuster les réponses selon des critères de qualité définis par l’équipe (style, précision, ton, sécurité).
    • Récompenses vérifiables : intégrer des signaux mesurables — tests, contrôles, règles — qui réduisent la subjectivité et aident à scaler l’alignement sans augmenter considérablement les coûts d’étiquetage.
  2. Décodage spéculatif « à la carte ».
    • Utiliser un modèle « brouillon » (draft) ajusté au domaine pour pré-générer des tokens et accélérer l’inférence du grand modèle.
    • Associé à des stratégies d’acceptation/rejet bien calibrées, Together AI vise à accélérer de plus de 1,85× sur des architectures comme DeepSeek R1, une amélioration importante dans les scénarios à fort trafic ou nécessitant une latence constante.
  3. Quantification pour adapter les grands modèles dans des environnements modérés.
    • Techniques de compression qui réduisent la mémoire et les FLOPs, abaissent les exigences en GPU et rendent les coûts par requête plus abordables, ouvrant la voie à des inférences sur des appareils plus petits ou dans des infrastructures allégées.
    • Pour beaucoup d’organisations, combiner quantification et endpoints proches suffit pour passer de « nous n’avons pas de GPU de haute gamme » à « nous pouvons servir le business avec des SLAs raisonnables et des marges durables ».

À la tête de ce plan, le CEO Vipul Ved Prakash insiste sur l’écosystème : « L’Europe est à la pointe de l’innovation en IA, et nous nous engageons à fournir à ses développeurs et chercheurs l’infrastructure et l’expérience nécessaires pour réussir. Nos investissements en Suède et dans la communauté d’ingénierie en Europe illustrent notre volonté de promouvoir une IA performante, fiable et évolutive dans la région. »

Qu’est-ce que Together AI résout, vraiment ?

Au-delà du discours, la position de Together AI est concrète : entraîner, affiner et exécuter des modèles d’IA générative avec une cloud spécialisée qui privilégie performance, contrôle et coût. La plateforme supporte des modèles ouverts et personnalisés dans plusieurs modalités, permettant au client de choisir comment déployer avec des niveaux ajustables de confidentialité et de sécurité. En somme : elle ne impose pas un seul modèle ni une façon fermée de consommer ; elle ouvre à des architectures modulables.

Sur le plan opérationnel, la région suédoise étend le réseau mondial qui sert son API sans serveur. En termes de capacités, les endpoints dédiés et clusters GPU à la demande offrent stabilité de performance et Isolation, deux qualités essentielles lorsque les charges sont critiques, que les prompts utilisent des ventanes de contexte très larges ou que le business exige une tracabilité fine du débit.

Le résultat pratique pour une plateforme, c’est qu’elle peut :

  • Ancrer les données et le traffic dans l’UE pour simplifier la conformité.
  • Réduire la latence pour les utilisateurs du Nord et du Centre de l’Europe sans besoin de réarchitecturer toute la pile technologique.
  • Hybrider consommation élastique (serverless) avec capacité fixe (dédiée), selon les schémas de charge.
  • Adopter des techniques modernes de post-formation, décodage et quantification, sans repartir de zéro.

Pourquoi maintenant ? La latence, les coûts et les talents

Le contexte européen explique le timing. En parallèle à la montée en puissance des agents, copilotes et expériences conversationnelles, les équipes techniques rencontrent trois tendances :

  • La latence comme élément d’expérience utilisateur : 50–70 ms en moins modifient la perception dans le chat, la recherche générative ou l’assistance intégrée. Sur des marchés matures, cette différence peut faire pencher la balance.
  • Le coût par token : la discussion dépasse le « quel modèle » pour devenir « combien ça coûte » à grande échelle. Techniques comme le décodage spéculatif et la quantification sont des leviers d’efficacité.
  • La pénurie d’experts : il existe du talent, mais pas partout ni avec la même expertise technologique. Les ateliers ont pour but de réduire l’écart entre ce qui est publié dans les publications et ce qui fonctionne réellement dans des architectures concrètes, avec métriques, observabilité et SLA.

Du point de vue business, avoir une région nordique réduit les hops du réseau vers des marchés comme Suecia, Danemark, Norvège, Finlande, Pays-Bas ou Allemagne. Et l’ancrage légal dans l’UE diminue la friction dans les achats, l’audit, la sécurité et la gestion de risque, notamment dans la banque, la santé ou le secteur public.

Ce que Amsterdam apporte : recettes concrètes, pas seulement concepts

La promesse de l’atelier Model Shaping de Together AI ne se limite pas à des présentations. Il s’agit d’intégrer des pratiques favorisant l’opération quotidienne :

  • Comment sélectionner et nettoyer des données métier pour un SFT qui apporte une valeur réelle, sans faire exploser le coût de l’étiquetage.
  • Comment définir des fonctions de récompense vérifiables pour que le modèle s’améliore là où c’est important (respect du format, absence d’alucinations, cohérence terminologique).
  • Comment cadrer un modèle « brouillon » pour la décodification spéculative, et où fixer les seuils pour préserver la qualité tout en privilégiant la vitesse.
  • Quelle stratégie de quantification privilégier selon le matériel, les exigences de précision et la sensibilité du cas d’usage.

En résumé : repartir avec des procédures reproductibles permettant de faire passer un prototype à un système évolutif maîtrisé.

Une identité forgée dans une « ouverture pragmatique »

En tant que cloud leader dans l’accélération IA, Together AI se présente comme engagée dans une collaboration ouverte, l’innovation et la transparence. Ce n’est pas de la philosophie : la société vit du rendement, mais aussi de fournir à ses clients des options de contrôle (modèles, endpoints, résidence des données, confidentialité) et de les accompagner avec un savoir-faire appliqué. Dans ce cadre, la Suède est à la fois un point d’ancrage et une déclaration d’intentions pour l’ensemble de l’Europe.

Le plan poursuit une boucle vertueuse :

  1. Infrastructure près de l’utilisateur et des données,
  2. Outils permettant de personnaliser les modèles ouverts efficacement,
  3. Formations pour que les équipes adoptent les dernières innovations sans se perdre dans la courbe d’apprentissage.

Si l’écosystème répond — par des projets transformant la latence et les coûts en meilleures expériences et marges —, alors la démarche aura été payante.


Les quatre clés essentielles

  • Nouvelle région en Suède déjà opérationnelle : API sans serveur, endpoints dédiés et clusters GPU à la demande avec résidence en UE.
  • Latence : améliorations typiques de 50–70 ms, avec des réductions de 25–30 % du temps de réponse dans les applications interactives.
  • Ateliers gratuits : à Amsterdam (10 septembre) sur le post-entrainement (SFT, préférences, récompenses vérifiables), décodage spéculatif (>1,85×) et quantification.
  • Message du CEO : « L’Europe est à l’avant-garde » ; Together AI investira dans l’infrastructure et la communauté d’ingénierie pour promouvoir une IA fiable et évolutive.

Questions fréquentes (FAQ)

1) Quel est l’intérêt pour une entreprise européenne de déployer l’inférence en Suède avec Together AI ?
Principalement, deux bénéfices : résidence des données dans l’UE — crucial pour la conformité et l’audit — et latence réduite pour les utilisateurs en Nord et Centre de l’Europe (souvent 50–70 ms d’économie, avec une amélioration de 25–30 % du temps de réponse). Cela améliore l’UX et diminue la friction légale.

2) Quelle différence concrète entre utiliser l’API sans serveur et un endpoint dédié ?
L’API sans serveur offre elasticité et paiement au usage ; idéale pour les pics, les tests ou la demande variable. Un endpoint dédié garantit capacité réservée, performance stable et isolement, pour des charges critiques, de grandes fenêtres de contexte ou des SLA stricts. Beaucoup d’entreprises combinent les deux : capacité fixe + élastique.

3) Quelles techniques sont abordées lors de l’atelier à Amsterdam et leur importance ?
Il s’agit de SFT (affinement par ajout de données spécifiques), optimisation des préférences, récompenses vérifiables (pour aligner le modèle sur le domaine avec coûts maîtrisés), décodage spéculatif (accélération >1,85× avec un modèle « brouillon »), et quantification (réduisant les besoins hardware et coûts de requête). Ces techniques sont essentielles pour améliorer la qualité tout en maîtrisant les coûts et la latence.

4) Quels modèles l’API supporte-t-elle et comment cela répond-il aux exigences de contrôle et sécurité ?
L’API de Together AI supporte modèles ouverts et personnalisés — incluant gpt-oss, DeepSeek, Meta Llama et Qwen — et propose diverses options de déploiement avec différents niveaux d’isolation, de traçabilité et de confidentialité. Combiné à la résidence en UE (Suède), cela permet de concevoir des architectures conformes, sans compromis sur la performance.


Note : ces informations proviennent de l’annonce officielle de Together AI concernant l’ouverture de son infrastructure en Suède et le lancement de sa tournée de formations en Europe, incluant le premier atelier Model Shaping à Amsterdam. Les données de latence (50–70 ms, 25–30 %) et techniques évoquées (SFT, préférences, récompenses vérifiables, décodage >1,85×, quantification) ont été fournies par la société.

le dernier