Arcee AI, une startup de 30 personnes, vient de publier Trinity Large, l’un des plus grands modèles de fondation jamais relâchés en accès libre. Annoncé le 27 janvier 2026, ce modèle de 400 milliards de paramètres affiche des performances comparables aux modèles propriétaires actuels, sous une licence Apache 2.0 permanente.
Trinity Large : architecture et économie d'entraînement
Trinity Large repose sur une architecture Mixture of Experts (MoE) où 256 experts spécialisés traitent chaque passage, mais seulement 4 sont activés pour chaque token. Cette sparsité réduit le coût computationnel : seuls 13 milliards de paramètres demeurent actifs, soit un taux d’activation de 1,56 % — plus mesuré que DeepSeek-V3 (3,13 %) ou Qwen3 (6,25 %).
L’entraînement complet a nécessité 33 jours sur 2 048 GPU Nvidia B300 et a coûté 20 millions de dollars, intégrant le calcul, la préparation des données, les salaires et l’infrastructure. Arcee, financée à hauteur de 50 millions de dollars avec une équipe de 30 collaborateurs, a consolidé ce résultat en 6 mois selon une progression structurée (Trinity Nano → Trinity Mini → Trinity Large).
Le modèle s’entraîne sur une fenêtre de contexte natif de 512 000 tokens (~350 000 mots), combinant 17 milliards de tokens curés par DatologyAI et 8 milliards de tokens générés synthétiquement. Cette approche couvre 14 langues non-anglaises (web, code, mathématiques, raisonnement). Les optimisations d’Arcee — balançage des experts basé sur l’élan, perte Z contre la dérive des logits, parallélisation avancée — livrent un throughput d’inférence 2 à 3 fois plus rapide que les modèles concurrents de même taille.
L’équipe dirigée par Mark McQuade (ancien cadre Hugging Face) et Lucas Atkins (CTO, ex-développeur d’agents vocaux automobiles) a ainsi éludé la course aux mégadonnées observée chez les grands labs, en privilégiant l’efficacité d’architecture.
Trois variantes pour trois usages distincts
Arcee propose trois checkpoints pour répondre à des besoins différents.
Trinity-Large-Preview, disponible immédiatement, repose sur un post-training léger et s’adresse à la conversation et à la génération créative (écriture, assistance vocale). Gratuit via OpenRouter et chat.arcee.ai jusqu’à février 2026. N’inclut pas encore de capacités de raisonnement avancé — cette variante reste en développement.
Trinity-Large-Base est le checkpoint complet après la totalité du processus d’entraînement sur 17 milliards de tokens. Arcee le qualifie de modèle de fondation « frontier-class », représentatif de l’état de l’art actuel.
Trinity-Large-TrueBase a été capturé après 10 milliards de tokens, sans données d’instruction ni optimisation du taux d’apprentissage. Il s’adresse essentiellement aux chercheurs étudiant les productions brutes de la phase de pré-entraînement.
Un profil de performance contrasté face à Llama 4
Sur les benchmarks de base-model, Trinity-Large-Base affiche des résultats contrastés comparé à Meta Llama 4 Maverick et GLM-4.5 (Tsinghua) :
| Benchmark | Trinity Large | Llama 4 Maverick | Avantage |
|---|---|---|---|
| MMLU | 87,2 % | 85,5 % | Trinity |
| MMLU-Pro | 75,2 % | 80,5 % | Llama |
| GPQA-Diamond | 63,3 % | 69,8 % | Llama |
| AIME 2025 | 24,0 | 19,3 | Trinity |
Trinity Large devance en mathématiques (AIME) et s’aligne en raisonnement commun (MMLU). Llama 4 Maverick excelle sur les subtilités linguistiques et le raisonnement approfondi (MMLU-Pro, GPQA). Ces écarts reflètent la nature actuelle de Trinity-Large-Preview : un pré-entraînement complété par un post-training extrêmement léger, sans optimisation spécifique au raisonnement.
Les limitations actuelles s’accumulent : Trinity Large demeure texte-only (vision et parole en cours de développement), tandis que Llama 4 Maverick supporte déjà la multimodalité. Arcee reconnaît que la variante raisonnement avancé reste en cours de développement.
Accès et infrastructure
Trinity-Large-Preview est accessible via Hugging Face (téléchargement gratuit), OpenRouter (tarification libre jusqu’à février 2026) et chat.arcee.ai (sans infrastructure locale requise). L’intégration aux agents de code (OpenCode, Cline, Kilo Code) se poursuit.
La sortie générale de l’API est prévue dans 6 semaines avec un contexte initial de 128 000 tokens (8-bit quantization). La fenêtre native de 512 000 tokens sera progressivement disponible. La tarification, actuellement non détaillée, est annoncée comme « compétitive ». Pour comparaison, Trinity Mini affiche 0,045 $/1M tokens en entrée et 0,15 $/1M tokens en sortie.
La stratégie Apache 2.0 : une distinction claire
Arcee a placé tous les modèles Trinity sous licence Apache 2.0, la licence open-source la plus permissive. Ce choix contraste avec Meta Llama, qui utilise une licence propriétaire assortie de clauses commerciales restrictives. Selon les critères de l’Open Source Initiative (OSI), la licence Llama ne respecte pas strictement la définition de l’open-source en raison de ses limitations additionnelles.
Arcee revendique explicitement cette posture : proposer une « alternative permanente, à véritable licence ouverte, et frontier-grade ». Le contexte sous-jacent n’est pas neutre : Qwen (Alibaba) et GLM-4.5 (Tsinghua) gagnent en traction auprès des développeurs américains. Arcee entend « attirer les entreprises américaines loin des modèles open-source provenant de Chine » en offrant une alternative domestique transparente et maîtrisable.
Mark McQuade, fondateur, l’énonce sans détour : « Arcee existe parce que les États-Unis ont besoin d’une alternative open-source permanente, en Apache 2.0, de premier plan, capable de rivaliser réellement à la frontière actuelle. »
Arcee : du post-training à la fondation propriétaire
Arcee a originellement opéré comme studio de post-training et de personnalisation, adaptant les modèles open-source aux besoins clients. Face à la montée des modèles propriétaires et à la demande croissante d’alternatives pérennes, la startup a pivoté vers la construction de ses propres modèles de fondation.
Elle ne joue pas sur le volume de calcul des grands labs (OpenAI, Anthropic, Google DeepMind), mais plutôt sur l’efficacité architecturale et une relation directe aux développeurs. Son modèle économique reste hybride : services de post-training et personnalisation pour les entreprises aux exigences spécifiques, hébergement et API, effets de réseau autour de l’écosystème Trinity.
Engagements et absences
Arcee reconnaît que Trinity-Large-Preview intègre un post-training extrêmement léger. Les usagers early (notamment dans les agents de code) doivent s’attendre à des imperfections.
La variante Reasoning (type DeepSeek-R1 ou Claude Thinking) n’existe pas encore. La vision multimodale et la parole restent en développement. L’engagement majeur : maintenir la licence Apache 2.0 sur tous les futurs modèles Trinity — une promesse rare dans un secteur où les incitations à verrouiller la propriété intellectuelle demeurent fortes.
FAQ
Qu'est-ce que Trinity Large ?
Un modèle de fondation open-source de 400 milliards de paramètres lancé par Arcee AI le 27 janvier 2026, disponible gratuitement sous licence Apache 2.0.
Quel est le coût de Trinity Large ?
20 millions de dollars pour l’entraînement complet, incluant GPU, données, salaires et infrastructure (33 jours sur 2 048 GPU Nvidia B300).
Trinity Large est-il vraiment open-source ?
Oui, sous licence Apache 2.0, la plus permissive du marché — contrairement à Llama qui utilise une licence propriétaire restrictive.
Comment Trinity Large compare-t-il à Llama 4 Maverick ?
Performances nuancées : Trinity excelle en mathématiques (AIME), Llama en raisonnement approfondi. Trinity reste texte-only ; Llama supporte images et son.
Où télécharger et utiliser Trinity Large ?
Gratuit sur Hugging Face et via OpenRouter. Interface web : chat.arcee.ai. Intégration agents de code en cours (OpenCode, Cline, Kilo).
Leave a Reply