Opus 4.6 domine la finance avec 1 million de tokens, mais le tarif double au-delà de 200k

Anthropic déploie Opus 4.6 le 5 février 2026 avec une fenêtre de contexte portée à 1 million de tokens et une surperformance mesurée en finance (+144 Elo vs GPT-5.2). La vraie surprise : une structure tarifaire qui double les coûts au-delà de 200 000 tokens, repoussant le choix des développeurs vers des arbitrages précaires.

  • Fenêtre de contexte portée à 1 million de tokens (vs 200 000 avant)
  • Opus 4.6 atteint 1606 points Elo vs 1462 pour GPT-5.2 en finance (+144 points)
  • Context rot limité : 76 % sur MRCR v2 vs 18,5 % pour Claude Sonnet 4.5
  • Tarif premium double au-delà de 200 000 tokens : 10 $/M entrée et 37,50 $/M sortie
  • Disponible sur claude.ai, API Anthropic, Azure OpenAI, Amazon Bedrock, Google Cloud

Contexte massif : 1 million de tokens change le calcul

Opus 4.6 accepte désormais 1 million de tokens en contexte (bêta sur l’API), contre 200 000 avant. Un token équivaut à environ quatre caractères, ce qui signifie 4 millions de caractères analysés en une seule requête.

Concrètement : un rapport financier complet, une dizaine de documents juridiques épais, plusieurs mois d’archives — tout dans une seule conversation, sans découpage manuel.

Context rot : la preuve que la fenêtre n'est pas du théâtre

Le risque central en contexte massif s’appelle « context rot ». Les modèles ont tendance à ignorer ou oublier les informations enfouies au milieu des gigantesques contextes. Opus 4.6 l’évite.

Sur le benchmark MRCR v2 (qui teste la capacité à retrouver huit informations dispersées dans 1 million de tokens) :

  • Opus 4.6 atteint 76 %
  • Claude Sonnet 4.5 stagne à 18,5 %

Ce n’est pas un chiffre cosmétique. C’est la preuve que le modèle maintient la performance face aux contextes massifs.

Finance : benchmarks indépendants et écart réel

Anthropic cible explicitement la finance et le droit. Les chiffres proviennent de mesures indépendantes documentées.

GDPval-AA : l'écart qui compte

Sur GDPval-AA (benchmark Artificial Analysis mesurant les performances sur tâches réelles : due diligence, dossiers SEC, contrats) :

ModèleScore Elo
Opus 4.61606
GPT-5.21462

L’écart de 144 points se traduit par : Opus 4.6 gagne environ 70 % des comparaisons directes face à GPT-5.2.

Gain de temps mesuré

Les premiers clients en accès prioritaire (Notion, Asana, Harvey, Hebbia) rapportent que des analyses financières exigeant 2 à 3 semaines de travail se bouclent désormais en quelques heures. À noter : ces témoignages reflètent des cas d’usage choisis, pas une étude systématique.

Le tarif double : le vrai problème économique

Ici réside le piège.

Structure standard (jusqu'à 200 000 tokens)

  • Entrée : 5 $ par million de tokens
  • Sortie : 25 $ par million de tokens

Tarif premium (au-delà de 200 000 tokens)

  • Entrée : 10 $ par million de tokens
  • Sortie : 37,50 $ par million de tokens

Point critique : c’est la totalité de la requête qui bascule au tarif premium, pas l’excédent seul.

Exemple concret : une requête de 201 000 tokens bascule immédiatement au tarif premium. Le surcoût n’est pas linéaire — il change brutalement au seuil des 200 000 tokens.

Conséquences pour les développeurs

Trois réactions attendues :

  • Découper les requêtes pour rester sous 200 000 tokens (détériore la qualité)
  • Accepter le tarif premium en connaissance de cause
  • Optimiser agressivement les prompts pour concentrer plus de travail dans une requête

Aucune n’est optimale pour la qualité globale.

Trois produits associés pour rendre la puissance accessible

Claude dans Excel : travail direct dans les feuilles sans copier-coller, modification de formules, automatisation de mise en forme.

Claude dans PowerPoint (research preview) : génération de présentations respectant les mises en page, brouillon utilisable au premier passage.

Agent Teams (Cowork) : plusieurs instances de Claude travaillent en parallèle. Une analyse les chiffres, une autre rédige, une troisième crée les graphiques. Réduction du temps total et de la facture par agent.

Fragmentmentation du marché : pas de modèle écrasant

Le marché de l’IA en 2026 ne concentre pas — il fragmente.

Opus 4.6 surpasse GPT-5.2 en finance (+144 Elo sur GDPval-AA) et en coordination (59,5 % sur MCP Atlas, alors que GPT-5.2 atteint 60,6 %). Le même jour, OpenAI lance GPT-5.3-Codex, potentiellement plus performant sur le code agentic selon les premiers retours non officiels.

Aucun modèle n’écrase réellement les autres. Le choix dépend désormais du domaine.

Accès immédiat et trois étapes pour débuter

Opus 4.6 est disponible sur claude.ai, l’API Anthropic, et les plateformes cloud (Azure OpenAI, Amazon Bedrock, Google Cloud). Le contexte 1M tokens reste en bêta.

Étape 1 : Ajustez l’effort. Le modèle pense par défaut en mode « high », générant coûts et latence inutiles. Réglez l’effort sur « medium » pour les tâches simples.

Étape 2 : Maîtrisez le tarif. Restez sous 200 000 tokens de contexte si le coût prime. Compactez vos documents, filtrez les données inutiles.

Étape 3 : Vérifiez les outputs sensibles. En finance ou droit, une vérification humaine reste obligatoire. Opus 4.6 améliore les « premiers passages corrects », mais ne les garantit pas.

Prochaine étape : la stabilité en production

La durée de vie du contexte 1M en production reste une question ouverte. La bêta en livrera la réponse. Pour l’heure, Anthropic pose un jalon : fenêtres massives, benchmarks solides, tarification à surveiller.

À vous de jouer avec les contraintes réelles, pas les promesses marketing.

FAQ

Qu'est-ce que Claude Opus 4.6 et quand a-t-il été lancé ?

Déployé le 5 février 2026, Opus 4.6 porte le contexte à 1 million de tokens (vs 200 000 avant) avec des gains mesurés en finance et droit.

Quel avantage face à GPT-5.2 ?

Sur GDPval-AA (tâches financières réelles), Opus 4.6 atteint 1606 points Elo vs 1462 pour GPT-5.2 : +144 points, soit ~70% de victoires en comparaison directe.

Quel est le piège tarifaire ?

Au-delà de 200 000 tokens, le tarif double : 10 $/M entrée (vs 5 $) et 37,50 $/M sortie (vs 25 $). C’est l’intégralité de la requête qui bascule au tarif premium.

Comment maîtriser le coût et la latence ?

Réglez l’effort (« effort level ») sur « medium » pour les tâches simples, restez sous 200k tokens si le coût prime, optimisez vos documents.

Où accéder à Opus 4.6 ?

claude.ai, API Anthropic, Azure OpenAI, Amazon Bedrock, Google Cloud. Le contexte 1M tokens est en bêta.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *