Agents IA : les vraies raisons de leurs échecs en conseil

Les modèles d’IA les plus avancés échouent massivement aux tâches de conseil du monde réel. Selon le benchmark APEX-Agents de Mercor, les agents ne réussissent que 23–33 % des tâches au premier essai. Pourtant, une accélération spectaculaire laisse entrevoir leur intégration massive d’ici 2026.

Les chiffres : une stagnation trompeuse

Selon un benchmark publié par Mercor, plateforme d’entraînement IA, les modèles frontière d’OpenAI, Google et Anthropic ne réussissent à accomplir que 25 % des tâches de conseil au premier essai, et seulement 40 % même avec huit tentatives.

Les performances varient selon le modèle : GPT 5.2 (OpenAI) affiche 23 % de réussite, tandis qu’Opus 4.6 (Anthropic) monte à 33 %.

Ces résultats semblent décourageants. Pourtant, le PDG de Mercor affirme que cette trajectoire mène au remplacement des consultants juniors d’ici deux ans. Cette contradiction révèle à la fois l’ampleur du défi technique et la rapidité de la courbe d’apprentissage.

Le diagnostic : trois points de rupture précis

Le benchmark APEX-Agents teste les modèles sur des tâches authentiques de conseil, basées sur les retours d’experts de McKinsey, BCG, Deloitte, Accenture et EY. Par exemple : analyser les patterns de consommation par catégorie, évaluer la pénétration marché selon une méthodologie dédiée, puis définir la stratégie portfolio d’une marque. Les agents échouent systématiquement.

Brendan Foody, PDG de Mercor, a identifié trois points de rupture spécifiques.

Les tâches multi-étapes. Plus la tâche s’allonge, plus le modèle s’égare. Les agents peinent à maintenir une logique cohérente sur la durée.

La navigation dans les systèmes de fichiers. Les agents ne savent pas où chercher l’information pertinente. Ils consultent souvent les mauvais fichiers, perdant du temps et de la précision.

La planification parallèle. Utiliser plusieurs outils en même temps et croiser les références dépasse les capacités actuelles des modèles.

À l’inverse, une tâche faisable en moins d’une heure ou requérant un seul outil voit les modèles performer « relativement bien ».

Le problème du langage métier

Frank Jones, ancien consultant chez KPMG devenu entraîneur IA chez Mercor, pointe une nuance souvent invisible : les modèles ne comprennent pas le langage métier du conseil.

« Quand on dit “client-ready”, les consultants savent exactement ce que cela signifie. Pour l’IA, il y a énormément de subtilité dans cette expression », explique-t-il.

Les agents atteignent 60 à 70 % des tâches, mais exigent systématiquement un refinement humain. Ce besoin permanent de correction limite considérablement leur impact immédiat.

Une accélération implacable

Ce qui déconcerte les observateurs, c’est la vitesse du progrès, non la performance actuelle.

ModèlePériodeTaux de réussite
GPT-3Baseline3 %
GPT 5.2202523 %
Opus 4.6202533 %

Le modèle d’Anthropic a grimpé de 13 % à 33 % en quelques mois. Foody projette qu’avant la fin 2026, les modèles atteindront environ 50 % de réussite. À ce stade, selon lui, les agents fonctionneraient « comme des stagiaires » : une performance acceptable où le senior vérifierait encore beaucoup de problèmes, mais avant un véritable remplacement.

Cette projection reste une déclaration du PDG de Mercor, non une certitude empirique. L’entreprise a intérêt commercial à montrer une trajectoire optimiste. Ses clients majeurs sont OpenAI, Anthropic et Meta. Mais les chiffres du progrès observé, notamment chez Anthropic, donnent du crédit à cette courbe.

Le secteur consultatif s'inquiète

McKinsey a déjà intégré cette réalité. Bob Sternfels, PDG de la firme, a déclaré que McKinsey compte 60 000 employés, dont 25 000 sont des « agents IA ». Le groupe parvient à croître sans augmenter son effectif humain, une première dans son histoire.

Foody ne cache pas ses attentes : « Je pense que le conseil, notamment les rôles juniors, fait partie des emplois que je suis confiant seront déplacés par l’IA. »

Il ajoute : « La version actuelle d’APEX raconte une histoire rassurante pour McKinsey — on peut montrer qu’on ajoute de la valeur avec l’IA sans remplacer les humains. La prochaine version raconte une histoire très effrayante. Dans deux ans, nous aurons des chatbots aussi bons que les meilleurs cabinets de conseil. »

L'écart entre l'aujourd'hui et demain

Cet écart entre les chiffres d’aujourd’hui (< 25 %) et la confiance affichée dans l'avenir révèle le vrai enjeu : non pas un breakthrough technologique imminent, mais une amélioration continue, méthodique et quasi certaine.

Pour les cabinets de conseil, le compte à rebours a commencé.

FAQ

Quel est le taux de réussite des agents IA sur les tâches de conseil ?

Entre 23 % (GPT 5.2) et 33 % (Opus 4.6) selon le benchmark APEX-Agents de Mercor, bien en dessous des 25 % attendus.

Quelles sont les trois principales raisons de l'échec des agents IA en conseil ?

Les tâches multi-étapes, la navigation dans les systèmes de fichiers, et la planification multi-outils parallèles.

Quand les agents IA remplaceront-ils les consultants juniors ?

Selon Brendan Foody (PDG Mercor), probablement entre fin 2025 et fin 2026, une fois le taux de réussite proche de 50 %.

Pourquoi les agents IA échouent-ils à comprendre le langage métier du conseil ?

Ils manquent de sens contextuel pour interpréter les subtilités professionnelles (« client-ready »), nécessitant un refinement humain constant (60–70 % des tâches).

Quelle est la trajectoire de progrès des modèles IA en conseil ?

Accélération exponentielle : GPT-3 (3 %) → GPT 5.2 (23 %) ; Anthropic (13 % → 33 % en quelques mois).

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *