Anthropic a sorti Claude Opus 4.8 le 28 mai 2026, et le rituel habituel a démarré aussitôt : tableaux de benchmarks, classements, « X dépasse Y de 1,8 point ». Pour ton boulot, la réponse honnête est plus ennuyeuse, et franchement bien plus utile : il n’y a pas de meilleur modèle, il y a le bon modèle pour chaque tâche.
Classer trois modèles de pointe sur un seul chiffre, c’est se tromper de combat. Les trois sont si proches dans l’indice global que l’ordre ne compte presque pas. En revanche, leurs points forts sont assez différents pour que ce soit la répartition qui compte.
Ce que disent vraiment les benchmarks
Sur le profil global, Opus 4.8 passe devant de peu : environ 93 contre 91 pour GPT-5.5. Une vraie avance, mais petite.
La différence qui compte est dans les catégories :
- Code agentique : c’est là qu’Opus 4.8 est le plus tranchant. Sur SWE-Bench Pro il atteint 69,2 % — des tâches en plusieurs étapes sur de vraies bases de code, pas des bouts isolés. En prime : sa fiabilité a progressé, il invente moins.
- Travail autonome dans le terminal : GPT-5.5 répond présent. Il est conçu pour mener de longues tâches seul — appeler des outils, garder l’état, corriger ses erreurs sans que tu aies à le surveiller.
- Vitesse et coût : Gemini 3.5 Flash est environ 4× plus rapide et coûte à peu près le tiers. Pour du raisonnement pur à grande échelle, Gemini 3.1 Pro est le seul modèle de pointe qui reste rentable.
« Quel Gemini ? » est la vraie question
C’est là que la plupart des comparatifs trébuchent. « Gemini » n’est pas un modèle, c’est une famille. Flash est l’ouvrier rapide et bon marché pour le gros volume. Pro est le penseur plus cher pour le raisonnement difficile. Mettre les deux dans le même panier, c’est comparer des pommes avec tout un cageot. Précise toujours lequel tu veux dire, sinon le résultat ne vaut rien.
Choisis selon la tâche, pas selon le classement
Le truc, c’est que tu n’as pas à choisir un seul. Les équipes les plus efficaces roulent avec un modèle principal plus un usage ciblé des autres : le volume de routine part en douce sur Flash, les morceaux coriaces sur Opus ou GPT-5.5.
La réalité du prix
| Modèle | Entrée / 1 M | Sortie / 1 M |
|---|---|---|
| Claude Opus 4.8 | 5,00 $ | 25,00 $ |
| GPT-5.5 | 5,00 $ | 30,00 $ |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ |
À petit volume, l’écart de prix ne change rien. À partir du moment où tu envoies des requêtes en masse, il décide de tout — et c’est là que la répartition selon la tâche se rembourse toute seule.
Ce que ça veut dire pour toi
- En solo : un bon modèle principal suffit. Opus 4.8 si tu vis dans de vraies bases de code ; GPT-5.5 si tu aimes lancer des tâches qui tournent la nuit.
- En petite équipe : fais passer le volume par Flash et garde Opus/GPT-5.5 pour le lourd. La facture baisse nettement sans perdre en qualité.
- Si tu n’es pas technique : au quotidien (claude.ai, ChatGPT, l’appli Gemini), tu ne sentiras pas les dixièmes des benchmarks. Prends l’outil dont l’interface te convient, et ne change que si une tâche précise l’exige.
Ce qu’un benchmark ne mesure pas
Comment un modèle se comporte dans la conversation. Avec quelle honnêteté il admet qu’il ne sait pas. À quel point il colle à ta façon de travailler. Ces choses-là pèsent plus au quotidien que deux points sur un classement — et aucun tableau ne les capte. Teste sur ton propre travail, pas sur les tableaux des autres.
En résumé
Arrête de choisir selon le classement, commence à choisir selon la tâche. Opus 4.8 pour le code exigeant, GPT-5.5 pour l’autonome, Gemini Flash pour le volume pas cher — et dans le doute, un modèle principal plus un usage ciblé des autres. Pour comprendre les écarts à fond, le cours IA : benchmark des modèles te donne le fil rouge.