Il y a trois jours, Anthropic a fait un truc que personne a vraiment vu venir.
La fenêtre de contexte de Claude — la quantité de texte qu’il peut lire et traiter d’un seul coup — est passée de 200 000 tokens à 1 million de tokens. Pour tout le monde. Pas de liste d’attente, pas de palier premium, pas de surcharge à l’utilisation. Du jour au lendemain.
Et quand on sait qu’Anthropic, c’est la boîte cofondée par Dario et Daniela Amodei (ex-OpenAI, pour ceux qui suivent le feuilleton), avec une équipe de recherche qui puise largement dans le monde académique européen — dont pas mal de talents français — on peut dire que la recherche IA made in Europe continue de peser dans la balance.
Bon, si « 1 million de tokens » ça te parle pas trop, reste là. À la fin de cet article, tu sauras exactement ce que ça change pour toi. Pas juste pour les devs.
C’est quoi une fenêtre de contexte, en clair ?
Imagine la mémoire de travail d’une IA.
Quand tu colles du texte dans Claude, ChatGPT ou Gemini, l’IA lit tout, garde ça en tête, et s’en sert pour générer sa réponse. La fenêtre de contexte, c’est la capacité de cette mémoire. Tout doit tenir dedans : ton prompt, les documents uploadés, l’historique de la conversation, et la réponse de l’IA.
Quand t’arrives au bout, l’IA refuse ta requête ou commence à « oublier » le début de ta conversation. Tu l’as forcément déjà vécu : t’es en plein échange, tu fais référence à un truc dit 20 messages plus tôt, et l’IA te regarde avec des yeux de merlan frit.
Ça, c’est la fenêtre de contexte qui déborde.
Pour bien comprendre comment les tokens sont comptés (et combien ça coûte), notre compteur de tokens gratuit fait le calcul en temps réel pour tous les modèles du marché.
1 million de tokens, ça représente quoi concrètement ?
Les tokens, c’est pas des mots. C’est des morceaux de texte — environ 4 caractères chacun en français (un peu plus qu’en anglais, d’ailleurs, parce que nos accents comptent). Du coup, 1 million de tokens, ça fait grosso modo 750 000 mots.
Mais c’est abstrait. Voilà ce que ça donne en vrai :
| Ce que tu peux charger | Taille approximative |
|---|---|
| Pages de texte | ~1 500 à 2 000 pages |
| Romans complets | 5 à 7 bouquins |
| Articles de recherche | 20 à 30 papers entiers |
| Lignes de code | 30 000+ lignes |
| Documents PDF | Jusqu’à 600 pages |
| Guerre et Paix de Tolstoï | 1,3 exemplaire |
Avec 200K tokens — ce que Claude avait avant — tu pouvais caser un roman moyen ou 300 pages. Largement suffisant pour une conversation, mais pas assez pour du vrai boulot documentaire.
Avec 1M, tu charges un manuel entier, une année complète de comptabilité, ou un codebase en entier. D’un coup.
Pour un avocat qui doit éplucher un contrat de 100 pages avec ses cinq annexes, ou un chercheur qui veut croiser 25 articles sur le même sujet, c’est pas juste « plus pratique ». C’est un vrai changement dans la façon de bosser avec l’IA.
Comment Claude se positionne face à la concurrence (mars 2026)
Voilà où on en est. Et c’est plus serré qu’on pourrait croire :
| Modèle | Fenêtre de contexte | Notes |
|---|---|---|
| Llama 4 Scout (Meta) | 10M tokens | Open-source, la plus grande fenêtre du marché |
| Grok 4.1 Fast (xAI) | 2M tokens | Plus grande fenêtre parmi les modèles propriétaires |
| Claude Opus 4.6 | 1M tokens | Aucune surcharge, quelle que soit la longueur |
| Claude Sonnet 4.6 | 1M tokens | Aucune surcharge, quelle que soit la longueur |
| GPT-4.1 / mini / nano | 1M tokens | La famille « cheval de bataille » d’OpenAI |
| GPT-5.4 | 1,05M tokens | Mais facture 2x au-delà de 272K tokens |
| Gemini 2.5 Pro | 1M tokens | 2M dispo en tier entreprise |
| Gemini 2.5 Flash | 1M tokens | Meilleur ratio prix/performance |
| GPT-5 / 5.2 | 400K tokens | Plus petit que la famille 4.1 |
Du coup, Claude est pas seul à 1M. GPT-4.1 et Gemini 2.5 sont au même niveau. Mais — et c’est là que ça devient intéressant — la taille brute de la fenêtre, ça raconte pas toute l’histoire.
Le truc que personne mentionne : est-ce que les modèles utilisent vraiment tout ce contexte ?
C’est là que ça se corse. Et que certains constructeurs aimeraient bien qu’on regarde ailleurs.
Une équipe de recherche chez Chroma a testé 18 modèles de pointe et a découvert que chacun d’entre eux se dégrade quand on le nourrit avec plus de texte. Sans exception. Le contexte effectif — la quantité qu’un modèle utilise vraiment bien — tourne généralement autour de 50 à 65 % du chiffre annoncé.
Un modèle qui affiche 1M tokens devient en fait peu fiable quelque part autour de 500-650K.
Mais voilà où Claude se démarque.
Le benchmark qui compte : MRCR v2
Le test MRCR v2 (Multi-needle Retrieval in Context) cache 8 informations précises dans 1 million de tokens de texte, puis demande au modèle de toutes les retrouver et les restituer. C’est comme chercher une aiguille dans une botte de foin — sauf qu’il y a 8 aiguilles et que la botte fait 1 500 pages.
| Modèle | Score à 1M tokens |
|---|---|
| Claude Opus 4.6 | 76-78 % |
| GPT-5.4 | 36 % |
| Gemini 3.1 Pro | 26 % |
| Claude Opus 4.5 (précédent) | ~26 % |
| Claude Sonnet 4.5 (précédent) | 18,5 % |
Opus 4.6 score presque 4 fois mieux que son prédécesseur. Et plus du double du meilleur concurrent.
Cet écart, c’est la vraie info. Avoir une fenêtre de 1M tokens, ça sert à rien si le modèle retrouve pas ce dont il a besoin là-dedans. Claude, lui, y arrive. Et j’avoue, l’écart est assez spectaculaire.
Le problème du « perdu au milieu »
Y’a un bug bien documenté avec les modèles d’IA : ils sont bons pour retenir ce qu’il y a au début et à la fin de ton input, mais ils ont tendance à zapper ce qui est au milieu.
Les chercheurs appellent ça le « lost in the middle problem ». Ça vient de la façon dont les modèles encodent les positions — les maths désavantagent littéralement le contenu central.
Astuce concrète : si tu uploades plusieurs documents dans n’importe quelle IA, mets les plus importants en premier et en dernier. Planque les documents secondaires au milieu.
Claude 4.6 a aussi introduit la compaction de contexte — un résumé automatique qui se déclenche quand les conversations deviennent longues, pour que les infos clés disparaissent pas. C’est pas parfait, mais c’est un vrai progrès.
À quoi ça sert si t’es pas développeur ?
Bon, on range les benchmarks deux minutes. Concrètement, qu’est-ce que tu peux faire avec ça ?
Charger un bouquin entier et poser des questions dessus
Avec 200K tokens, tu pouvais à peine caser un roman court. Avec 1M, tu charges Le Seigneur des Anneaux (les trois tomes) et tu demandes à Claude de retrouver chaque scène où un personnage apparaît, de tracer un thème à travers toute l’œuvre, ou de rédiger une fiche de lecture. Étudiants, chercheurs, profs — ça change la donne.
Analyser une année complète de comptabilité
Charge 12 mois de relevés bancaires, tes documents fiscaux et ton tableau de budget. Demande à Claude de repérer des patterns dans tes dépenses, de flagger les transactions inhabituelles, ou de comparer cette année avec la précédente. Le tout dans une seule conversation, sans que l’IA oublie janvier quand elle arrive à décembre.
Pour un expert-comptable ou un DAF, c’est le genre de truc qui fait gagner des heures. Et en France, avec la complexité de notre fiscalité (merci Bercy), avoir une IA qui peut garder en tête toutes les règles et tous les justificatifs en même temps, ça a de la valeur.
Éplucher des documents juridiques sans rien rater
Contrats, baux, CGV — le genre de documents de 80 pages en texte dense avec une clause en page 67 qui change tout. Claude peut maintenant garder l’intégralité en mémoire et faire des références croisées entre les sections qui se contredisent.
Un juriste en cabinet pourrait charger cinq versions successives d’un accord de partenariat de 100 pages et voir l’évolution complète de la négo. Pour l’analyse de documents administratifs français (et Dieu sait qu’on adore la paperasse dans ce pays), c’est une vraie libération.
Des conversations qui perdent pas le fil
T’as déjà passé 45 minutes dans un chat avec une IA pour réaliser qu’elle a complètement oublié ce que tu construisais ? La fenêtre de contexte qui déborde, classique.
Avec 1M tokens et la compaction automatique de Claude, les conversations peuvent durer beaucoup plus longtemps avant de toucher ce mur. L’IA retient le contexte du début et le compresse intelligemment quand l’espace se fait rare.
Comparer plusieurs longs documents côte à côte
Upload trois versions d’un manuscrit, cinq propositions concurrentes, ou une pile d’articles de recherche sur le même sujet. Demande à Claude de les comparer, de trouver les contradictions, ou de synthétiser les points clés. Ce type d’analyse inter-documents était impossible quand un seul document bouffait déjà la moitié de la fenêtre.
Pour la recherche académique — genre t’es doctorant et tu dois faire une revue de littérature sur 30 papiers — c’est un gain de temps monstrueux.
La question du prix : plus de contexte = plus cher ?
Si tu utilises Claude via l’interface web (claude.ai avec un abonnement à environ 18 €/mois pour Pro), ton prix change pas. Tu paies un forfait mensuel que tu utilises 10K ou 900K tokens.
Si tu passes par l’API — et ça concerne les devs et les boîtes qui construisent sur Claude — y’a une différence de taille avec les concurrents :
| Fournisseur | Tarif standard | Au-delà de 200-272K |
|---|---|---|
| Claude (Opus 4.6) | 5 $ / 25 $ par 1M tokens | Même prix. Aucune surcharge. |
| GPT-5.4 | 2,50 $ / input par 1M | Prix x2 au-delà de 272K |
| Gemini 3.1 Pro | 2 $ / input par 1M | Prix x2 au-delà de 200K |
Claude est le seul fournisseur majeur qui facture pas de supplément pour utiliser la fenêtre de contexte complète. Une requête de 900K tokens coûte le même prix au token qu’une requête de 9K.
Et avec le prompt caching, les requêtes répétées avec le même contexte coûtent 90 % moins cher. Si tu analyses le même long document avec des questions différentes, tu paies plein pot une fois et une fraction après ça. Pour une boîte qui fait du traitement documentaire en volume, c’est énorme.
Les limites, en toute honnêteté
On va pas se mentir : y’a des compromis réels.
La latence augmente. Traiter 1M tokens prend plusieurs secondes avant que tu voies le premier mot de la réponse. Pour une question rapide, c’est pénible. Pour analyser un document de 500 pages, c’est un deal acceptable.
Plus de contexte, c’est pas toujours mieux. Quand seule une petite partie de ce que t’as uploadé est pertinente, le reste c’est du bruit. Le modèle étale son attention sur tout, ce qui peut en fait réduire la précision sur les passages qui comptent. Balance pas tout ton Google Drive dans Claude juste parce que tu peux. (On dit ça, on dit rien.)
Le « lost in the middle » a pas disparu. C’est mieux qu’avant, mais les modèles performent toujours mieux sur les infos au début et à la fin de l’input. L’ordre dans lequel tu organises tes documents compte.
Le contexte effectif est inférieur à 1M. Comme l’a montré la recherche de Chroma, la performance se dégrade bien avant d’atteindre le plafond. Considère 1M comme le max théorique. La performance fiable en conditions réelles, c’est plutôt 500-700K — ce qui reste massif, entendons-nous bien.
Vue d’ensemble
Il y a un an, la plupart des modèles d’IA plafonnaient à 128K tokens. Ça faisait environ 200 pages. Suffisant pour une conversation, pas assez pour du travail documentaire sérieux.
Aujourd’hui on est à 1M tokens chez plusieurs fournisseurs, avec le Llama 4 Scout de Meta qui tape à 10M. La fenêtre de contexte grandit plus vite que prévu — et ça transforme ce qu’on peut faire avec l’IA.
Le passage de 200K à 1M, c’est pas juste « plus de la même chose ». Ça franchit un seuil. Ça signifie que l’IA peut garder ton projet entier en tête — tous les fichiers, tout le contexte, tout l’historique. Le rapport change : on passe de « outil à qui je pose une question à la fois » à « collaborateur qui comprend le tableau complet ».
Si tu veux aller plus loin avec Claude spécifiquement, notre guide Claude Cowork détaille le workflow de collaboration. Et si tu construis des prompts pour ces contextes XXL, le skill Context Engineering Master t’apprend à structurer ton input pour que l’IA utilise vraiment tout ce que tu lui donnes.
Pour une comparaison complète de Claude face à ChatGPT et Gemini — pas juste sur la fenêtre de contexte — notre article ChatGPT vs Claude vs Gemini : quelle IA choisir ? fait le tour de la question. Et si tu veux te former sur les différences entre ces outils, le cours ChatGPT vs Claude est un bon point de départ.
La course à la fenêtre de contexte est loin d’être terminée. Mais pour l’instant, Claude est celui qui utilise le mieux ce qu’on lui donne. Et au final, c’est la seule métrique qui compte vraiment.