La première fois que j’ai atteint un limite de tokens en plein milieu d’une conversation, j’avais aucune idée de ce qui s’était passé.
J’étais en pleine session de code avec GPT-4, j’avais collé une grosse codebase pour la faire relire. La réponse a juste… coupé. En plein milieu d’une phrase. Et j’avais aucune idée pourquoi, parce que je ne savais pas ce qu’étaient les tokens ni qu’il y avait une limite.
Si ça te parle, cet outil est pour toi.
Compte tes Tokens
Tape ou colle ton texte ci-dessous. Le compteur de tokens, le nombre de mots et les estimations de coût se mettent à jour en temps réel.
Compteur de Tokens IA
Coût Estimé
| Modèle | Entrée | Sortie |
|---|
C’est quoi un Token ?
Les tokens sont les unités fondamentales que les modèles de langage IA utilisent pour traiter le texte. Ce ne sont pas des mots — ce sont des morceaux de texte dans lesquels le tokenizer du modèle découpe ton input.
Une règle d’approximation : 1 token fait environ 4 caractères en anglais, soit à peu près 0,75 mot. En français, les mots étant plus longs en moyenne, ça tourne plutôt autour de 3 caractères par token.
| Texte | Tokens | Pourquoi |
|---|---|---|
| “Hello” | 1 | Mot courant = un seul token |
| “invraisemblable” | 5 | Mot long/rare = plusieurs tokens |
| “ChatGPT” | 2 | Les noms de marque sont découpés |
| “こんにちは” | 3 | Les écritures non latines utilisent plus de tokens |
{"key": "value"} | 7 | Le code/JSON a des tokens structurels |
Le tokenizer découpe le texte en morceaux qu’il a appris pendant l’entraînement. Les mots anglais courants sont souvent un seul token. Les mots rares, le code et le texte non anglais nécessitent typiquement plus de tokens par mot.
Pourquoi le nombre de tokens compte
1. Limites de la fenêtre de contexte
Chaque modèle IA a une fenêtre de contexte maximale — le nombre total de tokens qu’il peut traiter dans une seule conversation (input + output combinés) :
| Modèle | Fenêtre de Contexte |
|---|---|
| GPT-4o | 128K tokens |
| GPT-4o mini | 128K tokens |
| o3-mini | 200K tokens |
| Claude Sonnet 4 | 200K tokens |
| Claude Haiku 3.5 | 200K tokens |
| Gemini 2.0 Flash | 1M tokens |
| Copilot (GPT-4o) | 128K tokens |
| Mistral Large | 128K tokens |
| DeepSeek V3 | 64K tokens |
Si ton prompt dépasse la limite, tu auras des réponses tronquées ou des erreurs.
2. Contrôle des coûts API
Si tu utilises les APIs IA (pas juste l’interface de chat), tu paies au token. Les coûts diffèrent significativement entre input et output :
| Modèle | Input (par 1M) | Output (par 1M) |
|---|---|---|
| GPT-4o | 2,10 € | 8,40 € |
| GPT-4o mini | 0,13 € | 0,50 € |
| o3-mini | 0,92 € | 3,70 € |
| Claude Sonnet 4 | 2,52 € | 12,60 € |
| Claude Haiku 3.5 | 0,84 € | 4,20 € |
| Gemini 2.0 Flash | 0,08 € | 0,34 € |
| Copilot (GPT-4o) | 2,10 € | 8,40 € |
| Mistral Large | 1,68 € | 5,04 € |
| DeepSeek V3 | 0,24 € | 0,35 € |
Un prompt de 1 000 tokens envoyé à GPT-4o coûte environ 0,0021 € en input. DeepSeek V3 est le moins cher avec environ 0,00024 € d’input pour 1 000 tokens. La réponse coûte toujours plus que le prompt.
3. Optimisation des prompts
Connaître ton nombre de tokens t’aide à :
- Supprimer le superflu dans les system prompts pour réduire les coûts
- Estimer les budgets de réponse avant les appels API
- Rester dans les limites quand tu colles de gros documents
- Comparer l’efficacité entre différentes approches de prompts
Comment fonctionne l’estimation de tokens
Cet outil utilise l’heuristique caractères ÷ 4, qui est l’approximation standard pour le texte anglais. C’est précis à environ 10% près pour du contenu typique.
Pour des comptes exacts, il te faudrait un tokenizer spécifique au modèle (le tiktoken d’OpenAI, le tokenizer d’Anthropic, etc.), puisque chaque modèle tokenise légèrement différemment. Mais pour l’estimation et la planification des coûts, la règle ÷4 fonctionne bien.
Quand l’estimation est moins précise :
- Code et JSON (plus de tokens que prévu)
- Texte non anglais (nettement plus de tokens)
- Texte avec beaucoup de chiffres ou caractères spéciaux
- Prompts très courts (l’arrondi a plus d’impact)
Conseils pratiques pour gérer les tokens
Pour les utilisateurs ChatGPT/Claude/Copilot (interface de chat) :
- Tu ne paies pas au token avec les abonnements, mais les limites de contexte s’appliquent quand même
- Les longues conversations accumulent des tokens — repars à zéro quand ça ralentit
- Colle le contexte le plus pertinent, pas des documents entiers
Pour les utilisateurs d’API :
- Configure
max_tokenssur les réponses pour contrôler les coûts de sortie - Utilise des modèles moins chers (GPT-4o mini, Haiku) pour les tâches simples
- Cache les system prompts quand c’est possible
- Diffuse les réponses en streaming pour arrêter tôt si l’output n’est pas utile
Pour les Prompt Engineers :
- Des prompts plus courts ne sont pas toujours moins chers — un bon system prompt fait économiser sur les retries
- Teste d’abord avec les modèles mini/flash, monte en gamme seulement quand c’est nécessaire
- Utilise la table de coûts ci-dessus pour estimer avant de lancer des traitements par lots
Questions fréquentes
Le comptage de tokens est-il exact ? C’est une estimation basée sur l’heuristique standard caractères÷4. Pour des comptes exacts, il faudrait des tokenizers spécifiques au modèle. L’estimation est typiquement à 10% près pour du texte anglais.
Pourquoi différents modèles ont-ils des prix différents ? Les modèles plus grands avec plus de paramètres coûtent plus cher à faire tourner. Les prix reflètent les besoins en calcul. Les modèles mini/flash sont moins chers parce qu’ils sont plus petits et plus rapides.
Quelle est la différence entre tokens d’input et d’output ? Les tokens d’input sont ce que tu envoies (ton prompt). Les tokens d’output sont ce que l’IA génère (sa réponse). Les tokens d’output coûtent typiquement 3-5x plus cher parce que la génération est plus gourmande en calcul que la lecture.
Ça marche pour du texte non anglais ? L’outil compte les caractères et estime les tokens. Pour du texte non anglais, les comptes réels de tokens seront plus élevés que l’estimation, puisque les caractères non latins utilisent typiquement 2-3 tokens chacun.
Mes textes sont-ils stockés ? Non. Tout s’exécute côté client dans ton navigateur. Aucun texte n’est envoyé à un serveur.