La prima volta che ho raggiunto un limite di token nel mezzo di una conversazione, non avevo la minima idea di cosa fosse successo.
Ero nel pieno di una sessione di coding con GPT-4, avevo incollato un codebase enorme per una review. La risposta ha semplicemente… smesso. Tagliata a metà frase. E non capivo perché, perché non sapevo cosa fossero i token né che ci fosse un limite.
Se ti suona familiare, questo strumento fa per te.
Conta i tuoi Token
Inizia a scrivere o incolla il tuo testo qui sotto. Il conteggio dei token, le parole e le stime dei costi si aggiornano in tempo reale.
Contatore di Token IA
Costo Stimato
| Modello | Input | Output |
|---|
Cosa sono i Token?
I token sono le unità fondamentali che i modelli linguistici IA usano per elaborare il testo. Non sono parole — sono pezzi di testo in cui il tokenizer del modello suddivide il tuo input.
Una regola approssimativa: 1 token corrisponde a circa 4 caratteri in inglese, o all’incirca 0,75 parole. In italiano, le parole tendono ad essere più lunghe, quindi servono mediamente più token.
| Testo | Token | Perché |
|---|---|---|
| “Hello” | 1 | Parola comune = singolo token |
| “incomprensibile” | 5 | Parola lunga/rara = più token |
| “ChatGPT” | 2 | I nomi di brand vengono divisi |
| “こんにちは” | 3 | Gli script non latini usano più token |
{"key": "value"} | 7 | Codice/JSON ha token strutturali |
Il tokenizer spezza il testo in pezzi che ha imparato durante l’addestramento. Le parole inglesi comuni sono spesso un singolo token. Parole rare, codice e testo non inglese richiedono tipicamente più token per parola.
Perché il conteggio dei token è importante
1. Limiti della finestra di contesto
Ogni modello IA ha una finestra di contesto massima — il numero totale di token che può elaborare in una singola conversazione (input + output combinati):
| Modello | Finestra di Contesto |
|---|---|
| GPT-4o | 128K token |
| GPT-4o mini | 128K token |
| o3-mini | 200K token |
| Claude Sonnet 4 | 200K token |
| Claude Haiku 3.5 | 200K token |
| Gemini 2.0 Flash | 1M token |
| Copilot (GPT-4o) | 128K token |
| Mistral Large | 128K token |
| DeepSeek V3 | 64K token |
Se il tuo prompt supera il limite, otterrai risposte troncate o errori.
2. Controllo dei costi API
Se usi le API IA (non solo l’interfaccia chat), paghi per token. I costi differiscono significativamente tra input e output:
| Modello | Input (per 1M) | Output (per 1M) |
|---|---|---|
| GPT-4o | 2,10 € | 8,40 € |
| GPT-4o mini | 0,13 € | 0,50 € |
| o3-mini | 0,92 € | 3,70 € |
| Claude Sonnet 4 | 2,52 € | 12,60 € |
| Claude Haiku 3.5 | 0,84 € | 4,20 € |
| Gemini 2.0 Flash | 0,08 € | 0,34 € |
| Copilot (GPT-4o) | 2,10 € | 8,40 € |
| Mistral Large | 1,68 € | 5,04 € |
| DeepSeek V3 | 0,24 € | 0,35 € |
Un prompt di 1.000 token a GPT-4o costa circa 0,0021 € di input. DeepSeek V3 è il più economico con circa 0,00024 € di input per 1.000 token. La risposta costa sempre più del prompt.
3. Ottimizzazione dei prompt
Conoscere il conteggio dei token ti aiuta a:
- Tagliare il superfluo dai system prompt per risparmiare
- Stimare i budget di risposta prima delle chiamate API
- Restare nei limiti quando incolli documenti grandi
- Confrontare l’efficienza tra approcci diversi ai prompt
Come funziona la stima dei token
Questo strumento usa l’euristica caratteri ÷ 4, l’approssimazione standard per il testo inglese. È accurato entro circa il 10% per contenuti tipici.
Per conteggi esatti, servirebbe un tokenizer specifico del modello (il tiktoken di OpenAI, il tokenizer di Anthropic, ecc.), poiché ogni modello tokenizza in modo leggermente diverso. Ma per stime e pianificazione dei costi, la regola ÷4 funziona bene.
Quando la stima è meno accurata:
- Codice e JSON (più token del previsto)
- Testo non inglese (significativamente più token)
- Testo con molti numeri o caratteri speciali
- Prompt molto brevi (l’arrotondamento ha più impatto)
Consigli pratici per gestire i token
Per utenti ChatGPT/Claude/Copilot (interfaccia chat):
- Con gli abbonamenti non paghi per token, ma i limiti di contesto si applicano comunque
- Le conversazioni lunghe accumulano token — ricomincia da zero quando rallenta
- Incolla il contesto più rilevante, non documenti interi
Per utenti API:
- Imposta
max_tokenssulle risposte per controllare i costi di output - Usa modelli più economici (GPT-4o mini, Haiku) per compiti semplici
- Metti in cache i system prompt quando possibile
- Usa lo streaming delle risposte per fermarti presto se l’output non è utile
Per Prompt Engineer:
- Prompt più brevi non sono sempre più economici — un buon system prompt fa risparmiare sui retry
- Testa prima con modelli mini/flash, passa a quelli più potenti solo quando serve
- Usa la tabella dei costi sopra per stimare prima di lanciare lavori in batch
Domande frequenti
Il conteggio dei token è esatto? È una stima basata sull’euristica standard caratteri÷4. Per conteggi esatti servirebbero tokenizer specifici per modello. La stima è tipicamente entro il 10% per testo inglese.
Perché modelli diversi hanno prezzi diversi? Modelli più grandi con più parametri costano di più da eseguire. I prezzi riflettono i requisiti computazionali. I modelli mini/flash sono più economici perché sono più piccoli e veloci.
Qual è la differenza tra token di input e output? I token di input sono quello che invii (il tuo prompt). I token di output sono quello che l’IA genera (la sua risposta). I token di output costano tipicamente 3-5 volte di più perché la generazione è più intensiva computazionalmente della lettura.
Funziona per testo non inglese? Lo strumento conta i caratteri e stima i token. Per testo non inglese, i conteggi effettivi saranno più alti della stima, poiché i caratteri non latini usano tipicamente 2-3 token ciascuno.
I miei testi vengono memorizzati? No. Tutto viene eseguito lato client nel tuo browser. Nessun testo viene inviato a nessun server.