A primeira vez que bati num limite de tokens no meio de uma conversa, não fazia a menor ideia do que tinha acontecido.
Tava no meio de uma sessão de código com o GPT-4, tinha colado um codebase grande pra review. A resposta simplesmente… parou. Cortou no meio da frase. E eu não entendi o motivo, porque não sabia o que eram tokens nem que existia um limite.
Se isso soa familiar, essa ferramenta é pra você.
Conte seus Tokens
Comece a digitar ou cole seu texto abaixo. Contagem de tokens, palavras e estimativas de custo se atualizam em tempo real.
Contador de Tokens IA
Custo Estimado
| Modelo | Entrada | Saída |
|---|
O que são Tokens?
Tokens são as unidades fundamentais que modelos de linguagem de IA usam pra processar texto. Não são palavras — são pedaços de texto nos quais o tokenizador do modelo divide seu input.
Regra geral: 1 token equivale a mais ou menos 4 caracteres em inglês, ou aproximadamente 0,75 palavras. Em português, como as palavras tendem a ser mais longas, a proporção é um pouco diferente.
| Texto | Tokens | Por quê |
|---|---|---|
| “Hello” | 1 | Palavra comum = um token |
| “incompreensível” | 5 | Palavra longa/rara = vários tokens |
| “ChatGPT” | 2 | Nomes de marca são divididos |
| “こんにちは” | 3 | Scripts não latinos usam mais tokens |
{"key": "value"} | 7 | Código/JSON tem tokens estruturais |
O tokenizador quebra o texto em pedaços que aprendeu durante o treinamento. Palavras comuns em inglês costumam ser um único token. Palavras raras, código e texto não inglês geralmente precisam de mais tokens por palavra.
Por que a contagem de tokens importa
1. Limites da janela de contexto
Todo modelo de IA tem uma janela de contexto máxima — o número total de tokens que consegue processar numa única conversa (input + output combinados):
| Modelo | Janela de Contexto |
|---|---|
| GPT-4o | 128K tokens |
| GPT-4o mini | 128K tokens |
| o3-mini | 200K tokens |
| Claude Sonnet 4 | 200K tokens |
| Claude Haiku 3.5 | 200K tokens |
| Gemini 2.0 Flash | 1M tokens |
| Copilot (GPT-4o) | 128K tokens |
| Mistral Large | 128K tokens |
| DeepSeek V3 | 64K tokens |
Se seu prompt passar do limite, você recebe respostas cortadas ou erros.
2. Controle de custos de API
Se você usa APIs de IA (não só a interface de chat), paga por token. Os custos variam bastante entre input e output:
| Modelo | Input (por 1M) | Output (por 1M) |
|---|---|---|
| GPT-4o | R$13,13 | R$52,50 |
| GPT-4o mini | R$0,79 | R$3,15 |
| o3-mini | R$5,78 | R$23,10 |
| Claude Sonnet 4 | R$15,75 | R$78,75 |
| Claude Haiku 3.5 | R$5,25 | R$26,25 |
| Gemini 2.0 Flash | R$0,53 | R$2,10 |
| Copilot (GPT-4o) | R$13,13 | R$52,50 |
| Mistral Large | R$10,50 | R$31,50 |
| DeepSeek V3 | R$1,47 | R$2,21 |
Um prompt de 1.000 tokens pro GPT-4o custa cerca de R$0,013 de input. DeepSeek V3 é o mais barato com R$0,0015 de input por 1.000 tokens. A resposta sempre custa mais que o prompt.
3. Otimização de prompts
Saber sua contagem de tokens ajuda a:
- Cortar o desnecessário dos system prompts pra economizar
- Estimar orçamentos de resposta antes de chamadas de API
- Ficar dentro dos limites ao colar documentos grandes
- Comparar eficiência entre diferentes abordagens de prompts
Como a estimativa de tokens funciona
Essa ferramenta usa a heurística caracteres ÷ 4, que é a aproximação padrão pra texto em inglês. Tem precisão de cerca de 10% pra conteúdo típico.
Pra contagens exatas, seria necessário um tokenizador específico do modelo (o tiktoken da OpenAI, o tokenizador da Anthropic, etc.), já que cada modelo tokeniza de forma ligeiramente diferente. Mas pra estimativas e planejamento de custos, a regra ÷4 funciona bem.
Quando a estimativa é menos precisa:
- Código e JSON (mais tokens do que o esperado)
- Texto não inglês (consideravelmente mais tokens)
- Texto com muitos números ou caracteres especiais
- Prompts muito curtos (arredondamento tem mais impacto)
Dicas práticas pra gerenciar tokens
Pra usuários do ChatGPT/Claude/Copilot (interface de chat):
- Nos planos de assinatura você não paga por token, mas os limites de contexto continuam valendo
- Conversas longas acumulam tokens — comece do zero quando ficar lento
- Cole o contexto mais relevante, não documentos inteiros
Pra usuários de API:
- Configure
max_tokensnas respostas pra controlar custos de output - Use modelos mais baratos (GPT-4o mini, Haiku) pra tarefas simples
- Faça cache dos system prompts quando possível
- Use streaming pra parar cedo se o output não estiver sendo útil
Pra Prompt Engineers:
- Prompts mais curtos nem sempre são mais baratos — um bom system prompt economiza em retries
- Teste primeiro com modelos mini/flash, escale só quando necessário
- Use a tabela de custos acima pra estimar antes de rodar jobs em lote
Perguntas frequentes
A contagem de tokens é exata? É uma estimativa baseada na heurística padrão caracteres÷4. Pra contagens exatas, seriam necessários tokenizadores específicos por modelo. A estimativa geralmente fica dentro de 10% pra texto em inglês.
Por que modelos diferentes têm preços diferentes? Modelos maiores com mais parâmetros custam mais pra operar. Os preços refletem os requisitos computacionais. Modelos mini/flash são mais baratos porque são menores e mais rápidos.
Qual a diferença entre tokens de input e output? Tokens de input são o que você envia (seu prompt). Tokens de output são o que a IA gera (a resposta). Tokens de output geralmente custam 3-5x mais porque a geração exige mais processamento do que a leitura.
Funciona pra texto em português? A ferramenta conta caracteres e estima tokens. Pra texto não inglês, as contagens reais de tokens serão maiores que a estimativa, já que caracteres acentuados e palavras mais longas tendem a usar mais tokens.
Meu texto é armazenado? Não. Tudo roda no lado do cliente, no seu navegador. Nenhum texto é enviado a nenhum servidor.