La primera vez que llegué a un límite de tokens a mitad de conversación, no tenía idea de qué había pasado.
Estaba metido en una sesión de código con GPT-4, pegando un codebase grande para revisión. La respuesta simplemente… se cortó. A mitad de frase. Y no tenía ni idea de por qué, porque no sabía qué eran los tokens ni que había un límite.
Si eso te suena familiar, esta herramienta es para ti.
Cuenta tus Tokens
Empieza a escribir o pega tu texto abajo. El conteo de tokens, palabras y estimaciones de costo se actualizan en tiempo real.
Contador de Tokens IA
Costo Estimado
| Modelo | Entrada | Salida |
|---|
¿Qué son los Tokens?
Los tokens son las unidades fundamentales que los modelos de lenguaje de IA usan para procesar texto. No son palabras — son fragmentos de texto en los que el tokenizador del modelo divide tu input.
Una regla general: 1 token son aproximadamente 4 caracteres en inglés, o más o menos 0.75 palabras. En español, los tokens tienden a cubrir menos caracteres porque las palabras suelen ser más largas.
| Texto | Tokens | Por qué |
|---|---|---|
| “Hello” | 1 | Palabra común = un solo token |
| “indescriptible” | 5 | Palabra larga/rara = múltiples tokens |
| “ChatGPT” | 2 | Nombres de marca se dividen |
| “こんにちは” | 3 | Scripts no latinos usan más tokens |
{"key": "value"} | 7 | Código/JSON tiene tokens estructurales |
El tokenizador divide el texto en piezas que aprendió durante el entrenamiento. Las palabras comunes en inglés suelen ser un solo token. Palabras raras, código y texto no inglés típicamente requieren más tokens por palabra.
Por qué importa el conteo de tokens
1. Límites de ventana de contexto
Cada modelo de IA tiene una ventana de contexto máxima — el número total de tokens que puede procesar en una sola conversación (input + output combinados):
| Modelo | Ventana de Contexto |
|---|---|
| GPT-4o | 128K tokens |
| GPT-4o mini | 128K tokens |
| o3-mini | 200K tokens |
| Claude Sonnet 4 | 200K tokens |
| Claude Haiku 3.5 | 200K tokens |
| Gemini 2.0 Flash | 1M tokens |
| Copilot (GPT-4o) | 128K tokens |
| Mistral Large | 128K tokens |
| DeepSeek V3 | 64K tokens |
Si tu prompt excede el límite, obtendrás respuestas truncadas o errores.
2. Control de costos de API
Si usas APIs de IA (no solo la interfaz de chat), pagas por token. Los costos difieren significativamente entre input y output:
| Modelo | Input (por 1M) | Output (por 1M) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o mini | $0.15 | $0.60 |
| o3-mini | $1.10 | $4.40 |
| Claude Sonnet 4 | $3.00 | $15.00 |
| Claude Haiku 3.5 | $1.00 | $5.00 |
| Gemini 2.0 Flash | $0.10 | $0.40 |
| Copilot (GPT-4o) | $2.50 | $10.00 |
| Mistral Large | $2.00 | $6.00 |
| DeepSeek V3 | $0.28 | $0.42 |
Un prompt de 1,000 tokens a GPT-4o cuesta $0.0025 de input. DeepSeek V3 es el más barato con $0.00028 de input por 1,000 tokens. La respuesta siempre cuesta más que el prompt.
3. Optimización de prompts
Conocer tu conteo de tokens te ayuda a:
- Eliminar lo innecesario de system prompts para ahorrar costos
- Estimar presupuestos de respuesta antes de llamadas a la API
- Mantenerte dentro de los límites al pegar documentos grandes
- Comparar eficiencia entre diferentes enfoques de prompts
Cómo funciona la estimación de tokens
Esta herramienta usa la heurística caracteres ÷ 4, que es la aproximación estándar para texto en inglés. Es precisa dentro de un margen de 10% para contenido típico.
Para conteos exactos, necesitarías un tokenizador específico del modelo (el tiktoken de OpenAI, el tokenizador de Anthropic, etc.), ya que cada modelo tokeniza ligeramente diferente. Pero para estimación y planificación de costos, la regla ÷4 funciona bien.
Cuándo la estimación es menos precisa:
- Código y JSON (más tokens de lo esperado)
- Texto no inglés (significativamente más tokens)
- Texto con muchos números o caracteres especiales
- Prompts muy cortos (el redondeo tiene más impacto)
Tips prácticos para gestionar tokens
Para usuarios de ChatGPT/Claude/Copilot (interfaz de chat):
- No pagas por token en planes de suscripción, pero los límites de contexto siguen aplicando
- Las conversaciones largas acumulan tokens — empieza de nuevo cuando las cosas se pongan lentas
- Pega el contexto más relevante, no documentos enteros
Para usuarios de API:
- Establece
max_tokensen las respuestas para controlar costos de output - Usa modelos más baratos (GPT-4o mini, Haiku) para tareas simples
- Cachea system prompts cuando sea posible
- Transmite respuestas en streaming para parar temprano si el output no es útil
Para Prompt Engineers:
- Prompts más cortos no siempre son más baratos — un buen system prompt ahorra dinero en reintentos
- Prueba primero con modelos mini/flash, escala solo cuando sea necesario
- Usa la tabla de costos de arriba para estimar antes de ejecutar trabajos por lotes
Preguntas frecuentes
¿El conteo de tokens es exacto? Es una estimación basada en la heurística estándar de caracteres÷4. Para conteos exactos, necesitarías tokenizadores específicos del modelo. La estimación típicamente está dentro del 10% para texto en inglés.
¿Por qué diferentes modelos tienen diferentes precios? Modelos más grandes con más parámetros cuestan más de operar. Los precios reflejan los requisitos de cómputo. Los modelos mini/flash son más baratos porque son más pequeños y rápidos.
¿Cuál es la diferencia entre tokens de input y output? Los tokens de input son lo que envías (tu prompt). Los tokens de output son lo que la IA genera (su respuesta). Los tokens de output típicamente cuestan 3-5x más porque la generación es más intensiva computacionalmente que la lectura.
¿Funciona para texto en otros idiomas? La herramienta cuenta caracteres y estima tokens. Para texto no inglés, los conteos reales de tokens serán mayores que la estimación, ya que caracteres no latinos típicamente usan 2-3 tokens cada uno.
¿Almacenan mi texto? No. Todo se ejecuta del lado del cliente en tu navegador. Ningún texto se envía a ningún servidor.