पहली बार जब conversation के बीच में token limit hit हुई, मुझे समझ ही नहीं आया कि क्या हुआ।
GPT-4 के साथ coding session चल रही थी, एक बड़ा codebase review के लिए paste किया था। Response बस… रुक गया। बीच sentence में कट गया। और मुझे पता ही नहीं था क्यों, क्योंकि tokens क्या होते हैं या limit होती है, ये मुझे पता ही नहीं था।
अगर ये सुनने में familiar लग रहा है, तो ये tool आपके लिए है।
अपने Tokens काउंट करें
टाइप करें या नीचे अपना text paste करें। Token count, word count, और cost estimates रियल टाइम में update होते हैं।
AI टोकन काउंटर
अनुमानित लागत
| मॉडल | इनपुट | आउटपुट |
|---|
Tokens क्या हैं?
Tokens वो fundamental units हैं जो AI language models text process करने के लिए use करते हैं। ये words नहीं हैं — ये text के chunks हैं जिनमें model का tokenizer आपके input को split करता है।
एक rough rule: 1 token लगभग 4 English characters, या approximately 0.75 words। Hindi और अन्य भारतीय भाषाओं में, एक character 2-3 tokens ले सकता है, इसलिए English से काफ़ी ज़्यादा tokens लगते हैं।
| Text | Tokens | क्यों |
|---|---|---|
| “Hello” | 1 | Common word = single token |
| “indescribable” | 4 | Long/rare word = multiple tokens |
| “ChatGPT” | 2 | Brand names split हो जाते हैं |
| “नमस्ते” | 4 | Non-Latin scripts ज़्यादा tokens use करते हैं |
{"key": "value"} | 7 | Code/JSON में structural tokens होते हैं |
Tokenizer text को उन pieces में तोड़ता है जो उसने training के दौरान सीखे। Common English words अक्सर single token होते हैं। Rare words, code, और non-English text को typically हर word के लिए ज़्यादा tokens चाहिए।
Token count क्यों matter करता है
1. Context Window Limits
हर AI model की एक maximum context window होती है — एक conversation में process हो सकने वाले total tokens (input + output मिलाकर):
| Model | Context Window |
|---|---|
| GPT-4o | 128K tokens |
| GPT-4o mini | 128K tokens |
| o3-mini | 200K tokens |
| Claude Sonnet 4 | 200K tokens |
| Claude Haiku 3.5 | 200K tokens |
| Gemini 2.0 Flash | 1M tokens |
| Copilot (GPT-4o) | 128K tokens |
| Mistral Large | 128K tokens |
| DeepSeek V3 | 64K tokens |
अगर आपका prompt limit से ज़्यादा हो जाए, तो truncated responses या errors मिलेंगे।
2. API Cost Control
अगर आप AI APIs use कर रहे हैं (सिर्फ़ chat interface नहीं), तो per token pay करना पड़ता है। Input और output की costs काफ़ी अलग होती हैं:
| Model | Input (per 1M) | Output (per 1M) |
|---|---|---|
| GPT-4o | ₹230 | ₹920 |
| GPT-4o mini | ₹14 | ₹55 |
| o3-mini | ₹101 | ₹405 |
| Claude Sonnet 4 | ₹276 | ₹1,380 |
| Claude Haiku 3.5 | ₹92 | ₹460 |
| Gemini 2.0 Flash | ₹9 | ₹37 |
| Copilot (GPT-4o) | ₹230 | ₹920 |
| Mistral Large | ₹184 | ₹552 |
| DeepSeek V3 | ₹26 | ₹39 |
GPT-4o को 1,000-token prompt भेजने पर input cost लगभग ₹0.23 होती है। DeepSeek V3 सबसे सस्ता है — 1,000 tokens input की cost लगभग ₹0.026। Response हमेशा prompt से ज़्यादा cost करता है।
3. Prompt Optimization
Token count जानने से help मिलती है:
- System prompts से unnecessary stuff हटाकर cost बचाना
- API calls से पहले response budgets estimate करना
- बड़े documents paste करते वक़्त limits के अंदर रहना
- Different prompt approaches की efficiency compare करना
Token estimate कैसे काम करता है
ये tool characters ÷ 4 heuristic use करता है, जो English text के लिए standard approximation है। Typical content के लिए लगभग 10% accuracy।
Exact counts के लिए model-specific tokenizer चाहिए (OpenAI का tiktoken, Anthropic का tokenizer, वग़ैरह), क्योंकि हर model थोड़ा अलग तरीक़े से tokenize करता है। लेकिन estimation और cost planning के लिए ÷4 rule अच्छा काम करता है।
Estimate कम accurate कब होता है:
- Code और JSON (expected से ज़्यादा tokens)
- Non-English text (काफ़ी ज़्यादा tokens)
- बहुत सारे numbers या special characters वाला text
- बहुत छोटे prompts (rounding का ज़्यादा impact)
Token management के practical tips
ChatGPT/Claude/Copilot users के लिए (chat interface):
- Subscription plans में per token pay नहीं करना पड़ता, लेकिन context limits फिर भी apply होती हैं
- लंबी conversations tokens accumulate करती हैं — slow होने पर fresh start करें
- पूरे documents नहीं, सिर्फ़ सबसे relevant context paste करें
API users के लिए:
- Responses पर
max_tokensset करें output costs control करने के लिए - Simple tasks के लिए cheaper models (GPT-4o mini, Haiku) use करें
- जब possible हो system prompts cache करें
- Responses stream करें ताकि output useful न हो तो जल्दी stop कर सकें
Prompt Engineers के लिए:
- छोटे prompts हमेशा cheaper नहीं होते — अच्छा system prompt retries पर पैसे बचाता है
- पहले mini/flash models से test करें, ज़रूरत पड़ने पर ही upgrade करें
- Batch jobs चलाने से पहले ऊपर की cost table से estimate करें
अक्सर पूछे जाने वाले सवाल
Token count exact है? ये standard characters÷4 heuristic पर based estimate है। Exact counts के लिए model-specific tokenizers चाहिए। English text के लिए estimate typically 10% के अंदर होता है।
Different models की prices अलग क्यों हैं? ज़्यादा parameters वाले बड़े models operate करने में ज़्यादा expensive हैं। Pricing compute requirements reflect करती है। Mini/flash models छोटे और तेज़ होने की वजह से सस्ते हैं।
Input और output tokens में क्या फ़र्क़ है? Input tokens वो हैं जो आप भेजते हैं (आपका prompt)। Output tokens वो हैं जो AI generate करता है (उसका response)। Output tokens typically 3-5 गुना ज़्यादा expensive होते हैं क्योंकि generation, reading से ज़्यादा compute-intensive है।
Non-English text के लिए काम करता है? Tool characters count करता है और tokens estimate करता है। Non-English text के लिए, actual token counts estimate से ज़्यादा होंगे क्योंकि non-Latin characters typically 2-3 tokens use करते हैं।
क्या मेरा text store होता है? नहीं। सब कुछ client-side आपके browser में run होता है। कोई text किसी server को send नहीं होता।