Lần đầu tiên mình bị giới hạn token giữa chừng cuộc hội thoại, mình chẳng hiểu chuyện gì đang xảy ra.
Đang code với GPT-4, paste một codebase lớn vào để review. Response đột nhiên… dừng. Cắt ngang giữa câu. Và mình không hiểu tại sao, vì lúc đó chẳng biết token là gì, cũng không biết có giới hạn.
Nếu bạn từng gặp tình huống tương tự, công cụ này là dành cho bạn.
Đếm Token của bạn
Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.
Đếm Token AI
Chi phí Ước tính
| Mô hình | Đầu vào | Đầu ra |
|---|
Token là gì?
Token là đơn vị cơ bản mà các mô hình ngôn ngữ AI sử dụng để xử lý văn bản. Không phải là từ — mà là các mảnh văn bản mà tokenizer của mô hình chia input của bạn ra.
Quy tắc ước lượng: 1 token xấp xỉ 4 ký tự tiếng Anh, tức khoảng 0,75 từ. Với tiếng Việt, do có dấu và cấu trúc từ khác biệt, số token thường cao hơn đáng kể so với tiếng Anh.
| Văn bản | Token | Lý do |
|---|---|---|
| “Hello” | 1 | Từ thông dụng = 1 token |
| “indescribable” | 4 | Từ dài/hiếm = nhiều token |
| “ChatGPT” | 2 | Tên thương hiệu bị chia nhỏ |
| “Xin chào” | 3 | Tiếng Việt dùng nhiều token hơn |
{"key": "value"} | 7 | Code/JSON có token cấu trúc |
Tokenizer chia văn bản thành các mảnh đã học trong quá trình huấn luyện. Các từ tiếng Anh phổ biến thường là một token. Từ hiếm, code và văn bản không phải tiếng Anh thường cần nhiều token hơn cho mỗi từ.
Tại sao số token lại quan trọng?
1. Giới hạn cửa sổ ngữ cảnh
Mỗi mô hình AI có cửa sổ ngữ cảnh tối đa — tổng số token có thể xử lý trong một cuộc hội thoại (input + output cộng lại):
| Mô hình | Cửa sổ ngữ cảnh |
|---|---|
| GPT-4o | 128K token |
| GPT-4o mini | 128K token |
| o3-mini | 200K token |
| Claude Sonnet 4 | 200K token |
| Claude Haiku 3.5 | 200K token |
| Gemini 2.0 Flash | 1M token |
| Copilot (GPT-4o) | 128K token |
| Mistral Large | 128K token |
| DeepSeek V3 | 64K token |
Nếu prompt vượt quá giới hạn, bạn sẽ nhận được phản hồi bị cắt hoặc lỗi.
2. Kiểm soát chi phí API
Nếu bạn dùng API AI (không chỉ giao diện chat), bạn trả tiền theo token. Chi phí input và output khác nhau đáng kể:
| Mô hình | Input (mỗi 1M) | Output (mỗi 1M) |
|---|---|---|
| GPT-4o | 64.888₫ | 259.550₫ |
| GPT-4o mini | 3.893₫ | 15.573₫ |
| o3-mini | 28.551₫ | 114.202₫ |
| Claude Sonnet 4 | 77.865₫ | 389.325₫ |
| Claude Haiku 3.5 | 25.955₫ | 129.775₫ |
| Gemini 2.0 Flash | 2.596₫ | 10.382₫ |
| Copilot (GPT-4o) | 64.888₫ | 259.550₫ |
| Mistral Large | 51.910₫ | 155.730₫ |
| DeepSeek V3 | 7.267₫ | 10.901₫ |
Một prompt 1.000 token gửi đến GPT-4o tốn khoảng 65₫ cho input. DeepSeek V3 rẻ nhất với khoảng 7₫ input cho 1.000 token. Phản hồi luôn tốn nhiều hơn prompt.
3. Tối ưu hóa prompt
Biết số token giúp bạn:
- Cắt bớt phần thừa trong system prompt để tiết kiệm chi phí
- Ước tính ngân sách phản hồi trước khi gọi API
- Giữ trong giới hạn khi paste tài liệu lớn
- So sánh hiệu quả giữa các cách tiếp cận prompt khác nhau
Cách ước tính token hoạt động
Công cụ này sử dụng phương pháp ký tự ÷ 4, là phép tính gần đúng tiêu chuẩn cho văn bản tiếng Anh. Độ chính xác khoảng 10% cho nội dung thông thường.
Để có con số chính xác, bạn cần tokenizer riêng của từng mô hình (tiktoken của OpenAI, tokenizer của Anthropic, v.v.), vì mỗi mô hình tokenize hơi khác nhau. Nhưng để ước tính và lập kế hoạch chi phí, quy tắc ÷4 hoạt động tốt.
Khi nào ước tính kém chính xác hơn:
- Code và JSON (nhiều token hơn dự kiến)
- Văn bản không phải tiếng Anh (nhiều token hơn đáng kể)
- Văn bản có nhiều số hoặc ký tự đặc biệt
- Prompt rất ngắn (làm tròn ảnh hưởng nhiều hơn)
Mẹo thực tế quản lý token
Cho người dùng ChatGPT/Claude/Copilot (giao diện chat):
- Gói đăng ký không tính phí theo token, nhưng giới hạn ngữ cảnh vẫn áp dụng
- Cuộc hội thoại dài tích lũy token — bắt đầu lại khi mọi thứ chậm đi
- Paste phần ngữ cảnh liên quan nhất, không phải toàn bộ tài liệu
Cho người dùng API:
- Đặt
max_tokenscho phản hồi để kiểm soát chi phí output - Dùng mô hình rẻ hơn (GPT-4o mini, Haiku) cho tác vụ đơn giản
- Cache system prompt khi có thể
- Stream phản hồi để dừng sớm nếu output không hữu ích
Cho Prompt Engineer:
- Prompt ngắn hơn không phải lúc nào cũng rẻ hơn — system prompt tốt tiết kiệm chi phí retry
- Test với mô hình mini/flash trước, nâng cấp khi cần
- Dùng bảng chi phí ở trên để ước tính trước khi chạy batch job
Câu hỏi thường gặp
Số token có chính xác không? Đây là ước tính dựa trên phương pháp tiêu chuẩn ký tự÷4. Để có con số chính xác, cần tokenizer riêng của từng mô hình. Ước tính thường trong phạm vi 10% cho văn bản tiếng Anh.
Tại sao các mô hình khác nhau có giá khác nhau? Mô hình lớn hơn với nhiều tham số hơn tốn nhiều chi phí vận hành hơn. Giá phản ánh yêu cầu tính toán. Mô hình mini/flash rẻ hơn vì nhỏ hơn và nhanh hơn.
Sự khác biệt giữa token input và output? Token input là những gì bạn gửi (prompt). Token output là những gì AI tạo ra (phản hồi). Token output thường đắt gấp 3-5 lần vì việc tạo nội dung tốn nhiều tài nguyên tính toán hơn việc đọc.
Có hoạt động với tiếng Việt không? Công cụ đếm ký tự và ước tính token. Với tiếng Việt, số token thực tế sẽ cao hơn ước tính vì các ký tự có dấu và từ Việt thường dùng nhiều token hơn tiếng Anh.
Văn bản của tôi có bị lưu không? Không. Mọi thứ chạy phía client trong trình duyệt của bạn. Không có văn bản nào được gửi đến server nào cả.