Lần đầu tiên bị cắt ngang giữa chừng một cuộc hội thoại AI, mình đứng hình luôn. Đang code với GPT-4, mình paste luôn cả một cục codebase lớn vào để nó review. Thế là response… đơ. Cắt cụt giữa câu. Lúc ấy mình đâu có biết token là gì, chứ đừng nói là biết nó có giới hạn. Nếu bạn cũng từng “nằm vùng” vì tình trạng này, thì công cụ dưới đây chính là thứ bạn cần.
Đếm Token của bạn
Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.
Đếm Token AI
Chi phí Ước tính
| Mô hình | Đầu vào | Đầu ra |
|---|
Token là gì?
Nôm na, token là đơn vị nhỏ nhất mà AI dùng để đọc và hiểu văn bản. Nó không hẳn là một từ hoàn chỉnh, mà là những mảnh vụn mà bộ tokenizer của mô hình cắt ra từ đoạn input của bạn.
Mẹo nhỏ để hình dung: 1 token xấp xỉ 4 ký tự tiếng Anh, tương đương khoảng 0,75 từ. Còn với tiếng Việt, vì có dấu và cách ghép từ khác, cùng một đoạn văn sẽ tốn nhiều token hơn tiếng Anh khá nhiều.
| Văn bản | Token | Lý do |
|---|---|---|
| “Hello” | 1 | Từ thông dụng = 1 token |
| “indescribable” | 4 | Từ dài/hiếm = nhiều token |
| “ChatGPT” | 2 | Tên thương hiệu bị chia nhỏ |
| “Xin chào” | 3 | Tiếng Việt dùng nhiều token hơn |
{"key": "value"} | 7 | Code/JSON có token cấu trúc |
Bộ tokenizer này hoạt động dựa trên những mảnh văn bản mà mô hình đã “ăn” trong quá trình train. Từ tiếng Anh phổ thông thường được gộp thành 1 token. Ngược lại, từ hiếm, đoạn code hay văn bản tiếng Việt thường bị xẻ nhỏ hơn, nên tốn nhiều token cho mỗi từ hơn.
Tại sao số token lại quan trọng?
1. Giới hạn cửa sổ ngữ cảnh
Mỗi mô hình AI đều có một “khung nhớ” giới hạn — hay còn gọi là cửa sổ ngữ cảnh. Đây là tổng số token tối đa mà mô hình có thể xử lý cùng lúc (bao gồm cả phần bạn gửi vào và phần AI trả về):
| Mô hình | Cửa sổ ngữ cảnh |
|---|---|
| GPT-4.1 | 1M token |
| GPT-4.1 mini | 1M token |
| GPT-4.1 nano | 1M token |
| o4-mini | 200K token |
| Claude Opus 4.6 | 1M token |
| Claude Sonnet 4.6 | 1M token |
| Claude Haiku 4.5 | 200K token |
| Gemini 2.5 Flash | 1M token |
| Mistral Large 3 | 262K token |
| DeepSeek V3.2 | 128K token |
Dễ hiểu là nếu đoạn prompt của bạn dài quá mức cho phép, AI sẽ trả về kết quả bị cụt ngủn hoặc báo lỗi luôn.
2. Kiểm soát chi phí API
Nếu bạn làm việc với API AI (không chỉ dùng chatbox thông thường), việc tính phí sẽ dựa trên token. Mà chi phí cho phần input và output lại chênh lệch khá xa nhau:
| Mô hình | Input (mỗi 1M) | Output (mỗi 1M) |
|---|---|---|
| GPT-4.1 | 51.910₫ | 207.640₫ |
| GPT-4.1 mini | 10.382₫ | 41.528₫ |
| GPT-4.1 nano | 2.596₫ | 10.382₫ |
| o4-mini | 28.551₫ | 114.202₫ |
| Claude Opus 4.6 | 129.775₫ | 648.875₫ |
| Claude Sonnet 4.6 | 77.865₫ | 389.325₫ |
| Claude Haiku 4.5 | 6.489₫ | 32.444₫ |
| Gemini 2.5 Flash | 7.787₫ | 64.888₫ |
| Mistral Large 3 | 12.978₫ | 38.933₫ |
| DeepSeek V3.2 | 7.267₫ | 10.901₫ |
Thử tính nhanh: một prompt 1.000 token gửi vào GPT-4.1 sẽ mất khoảng 52₫ cho phần input. Trong khi đó, GPT-4.1 nano đang là lựa chọn rẻ nhất, chỉ khoảng 3₫ cho cùng 1.000 token input. Và nhớ nhé, phần AI trả về (output) bao giờ cũng đắt hơn phần bạn gửi đi (input).
3. Tối ưu hóa prompt
Nắm được số token sẽ giúp bạn làm chủ cuộc chơi:
- Cắt gọt phần thừa trong system prompt để đỡ tốn tiền
- Tính trước ngân sách cho phản hồi trước khi gọi API
- Đừng paste lung tung tài liệu dài, nhớ chừa khoảng trống trong giới hạn cho phép
- Đánh giá xem cách viết prompt nào thực sự hiệu quả hơn
Cách ước tính token hoạt động
Công cụ này dùng phép tính đơn giản ký tự ÷ 4, vốn là quy tắc ước lượng phổ biến cho tiếng Anh. Với nội dung thông thường, độ sai lệch chỉ khoảng 10%. Muốn lấy con số chuẩn xác 100%, bạn cần dùng bộ tokenizer riêng của từng hãng (tiktoken của OpenAI, tokenizer của Anthropic, …), vì mỗi mô hình cách “cắt” token khác nhau một chút. Nhưng để lên kế hoạch chi phí và ước lượng nhanh, quy tắc chia 4 này là quá đủ.
Lưu ý là phép tính này sẽ kém chính xác hơn trong các trường hợp sau:
- Code và JSON (thường tốn nhiều token hơn dự tính)
- Văn bản tiếng Việt hoặc ngôn ngữ khác (tốn token cao hơn đáng kể)
- Đoạn văn chứa nhiều số, ký hiệu hoặc dấu câu đặc biệt
- Prompt quá ngắn (phép làm tròn sẽ khiến sai số tỷ lệ cao hơn)
Mẹo thực tế quản lý token
Dành cho anh chị dùng ChatGPT/Claude/Copilot (giao diện chat thông thường):
- Gói VIP không tính phí theo token, nhưng khung nhớ (context window) vẫn có giới hạn cứng
- Chat càng dài, token tích lũy càng cao — nếu thấy AI trả lời ì ạch hay sai lệch, cứ nhấn “New Chat” cho nhẹ máy
- Chỉ paste những đoạn thông tin thực sự cần thiết, đừng nhồi nhét cả tài liệu
Dành cho anh chị làm việc với API:
- Cài đặt
max_tokensđể chặn AI viết dài dòng, từ đó kiểm soát chi phí output - Với task đơn giản, hãy ưu tiên mô hình rẻ hơn như GPT-4.1 mini hay Haiku 4.5
- Lưu (cache) system prompt vào bộ nhớ để gọi lại, tránh tốn phí nhập lại
- Bật chế độ stream (trực tiếp) để ngắt kết nối sớm nếu AI trả về nội dung không phù hợp
Dành cho anh chị chuyên viết Prompt:
- Prompt ngắn chưa chắc đã rẻ — một system prompt rõ ràng, chặt chẽ sẽ giảm thiểu đáng kể số lần phải gọi lại (retry)
- Hãy “test thử” với mô hình mini/flash trước, chỉ nâng cấp model khi thực sự cần chất lượng cao
- Dùng bảng giá ở trên để tính toán trước ngân sách khi chạy các tác vụ hàng loạt (batch job)
Câu hỏi thường gặp
Số token có chính xác không? Đây chỉ là con số ước tính dựa trên quy tắc ký tự ÷ 4. Muốn chuẩn xác tuyệt đối, phải dùng tokenizer riêng của từng hãng. Với văn bản thông thường, sai số thường nằm trong khoảng 10%.
Tại sao giá các mô hình lại khác nhau? Mô hình càng lớn, số tham số càng dày đặc thì chi phí vận hành càng cao. Giá thành thực chất là để bù đắp cho sức mạnh tính toán đó. Các dòng mini/flash rẻ hơn là vì kiến trúc nhẹ hơn và xử lý nhanh hơn.
Input và output khác nhau thế nào? Input là phần bạn gửi đi (prompt). Output là phần AI sinh ra (phản hồi). Thông thường, phí cho output sẽ đắt gấp 3–5 lần input, vì việc “viết” nội dung đòi hỏi nhiều sức mạnh tính toán hơn hẳn so với việc chỉ “đọc” thôi.
Công cụ này dùng được cho tiếng Việt không? Tất nhiên. Công cụ này vẫn đếm ký tự và ước tính token bình thường. Chỉ lưu ý rằng với tiếng Việt, con số token thực tế thường cao hơn ước tính, do các dấu thanh và cách kết hợp từ của tiếng Việt “tốn” nhiều token hơn tiếng Anh.
Dán vào đây có bị lưu lại không? Không bao giờ. Toàn bộ quá trình chạy ngay trên trình duyệt của bạn (client-side). Dán gì vào thì chỉ xử lý tại chỗ, không có dữ liệu nào được gửi lên server hết.