Lần đầu tiên bị cắt ngang giữa chừng một cuộc hội thoại AI, mình đứng hình luôn. Đang code với GPT-4, mình paste luôn cả một cục codebase lớn vào để nó review. Thế là response… đơ. Cắt cụt giữa câu. Lúc ấy mình đâu có biết token là gì, chứ đừng nói là biết nó có giới hạn. Nếu bạn cũng từng “nằm vùng” vì tình trạng này, thì công cụ dưới đây chính là thứ bạn cần.

Đếm Token của bạn

Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.

1Dán hoặc gõ văn bản của bạn

2Xem thống kê ký tự, từ & token theo thời gian thực

3Kiểm tra chi phí ước tính theo mô hình AI

Dán hoặc nhập văn bản

0 Ký tự

0 Từ

0 Câu

0 Token Ước tính

Chi phí Ước tính

Mô hình	Đầu vào	Đầu ra

Token là gì?

Nôm na, token là đơn vị nhỏ nhất mà AI dùng để đọc và hiểu văn bản. Nó không hẳn là một từ hoàn chỉnh, mà là những mảnh vụn mà bộ tokenizer của mô hình cắt ra từ đoạn input của bạn.

Mẹo nhỏ để hình dung: 1 token xấp xỉ 4 ký tự tiếng Anh, tương đương khoảng 0,75 từ. Còn với tiếng Việt, vì có dấu và cách ghép từ khác, cùng một đoạn văn sẽ tốn nhiều token hơn tiếng Anh khá nhiều.

Văn bản	Token	Lý do
“Hello”	1	Từ thông dụng = 1 token
“indescribable”	4	Từ dài/hiếm = nhiều token
“ChatGPT”	2	Tên thương hiệu bị chia nhỏ
“Xin chào”	3	Tiếng Việt dùng nhiều token hơn
`{"key": "value"}`	7	Code/JSON có token cấu trúc

Bộ tokenizer này hoạt động dựa trên những mảnh văn bản mà mô hình đã “ăn” trong quá trình train. Từ tiếng Anh phổ thông thường được gộp thành 1 token. Ngược lại, từ hiếm, đoạn code hay văn bản tiếng Việt thường bị xẻ nhỏ hơn, nên tốn nhiều token cho mỗi từ hơn.

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

Mỗi mô hình AI đều có một “khung nhớ” giới hạn — hay còn gọi là cửa sổ ngữ cảnh. Đây là tổng số token tối đa mà mô hình có thể xử lý cùng lúc (bao gồm cả phần bạn gửi vào và phần AI trả về):

Mô hình	Cửa sổ ngữ cảnh
GPT-4.1	1M token
GPT-4.1 mini	1M token
GPT-4.1 nano	1M token
o4-mini	200K token
Claude Opus 4.6	1M token
Claude Sonnet 4.6	1M token
Claude Haiku 4.5	200K token
Gemini 2.5 Flash	1M token
Mistral Large 3	262K token
DeepSeek V3.2	128K token

Dễ hiểu là nếu đoạn prompt của bạn dài quá mức cho phép, AI sẽ trả về kết quả bị cụt ngủn hoặc báo lỗi luôn.

2. Kiểm soát chi phí API

Nếu bạn làm việc với API AI (không chỉ dùng chatbox thông thường), việc tính phí sẽ dựa trên token. Mà chi phí cho phần input và output lại chênh lệch khá xa nhau:

Mô hình	Input (mỗi 1M)	Output (mỗi 1M)
GPT-4.1	51.910₫	207.640₫
GPT-4.1 mini	10.382₫	41.528₫
GPT-4.1 nano	2.596₫	10.382₫
o4-mini	28.551₫	114.202₫
Claude Opus 4.6	129.775₫	648.875₫
Claude Sonnet 4.6	77.865₫	389.325₫
Claude Haiku 4.5	6.489₫	32.444₫
Gemini 2.5 Flash	7.787₫	64.888₫
Mistral Large 3	12.978₫	38.933₫
DeepSeek V3.2	7.267₫	10.901₫

Thử tính nhanh: một prompt 1.000 token gửi vào GPT-4.1 sẽ mất khoảng 52₫ cho phần input. Trong khi đó, GPT-4.1 nano đang là lựa chọn rẻ nhất, chỉ khoảng 3₫ cho cùng 1.000 token input. Và nhớ nhé, phần AI trả về (output) bao giờ cũng đắt hơn phần bạn gửi đi (input).

3. Tối ưu hóa prompt

Nắm được số token sẽ giúp bạn làm chủ cuộc chơi:

Cắt gọt phần thừa trong system prompt để đỡ tốn tiền
Tính trước ngân sách cho phản hồi trước khi gọi API
Đừng paste lung tung tài liệu dài, nhớ chừa khoảng trống trong giới hạn cho phép
Đánh giá xem cách viết prompt nào thực sự hiệu quả hơn

Cách ước tính token hoạt động

Công cụ này dùng phép tính đơn giản ký tự ÷ 4, vốn là quy tắc ước lượng phổ biến cho tiếng Anh. Với nội dung thông thường, độ sai lệch chỉ khoảng 10%. Muốn lấy con số chuẩn xác 100%, bạn cần dùng bộ tokenizer riêng của từng hãng (tiktoken của OpenAI, tokenizer của Anthropic, …), vì mỗi mô hình cách “cắt” token khác nhau một chút. Nhưng để lên kế hoạch chi phí và ước lượng nhanh, quy tắc chia 4 này là quá đủ.

Lưu ý là phép tính này sẽ kém chính xác hơn trong các trường hợp sau:

Code và JSON (thường tốn nhiều token hơn dự tính)
Văn bản tiếng Việt hoặc ngôn ngữ khác (tốn token cao hơn đáng kể)
Đoạn văn chứa nhiều số, ký hiệu hoặc dấu câu đặc biệt
Prompt quá ngắn (phép làm tròn sẽ khiến sai số tỷ lệ cao hơn)

Mẹo thực tế quản lý token

Dành cho anh chị dùng ChatGPT/Claude/Copilot (giao diện chat thông thường):

Gói VIP không tính phí theo token, nhưng khung nhớ (context window) vẫn có giới hạn cứng
Chat càng dài, token tích lũy càng cao — nếu thấy AI trả lời ì ạch hay sai lệch, cứ nhấn “New Chat” cho nhẹ máy
Chỉ paste những đoạn thông tin thực sự cần thiết, đừng nhồi nhét cả tài liệu

Dành cho anh chị làm việc với API:

Cài đặt max_tokens để chặn AI viết dài dòng, từ đó kiểm soát chi phí output
Với task đơn giản, hãy ưu tiên mô hình rẻ hơn như GPT-4.1 mini hay Haiku 4.5
Lưu (cache) system prompt vào bộ nhớ để gọi lại, tránh tốn phí nhập lại
Bật chế độ stream (trực tiếp) để ngắt kết nối sớm nếu AI trả về nội dung không phù hợp

Dành cho anh chị chuyên viết Prompt:

Prompt ngắn chưa chắc đã rẻ — một system prompt rõ ràng, chặt chẽ sẽ giảm thiểu đáng kể số lần phải gọi lại (retry)
Hãy “test thử” với mô hình mini/flash trước, chỉ nâng cấp model khi thực sự cần chất lượng cao
Dùng bảng giá ở trên để tính toán trước ngân sách khi chạy các tác vụ hàng loạt (batch job)

Câu hỏi thường gặp

Số token có chính xác không? Đây chỉ là con số ước tính dựa trên quy tắc ký tự ÷ 4. Muốn chuẩn xác tuyệt đối, phải dùng tokenizer riêng của từng hãng. Với văn bản thông thường, sai số thường nằm trong khoảng 10%.

Tại sao giá các mô hình lại khác nhau? Mô hình càng lớn, số tham số càng dày đặc thì chi phí vận hành càng cao. Giá thành thực chất là để bù đắp cho sức mạnh tính toán đó. Các dòng mini/flash rẻ hơn là vì kiến trúc nhẹ hơn và xử lý nhanh hơn.

Input và output khác nhau thế nào? Input là phần bạn gửi đi (prompt). Output là phần AI sinh ra (phản hồi). Thông thường, phí cho output sẽ đắt gấp 3–5 lần input, vì việc “viết” nội dung đòi hỏi nhiều sức mạnh tính toán hơn hẳn so với việc chỉ “đọc” thôi.

Công cụ này dùng được cho tiếng Việt không? Tất nhiên. Công cụ này vẫn đếm ký tự và ước tính token bình thường. Chỉ lưu ý rằng với tiếng Việt, con số token thực tế thường cao hơn ước tính, do các dấu thanh và cách kết hợp từ của tiếng Việt “tốn” nhiều token hơn tiếng Anh.

Dán vào đây có bị lưu lại không? Không bao giờ. Toàn bộ quá trình chạy ngay trên trình duyệt của bạn (client-side). Dán gì vào thì chỉ xử lý tại chỗ, không có dữ liệu nào được gửi lên server hết.

AI Token Counter: Đếm Token Miễn Phí cho ChatGPT, Claude, Gemini, Copilot & Mistral

Đếm Token AI

Chi phí Ước tính

Mục Lục

Đếm Token của bạn

Đếm Token AI

Chi phí Ước tính

Token là gì?

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

2. Kiểm soát chi phí API

3. Tối ưu hóa prompt

Cách ước tính token hoạt động

Mẹo thực tế quản lý token

Câu hỏi thường gặp