Lần đầu tiên mình bị giới hạn token giữa chừng cuộc hội thoại, mình chẳng hiểu chuyện gì đang xảy ra.

Đang code với GPT-4, paste một codebase lớn vào để review. Response đột nhiên… dừng. Cắt ngang giữa câu. Và mình không hiểu tại sao, vì lúc đó chẳng biết token là gì, cũng không biết có giới hạn.

Nếu bạn từng gặp tình huống tương tự, công cụ này là dành cho bạn.

Đếm Token của bạn

Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.

1Dán hoặc gõ văn bản của bạn

2Xem thống kê ký tự, từ & token theo thời gian thực

3Kiểm tra chi phí ước tính theo mô hình AI

Dán hoặc nhập văn bản

0 Ký tự

0 Từ

0 Câu

0 Token Ước tính

Chi phí Ước tính

Mô hình	Đầu vào	Đầu ra

Token là gì?

Token là đơn vị cơ bản mà các mô hình ngôn ngữ AI sử dụng để xử lý văn bản. Không phải là từ — mà là các mảnh văn bản mà tokenizer của mô hình chia input của bạn ra.

Quy tắc ước lượng: 1 token xấp xỉ 4 ký tự tiếng Anh, tức khoảng 0,75 từ. Với tiếng Việt, do có dấu và cấu trúc từ khác biệt, số token thường cao hơn đáng kể so với tiếng Anh.

Văn bản	Token	Lý do
“Hello”	1	Từ thông dụng = 1 token
“indescribable”	4	Từ dài/hiếm = nhiều token
“ChatGPT”	2	Tên thương hiệu bị chia nhỏ
“Xin chào”	3	Tiếng Việt dùng nhiều token hơn
`{"key": "value"}`	7	Code/JSON có token cấu trúc

Tokenizer chia văn bản thành các mảnh đã học trong quá trình huấn luyện. Các từ tiếng Anh phổ biến thường là một token. Từ hiếm, code và văn bản không phải tiếng Anh thường cần nhiều token hơn cho mỗi từ.

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

Mỗi mô hình AI có cửa sổ ngữ cảnh tối đa — tổng số token có thể xử lý trong một cuộc hội thoại (input + output cộng lại):

Mô hình	Cửa sổ ngữ cảnh
GPT-4o	128K token
GPT-4o mini	128K token
o3-mini	200K token
Claude Sonnet 4	200K token
Claude Haiku 3.5	200K token
Gemini 2.0 Flash	1M token
Copilot (GPT-4o)	128K token
Mistral Large	128K token
DeepSeek V3	64K token

Nếu prompt vượt quá giới hạn, bạn sẽ nhận được phản hồi bị cắt hoặc lỗi.

2. Kiểm soát chi phí API

Nếu bạn dùng API AI (không chỉ giao diện chat), bạn trả tiền theo token. Chi phí input và output khác nhau đáng kể:

Mô hình	Input (mỗi 1M)	Output (mỗi 1M)
GPT-4o	64.888₫	259.550₫
GPT-4o mini	3.893₫	15.573₫
o3-mini	28.551₫	114.202₫
Claude Sonnet 4	77.865₫	389.325₫
Claude Haiku 3.5	25.955₫	129.775₫
Gemini 2.0 Flash	2.596₫	10.382₫
Copilot (GPT-4o)	64.888₫	259.550₫
Mistral Large	51.910₫	155.730₫
DeepSeek V3	7.267₫	10.901₫

Một prompt 1.000 token gửi đến GPT-4o tốn khoảng 65₫ cho input. DeepSeek V3 rẻ nhất với khoảng 7₫ input cho 1.000 token. Phản hồi luôn tốn nhiều hơn prompt.

3. Tối ưu hóa prompt

Biết số token giúp bạn:

Cắt bớt phần thừa trong system prompt để tiết kiệm chi phí
Ước tính ngân sách phản hồi trước khi gọi API
Giữ trong giới hạn khi paste tài liệu lớn
So sánh hiệu quả giữa các cách tiếp cận prompt khác nhau

Cách ước tính token hoạt động

Công cụ này sử dụng phương pháp ký tự ÷ 4, là phép tính gần đúng tiêu chuẩn cho văn bản tiếng Anh. Độ chính xác khoảng 10% cho nội dung thông thường.

Để có con số chính xác, bạn cần tokenizer riêng của từng mô hình (tiktoken của OpenAI, tokenizer của Anthropic, v.v.), vì mỗi mô hình tokenize hơi khác nhau. Nhưng để ước tính và lập kế hoạch chi phí, quy tắc ÷4 hoạt động tốt.

Khi nào ước tính kém chính xác hơn:

Code và JSON (nhiều token hơn dự kiến)
Văn bản không phải tiếng Anh (nhiều token hơn đáng kể)
Văn bản có nhiều số hoặc ký tự đặc biệt
Prompt rất ngắn (làm tròn ảnh hưởng nhiều hơn)

Mẹo thực tế quản lý token

Cho người dùng ChatGPT/Claude/Copilot (giao diện chat):

Gói đăng ký không tính phí theo token, nhưng giới hạn ngữ cảnh vẫn áp dụng
Cuộc hội thoại dài tích lũy token — bắt đầu lại khi mọi thứ chậm đi
Paste phần ngữ cảnh liên quan nhất, không phải toàn bộ tài liệu

Cho người dùng API:

Đặt max_tokens cho phản hồi để kiểm soát chi phí output
Dùng mô hình rẻ hơn (GPT-4o mini, Haiku) cho tác vụ đơn giản
Cache system prompt khi có thể
Stream phản hồi để dừng sớm nếu output không hữu ích

Cho Prompt Engineer:

Prompt ngắn hơn không phải lúc nào cũng rẻ hơn — system prompt tốt tiết kiệm chi phí retry
Test với mô hình mini/flash trước, nâng cấp khi cần
Dùng bảng chi phí ở trên để ước tính trước khi chạy batch job

Câu hỏi thường gặp

Số token có chính xác không? Đây là ước tính dựa trên phương pháp tiêu chuẩn ký tự÷4. Để có con số chính xác, cần tokenizer riêng của từng mô hình. Ước tính thường trong phạm vi 10% cho văn bản tiếng Anh.

Tại sao các mô hình khác nhau có giá khác nhau? Mô hình lớn hơn với nhiều tham số hơn tốn nhiều chi phí vận hành hơn. Giá phản ánh yêu cầu tính toán. Mô hình mini/flash rẻ hơn vì nhỏ hơn và nhanh hơn.

Sự khác biệt giữa token input và output? Token input là những gì bạn gửi (prompt). Token output là những gì AI tạo ra (phản hồi). Token output thường đắt gấp 3-5 lần vì việc tạo nội dung tốn nhiều tài nguyên tính toán hơn việc đọc.

Có hoạt động với tiếng Việt không? Công cụ đếm ký tự và ước tính token. Với tiếng Việt, số token thực tế sẽ cao hơn ước tính vì các ký tự có dấu và từ Việt thường dùng nhiều token hơn tiếng Anh.

Văn bản của tôi có bị lưu không? Không. Mọi thứ chạy phía client trong trình duyệt của bạn. Không có văn bản nào được gửi đến server nào cả.

AI Token Counter: Đếm Token Miễn Phí cho ChatGPT, Claude, Gemini, Copilot & Mistral

Đếm Token AI

Chi phí Ước tính

Mục Lục

Đếm Token của bạn

Đếm Token AI

Chi phí Ước tính

Token là gì?

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

2. Kiểm soát chi phí API

3. Tối ưu hóa prompt

Cách ước tính token hoạt động

Mẹo thực tế quản lý token

Câu hỏi thường gặp