AI Token Counter: Đếm Token Miễn Phí cho ChatGPT, Claude, Gemini, Copilot & Mistral

Công cụ Miễn phí

Đếm Token AI

1Dán hoặc gõ văn bản của bạn
2Xem thống kê ký tự, từ & token theo thời gian thực
3Kiểm tra chi phí ước tính theo mô hình AI
0 Ký tự
0 Từ
0 Câu
0 Token Ước tính

Chi phí Ước tính

Mô hìnhĐầu vàoĐầu ra

Công cụ đếm token AI miễn phí và tính chi phí. Đếm token cho ChatGPT, Claude, Gemini, Copilot & Mistral tức thì. Ước tính chi phí API theo thời gian thực. Không cần đăng ký.

Lần đầu tiên mình bị giới hạn token giữa chừng cuộc hội thoại, mình chẳng hiểu chuyện gì đang xảy ra.

Đang code với GPT-4, paste một codebase lớn vào để review. Response đột nhiên… dừng. Cắt ngang giữa câu. Và mình không hiểu tại sao, vì lúc đó chẳng biết token là gì, cũng không biết có giới hạn.

Nếu bạn từng gặp tình huống tương tự, công cụ này là dành cho bạn.


Đếm Token của bạn

Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.

Công cụ Miễn phí

Đếm Token AI

1Dán hoặc gõ văn bản của bạn
2Xem thống kê ký tự, từ & token theo thời gian thực
3Kiểm tra chi phí ước tính theo mô hình AI
0 Ký tự
0 Từ
0 Câu
0 Token Ước tính

Chi phí Ước tính

Mô hìnhĐầu vàoĐầu ra

Token là gì?

Token là đơn vị cơ bản mà các mô hình ngôn ngữ AI sử dụng để xử lý văn bản. Không phải là từ — mà là các mảnh văn bản mà tokenizer của mô hình chia input của bạn ra.

Quy tắc ước lượng: 1 token xấp xỉ 4 ký tự tiếng Anh, tức khoảng 0,75 từ. Với tiếng Việt, do có dấu và cấu trúc từ khác biệt, số token thường cao hơn đáng kể so với tiếng Anh.

Văn bảnTokenLý do
“Hello”1Từ thông dụng = 1 token
“indescribable”4Từ dài/hiếm = nhiều token
“ChatGPT”2Tên thương hiệu bị chia nhỏ
“Xin chào”3Tiếng Việt dùng nhiều token hơn
{"key": "value"}7Code/JSON có token cấu trúc

Tokenizer chia văn bản thành các mảnh đã học trong quá trình huấn luyện. Các từ tiếng Anh phổ biến thường là một token. Từ hiếm, code và văn bản không phải tiếng Anh thường cần nhiều token hơn cho mỗi từ.

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

Mỗi mô hình AI có cửa sổ ngữ cảnh tối đa — tổng số token có thể xử lý trong một cuộc hội thoại (input + output cộng lại):

Mô hìnhCửa sổ ngữ cảnh
GPT-4o128K token
GPT-4o mini128K token
o3-mini200K token
Claude Sonnet 4200K token
Claude Haiku 3.5200K token
Gemini 2.0 Flash1M token
Copilot (GPT-4o)128K token
Mistral Large128K token
DeepSeek V364K token

Nếu prompt vượt quá giới hạn, bạn sẽ nhận được phản hồi bị cắt hoặc lỗi.

2. Kiểm soát chi phí API

Nếu bạn dùng API AI (không chỉ giao diện chat), bạn trả tiền theo token. Chi phí input và output khác nhau đáng kể:

Mô hìnhInput (mỗi 1M)Output (mỗi 1M)
GPT-4o64.888₫259.550₫
GPT-4o mini3.893₫15.573₫
o3-mini28.551₫114.202₫
Claude Sonnet 477.865₫389.325₫
Claude Haiku 3.525.955₫129.775₫
Gemini 2.0 Flash2.596₫10.382₫
Copilot (GPT-4o)64.888₫259.550₫
Mistral Large51.910₫155.730₫
DeepSeek V37.267₫10.901₫

Một prompt 1.000 token gửi đến GPT-4o tốn khoảng 65₫ cho input. DeepSeek V3 rẻ nhất với khoảng 7₫ input cho 1.000 token. Phản hồi luôn tốn nhiều hơn prompt.

3. Tối ưu hóa prompt

Biết số token giúp bạn:

  • Cắt bớt phần thừa trong system prompt để tiết kiệm chi phí
  • Ước tính ngân sách phản hồi trước khi gọi API
  • Giữ trong giới hạn khi paste tài liệu lớn
  • So sánh hiệu quả giữa các cách tiếp cận prompt khác nhau

Cách ước tính token hoạt động

Công cụ này sử dụng phương pháp ký tự ÷ 4, là phép tính gần đúng tiêu chuẩn cho văn bản tiếng Anh. Độ chính xác khoảng 10% cho nội dung thông thường.

Để có con số chính xác, bạn cần tokenizer riêng của từng mô hình (tiktoken của OpenAI, tokenizer của Anthropic, v.v.), vì mỗi mô hình tokenize hơi khác nhau. Nhưng để ước tính và lập kế hoạch chi phí, quy tắc ÷4 hoạt động tốt.

Khi nào ước tính kém chính xác hơn:

  • Code và JSON (nhiều token hơn dự kiến)
  • Văn bản không phải tiếng Anh (nhiều token hơn đáng kể)
  • Văn bản có nhiều số hoặc ký tự đặc biệt
  • Prompt rất ngắn (làm tròn ảnh hưởng nhiều hơn)

Mẹo thực tế quản lý token

Cho người dùng ChatGPT/Claude/Copilot (giao diện chat):

  • Gói đăng ký không tính phí theo token, nhưng giới hạn ngữ cảnh vẫn áp dụng
  • Cuộc hội thoại dài tích lũy token — bắt đầu lại khi mọi thứ chậm đi
  • Paste phần ngữ cảnh liên quan nhất, không phải toàn bộ tài liệu

Cho người dùng API:

  • Đặt max_tokens cho phản hồi để kiểm soát chi phí output
  • Dùng mô hình rẻ hơn (GPT-4o mini, Haiku) cho tác vụ đơn giản
  • Cache system prompt khi có thể
  • Stream phản hồi để dừng sớm nếu output không hữu ích

Cho Prompt Engineer:

  • Prompt ngắn hơn không phải lúc nào cũng rẻ hơn — system prompt tốt tiết kiệm chi phí retry
  • Test với mô hình mini/flash trước, nâng cấp khi cần
  • Dùng bảng chi phí ở trên để ước tính trước khi chạy batch job

Câu hỏi thường gặp

Số token có chính xác không? Đây là ước tính dựa trên phương pháp tiêu chuẩn ký tự÷4. Để có con số chính xác, cần tokenizer riêng của từng mô hình. Ước tính thường trong phạm vi 10% cho văn bản tiếng Anh.

Tại sao các mô hình khác nhau có giá khác nhau? Mô hình lớn hơn với nhiều tham số hơn tốn nhiều chi phí vận hành hơn. Giá phản ánh yêu cầu tính toán. Mô hình mini/flash rẻ hơn vì nhỏ hơn và nhanh hơn.

Sự khác biệt giữa token input và output? Token input là những gì bạn gửi (prompt). Token output là những gì AI tạo ra (phản hồi). Token output thường đắt gấp 3-5 lần vì việc tạo nội dung tốn nhiều tài nguyên tính toán hơn việc đọc.

Có hoạt động với tiếng Việt không? Công cụ đếm ký tự và ước tính token. Với tiếng Việt, số token thực tế sẽ cao hơn ước tính vì các ký tự có dấu và từ Việt thường dùng nhiều token hơn tiếng Anh.

Văn bản của tôi có bị lưu không? Không. Mọi thứ chạy phía client trong trình duyệt của bạn. Không có văn bản nào được gửi đến server nào cả.