AI Token Counter: Đếm Token Miễn Phí cho ChatGPT, Claude, Gemini, Copilot & Mistral

Công cụ Miễn phí

Đếm Token AI

1Dán hoặc gõ văn bản của bạn
2Xem thống kê ký tự, từ & token theo thời gian thực
3Kiểm tra chi phí ước tính theo mô hình AI
0 Ký tự
0 Từ
0 Câu
0 Token Ước tính

Chi phí Ước tính

Mô hìnhĐầu vàoĐầu ra

Công cụ đếm token AI miễn phí và tính chi phí. Đếm token cho ChatGPT, Claude, Gemini, Copilot & Mistral tức thì. Ước tính chi phí API theo thời gian thực. Không cần đăng ký.

Lần đầu tiên bị cắt ngang giữa chừng một cuộc hội thoại AI, mình đứng hình luôn. Đang code với GPT-4, mình paste luôn cả một cục codebase lớn vào để nó review. Thế là response… đơ. Cắt cụt giữa câu. Lúc ấy mình đâu có biết token là gì, chứ đừng nói là biết nó có giới hạn. Nếu bạn cũng từng “nằm vùng” vì tình trạng này, thì công cụ dưới đây chính là thứ bạn cần.


Đếm Token của bạn

Bắt đầu gõ hoặc paste văn bản bên dưới. Số token, số từ và ước tính chi phí sẽ cập nhật theo thời gian thực.

Công cụ Miễn phí

Đếm Token AI

1Dán hoặc gõ văn bản của bạn
2Xem thống kê ký tự, từ & token theo thời gian thực
3Kiểm tra chi phí ước tính theo mô hình AI
0 Ký tự
0 Từ
0 Câu
0 Token Ước tính

Chi phí Ước tính

Mô hìnhĐầu vàoĐầu ra

Token là gì?

Nôm na, token là đơn vị nhỏ nhất mà AI dùng để đọc và hiểu văn bản. Nó không hẳn là một từ hoàn chỉnh, mà là những mảnh vụn mà bộ tokenizer của mô hình cắt ra từ đoạn input của bạn.

Mẹo nhỏ để hình dung: 1 token xấp xỉ 4 ký tự tiếng Anh, tương đương khoảng 0,75 từ. Còn với tiếng Việt, vì có dấu và cách ghép từ khác, cùng một đoạn văn sẽ tốn nhiều token hơn tiếng Anh khá nhiều.

Văn bảnTokenLý do
“Hello”1Từ thông dụng = 1 token
“indescribable”4Từ dài/hiếm = nhiều token
“ChatGPT”2Tên thương hiệu bị chia nhỏ
“Xin chào”3Tiếng Việt dùng nhiều token hơn
{"key": "value"}7Code/JSON có token cấu trúc

Bộ tokenizer này hoạt động dựa trên những mảnh văn bản mà mô hình đã “ăn” trong quá trình train. Từ tiếng Anh phổ thông thường được gộp thành 1 token. Ngược lại, từ hiếm, đoạn code hay văn bản tiếng Việt thường bị xẻ nhỏ hơn, nên tốn nhiều token cho mỗi từ hơn.

Tại sao số token lại quan trọng?

1. Giới hạn cửa sổ ngữ cảnh

Mỗi mô hình AI đều có một “khung nhớ” giới hạn — hay còn gọi là cửa sổ ngữ cảnh. Đây là tổng số token tối đa mà mô hình có thể xử lý cùng lúc (bao gồm cả phần bạn gửi vào và phần AI trả về):

Mô hìnhCửa sổ ngữ cảnh
GPT-4.11M token
GPT-4.1 mini1M token
GPT-4.1 nano1M token
o4-mini200K token
Claude Opus 4.61M token
Claude Sonnet 4.61M token
Claude Haiku 4.5200K token
Gemini 2.5 Flash1M token
Mistral Large 3262K token
DeepSeek V3.2128K token

Dễ hiểu là nếu đoạn prompt của bạn dài quá mức cho phép, AI sẽ trả về kết quả bị cụt ngủn hoặc báo lỗi luôn.

2. Kiểm soát chi phí API

Nếu bạn làm việc với API AI (không chỉ dùng chatbox thông thường), việc tính phí sẽ dựa trên token. Mà chi phí cho phần input và output lại chênh lệch khá xa nhau:

Mô hìnhInput (mỗi 1M)Output (mỗi 1M)
GPT-4.151.910₫207.640₫
GPT-4.1 mini10.382₫41.528₫
GPT-4.1 nano2.596₫10.382₫
o4-mini28.551₫114.202₫
Claude Opus 4.6129.775₫648.875₫
Claude Sonnet 4.677.865₫389.325₫
Claude Haiku 4.56.489₫32.444₫
Gemini 2.5 Flash7.787₫64.888₫
Mistral Large 312.978₫38.933₫
DeepSeek V3.27.267₫10.901₫

Thử tính nhanh: một prompt 1.000 token gửi vào GPT-4.1 sẽ mất khoảng 52₫ cho phần input. Trong khi đó, GPT-4.1 nano đang là lựa chọn rẻ nhất, chỉ khoảng 3₫ cho cùng 1.000 token input. Và nhớ nhé, phần AI trả về (output) bao giờ cũng đắt hơn phần bạn gửi đi (input).

3. Tối ưu hóa prompt

Nắm được số token sẽ giúp bạn làm chủ cuộc chơi:

  • Cắt gọt phần thừa trong system prompt để đỡ tốn tiền
  • Tính trước ngân sách cho phản hồi trước khi gọi API
  • Đừng paste lung tung tài liệu dài, nhớ chừa khoảng trống trong giới hạn cho phép
  • Đánh giá xem cách viết prompt nào thực sự hiệu quả hơn

Cách ước tính token hoạt động

Công cụ này dùng phép tính đơn giản ký tự ÷ 4, vốn là quy tắc ước lượng phổ biến cho tiếng Anh. Với nội dung thông thường, độ sai lệch chỉ khoảng 10%. Muốn lấy con số chuẩn xác 100%, bạn cần dùng bộ tokenizer riêng của từng hãng (tiktoken của OpenAI, tokenizer của Anthropic, …), vì mỗi mô hình cách “cắt” token khác nhau một chút. Nhưng để lên kế hoạch chi phí và ước lượng nhanh, quy tắc chia 4 này là quá đủ.

Lưu ý là phép tính này sẽ kém chính xác hơn trong các trường hợp sau:

  • Code và JSON (thường tốn nhiều token hơn dự tính)
  • Văn bản tiếng Việt hoặc ngôn ngữ khác (tốn token cao hơn đáng kể)
  • Đoạn văn chứa nhiều số, ký hiệu hoặc dấu câu đặc biệt
  • Prompt quá ngắn (phép làm tròn sẽ khiến sai số tỷ lệ cao hơn)

Mẹo thực tế quản lý token

Dành cho anh chị dùng ChatGPT/Claude/Copilot (giao diện chat thông thường):

  • Gói VIP không tính phí theo token, nhưng khung nhớ (context window) vẫn có giới hạn cứng
  • Chat càng dài, token tích lũy càng cao — nếu thấy AI trả lời ì ạch hay sai lệch, cứ nhấn “New Chat” cho nhẹ máy
  • Chỉ paste những đoạn thông tin thực sự cần thiết, đừng nhồi nhét cả tài liệu

Dành cho anh chị làm việc với API:

  • Cài đặt max_tokens để chặn AI viết dài dòng, từ đó kiểm soát chi phí output
  • Với task đơn giản, hãy ưu tiên mô hình rẻ hơn như GPT-4.1 mini hay Haiku 4.5
  • Lưu (cache) system prompt vào bộ nhớ để gọi lại, tránh tốn phí nhập lại
  • Bật chế độ stream (trực tiếp) để ngắt kết nối sớm nếu AI trả về nội dung không phù hợp

Dành cho anh chị chuyên viết Prompt:

  • Prompt ngắn chưa chắc đã rẻ — một system prompt rõ ràng, chặt chẽ sẽ giảm thiểu đáng kể số lần phải gọi lại (retry)
  • Hãy “test thử” với mô hình mini/flash trước, chỉ nâng cấp model khi thực sự cần chất lượng cao
  • Dùng bảng giá ở trên để tính toán trước ngân sách khi chạy các tác vụ hàng loạt (batch job)

Câu hỏi thường gặp

Số token có chính xác không? Đây chỉ là con số ước tính dựa trên quy tắc ký tự ÷ 4. Muốn chuẩn xác tuyệt đối, phải dùng tokenizer riêng của từng hãng. Với văn bản thông thường, sai số thường nằm trong khoảng 10%.

Tại sao giá các mô hình lại khác nhau? Mô hình càng lớn, số tham số càng dày đặc thì chi phí vận hành càng cao. Giá thành thực chất là để bù đắp cho sức mạnh tính toán đó. Các dòng mini/flash rẻ hơn là vì kiến trúc nhẹ hơn và xử lý nhanh hơn.

Input và output khác nhau thế nào? Input là phần bạn gửi đi (prompt). Output là phần AI sinh ra (phản hồi). Thông thường, phí cho output sẽ đắt gấp 3–5 lần input, vì việc “viết” nội dung đòi hỏi nhiều sức mạnh tính toán hơn hẳn so với việc chỉ “đọc” thôi.

Công cụ này dùng được cho tiếng Việt không? Tất nhiên. Công cụ này vẫn đếm ký tự và ước tính token bình thường. Chỉ lưu ý rằng với tiếng Việt, con số token thực tế thường cao hơn ước tính, do các dấu thanh và cách kết hợp từ của tiếng Việt “tốn” nhiều token hơn tiếng Anh.

Dán vào đây có bị lưu lại không? Không bao giờ. Toàn bộ quá trình chạy ngay trên trình duyệt của bạn (client-side). Dán gì vào thì chỉ xử lý tại chỗ, không có dữ liệu nào được gửi lên server hết.