Claude 1 Triệu Token: Đọc Cả Cuốn Sách Trong Một Lần — Và Nhớ Hết | FindSkill.ai

Ba ngày trước, Anthropic âm thầm bật một cái công tắc.

Context window của Claude — lượng văn bản mà nó đọc và xử lý được cùng lúc — nhảy từ 200.000 token lên 1 triệu token. Cho tất cả mọi người. Không cần đăng ký sớm, không phụ phí, không giới hạn gói.

Nghe thì toàn thuật ngữ kỹ thuật, nhưng mà đọc hết bài này là anh em sẽ hiểu chuyện gì đang xảy ra — và tại sao nó quan trọng với chính mình, chứ không chỉ dành cho dân lập trình đâu nhé.

“Context window” là cái gì?

Tưởng tượng context window như bộ nhớ ngắn hạn của AI vậy.

Khi anh em dán văn bản vào Claude, ChatGPT hay Gemini, con AI đọc hết, giữ trong đầu, rồi dựa vào đó để trả lời. Context window là sức chứa tối đa mà nó giữ được cùng lúc.

Nhưng mà có cái oái oăm: tất cả phải vừa. Câu hỏi của anh em, tài liệu đã tải lên, lịch sử hội thoại, rồi cả câu trả lời của AI nữa — tất cả đều tính vào giới hạn.

Khi chạm trần, AI sẽ từ chối yêu cầu hoặc bắt đầu “quên” những gì ở đầu cuộc trò chuyện. Chắc anh em từng gặp rồi đúng không? Đang chat sâu, nhắc lại chuyện hồi nãy, mà nó ngơ ngác như chưa từng nghe. Đó là context window đã hết.

1 triệu token to cỡ nào?

Token không phải là từ. Nó là những mảnh văn bản — tầm 4 ký tự tiếng Anh mỗi token. Vậy 1 triệu token tương đương khoảng 750.000 từ.

Nghe vẫn trừu tượng quá nhỉ? Đây là những thứ mà anh em dễ hình dung hơn:

Cái gì	Kích thước tương đương
Số trang văn bản	~1.500-2.000 trang
Tiểu thuyết trung bình	5-7 cuốn sách trọn bộ
Bài nghiên cứu khoa học	20-30 bài đầy đủ
Dòng code	30.000+ dòng
Trang PDF	Lên tới 600 trang
Chiến tranh và Hòa bình (Tolstoy)	1,3 bản

Trước đây ở mức 200K token, Claude chứa được khoảng một cuốn tiểu thuyết dài hoặc 300 trang. Đủ cho chat thông thường, nhưng không đủ cho công việc nặng.

Giờ ở mức 1 triệu token, anh em có thể nhét nguyên một bộ giáo trình, cả năm sổ sách tài chính, hoặc toàn bộ codebase của dự án. Một phát. Vèo.

Sao phải quan tâm? — Góc nhìn từ Việt Nam

Mình biết nhiều anh em đang nghĩ “Ờ, nghe hay, nhưng liên quan gì tới mình?”

Liên quan nhiều lắm. Đây là vài tình huống rất Việt Nam:

Luận văn thạc sĩ, tiến sĩ: Trước đây paste được vài chương là hết chỗ. Giờ anh em nhét nguyên luận văn 200 trang kèm cả tài liệu tham khảo vào, nhờ Claude phân tích bố cục, tìm lỗ hổng lập luận, kiểm tra trích dẫn chéo. Anh em nào đang viết luận văn mà chưa thử thì phí lắm.

Hồ sơ pháp lý: Hợp đồng thuê đất 80 trang, điều khoản vay ngân hàng, hợp đồng mua bán… loại tài liệu mà đọc đến trang 67 thì quên mất trang 12 nói gì. Claude giờ giữ nguyên bộ trong đầu, và tìm ra chỗ nào mâu thuẫn với chỗ nào.

Tài liệu nghiên cứu: Dân nghiên cứu ở các viện, trường đại học Việt Nam giờ có thể nạp cả chục bài báo khoa học cùng lúc, nhờ Claude tổng hợp, so sánh phương pháp, tìm điểm chung giữa các nghiên cứu. Tiết kiệm mấy tuần đọc thủ công.

Codebase dự án startup: Ngành công nghệ Việt Nam đang phát triển nhanh, nhiều anh em dev đang làm sản phẩm riêng. Giờ có thể paste nguyên codebase vào để refactor, tìm bug, hay nhờ Claude viết tài liệu kỹ thuật cho cả dự án. Không còn phải paste từng file một nữa.

Claude đứng đâu so với phần còn lại? (Tháng 3/2026)

Bảng so sánh toàn cảnh — cạnh tranh hơn anh em tưởng:

Mô hình	Context Window	Ghi chú
Llama 4 Scout (Meta)	10 triệu token	Mã nguồn mở, cửa sổ lớn nhất hiện tại
Grok 4.1 Fast (xAI)	2 triệu token	Lớn nhất trong nhóm mã nguồn đóng
Claude Opus 4.6	1 triệu token	Không phụ phí ở bất kỳ độ dài nào
Claude Sonnet 4.6	1 triệu token	Không phụ phí ở bất kỳ độ dài nào
GPT-4.1 / mini / nano	1 triệu token	Dòng chủ lực của OpenAI
GPT-5.4	1,05 triệu token	Tính phí gấp đôi sau 272K token
Gemini 2.5 Pro	1 triệu token	2 triệu cho gói doanh nghiệp
Gemini 2.5 Flash	1 triệu token	Tỷ lệ giá/hiệu năng tốt nhất
GPT-5 / 5.2	400K token	Nhỏ hơn dòng GPT-4.1

Vậy Claude không phải duy nhất ở mức 1 triệu. GPT-4.1 và Gemini 2.5 cũng ngang ngửa. Nhưng mà — kích thước cửa sổ thôi chưa nói lên điều gì.

Phần quan trọng nhất mà ít ai nói: AI có thật sự dùng hết context không?

Đây mới là phần thú vị. Và hơi khó nuốt cho ngành.

Một nhóm nghiên cứu tại Chroma đã test 18 mô hình AI hàng đầu và phát hiện rằng tất cả đều giảm hiệu năng khi nhận càng nhiều văn bản. Không ngoại lệ. Context thực tế sử dụng được — phần mà mô hình xử lý tốt — thường chỉ khoảng 50-65% con số quảng cáo.

Tức là một mô hình tuyên bố 1 triệu token thì bắt đầu sai sót ở khoảng 500-650K.

Nhưng Claude khác.

Benchmark đáng chú ý: MRCR v2 (Multi-Needle Retrieval)

Test MRCR v2 giấu 8 thông tin cụ thể rải rác trong 1 triệu token văn bản, rồi yêu cầu mô hình tìm và trả lời đúng hết. Kiểu như chơi “tìm kim trong đống rơm” — nhưng có 8 cây kim và đống rơm dài 1.500 trang.

Mô hình	Điểm tại 1 triệu token
Claude Opus 4.6	76-78%
GPT-5.4	36%
Gemini 3.1 Pro	26%
Claude Opus 4.5 (phiên bản trước)	~26%
Claude Sonnet 4.5 (phiên bản trước)	18,5%

Opus 4.6 đạt điểm gần gấp 4 lần phiên bản trước. Và hơn gấp đôi đối thủ gần nhất.

Khoảng cách đó mới là câu chuyện thật sự. Có context window 1 triệu mà mô hình không tìm ra thông tin bên trong thì cũng vô nghĩa. Claude tìm được.

Vấn đề “lạc giữa tài liệu”

Có một hiện tượng được ghi nhận rõ ở các mô hình AI: chúng nhớ tốt thông tin ở đầu và cuối input, nhưng hay quên phần ở giữa.

Giới nghiên cứu gọi đây là vấn đề “lost in the middle.” Nó xảy ra do cách mô hình mã hóa vị trí — phép toán bên trong tự động giảm trọng số phần giữa.

Mẹo cho anh em: khi tải nhiều tài liệu lên bất kỳ AI nào, đặt tài liệu quan trọng nhất ở đầu và cuối. Phần bổ trợ thì để ở giữa.

Claude 4.6 cũng giới thiệu context compaction — tự động tóm tắt khi hội thoại dài ra, để thông tin quan trọng không bị mất. Chưa hoàn hảo, nhưng là bước tiến đáng kể.

Chi phí: Nhiều context hơn có đắt hơn không?

Đây là phần anh em quan tâm nhất mà, đặc biệt khi quy ra tiền Việt.

Dùng qua giao diện chat (claude.ai)

Nếu anh em đang trả phí hàng tháng (~20 USD, tức khoảng 520.000₫ theo tỷ giá hiện tại ~25.955 VND/USD), giá không đổi. Dùng 10K token hay 900K token cũng cùng một mức phí.

Dùng qua API (cho dân dev và startup)

Đây là chỗ khác biệt rõ nhất:

Nhà cung cấp	Giá tiêu chuẩn (input/output mỗi 1M token)	Sau 200-272K token
Claude (Opus 4.6)	$5 / $25 (~130.000₫ / 650.000₫)	Cùng giá. Không phụ phí.
GPT-5.4	$2,50 / input mỗi 1M	Gấp đôi sau 272K
Gemini 3.1 Pro	$2 / input mỗi 1M	Gấp đôi sau 200K

Claude là nhà cung cấp lớn duy nhất không tính thêm tiền khi dùng hết context window. Một request 900K token tốn cùng đơn giá với request 9K token.

Thêm nữa, với prompt caching, những request lặp lại cùng context giảm được 90% chi phí. Tức là anh em xử lý cùng một tài liệu dài với nhiều câu hỏi khác nhau, chỉ trả đầy đủ lần đầu, sau đó rẻ hơn nhiều.

Muốn tính chi phí cụ thể? Dùng thử công cụ đếm token AI của mình — tính giá theo thời gian thực cho tất cả các mô hình chính.

Hạn chế thật sự — Mình nói thẳng

Mình không muốn tô hồng quá. Có những đánh đổi thật:

Độ trễ tăng lên. Xử lý 1 triệu token mất vài giây trước khi anh em thấy chữ đầu tiên. Hỏi nhanh một câu thì hơi khó chịu. Nhưng phân tích tài liệu 500 trang thì đáng lắm.

Nhiều context chưa chắc đã tốt hơn. Khi chỉ có một phần nhỏ tài liệu tải lên là liên quan, phần còn lại là nhiễu. AI phân tán sự chú ý khắp nơi, có thể làm giảm độ chính xác ở phần quan trọng. Đừng nhét cả ổ Google Drive vào Claude chỉ vì có thể nhé.

Vấn đề “lạc giữa tài liệu” chưa mất hẳn. Tốt hơn trước, nhưng mô hình vẫn xử lý tốt nhất thông tin ở đầu và cuối input. Sắp xếp thứ tự tài liệu vẫn quan trọng.

Context thực tế nhỏ hơn 1 triệu. Như nghiên cứu của Chroma chỉ ra, hiệu năng giảm trước khi chạm trần. Coi 1 triệu là mức tối đa lý thuyết. Hiệu năng đáng tin cậy nằm ở khoảng 500-700K — vẫn khổng lồ.

Vậy dùng sao cho ngon?

Mấy mẹo thực tế cho anh em:

Đặt tài liệu quan trọng ở đầu và cuối. Phần giữa thì để bổ trợ.
Đừng nhét bừa. Chọn lọc tài liệu thật sự cần thiết thay vì tải lên mọi thứ.
Tận dụng cho công việc lớn. Luận văn, hợp đồng, codebase, bộ dữ liệu nghiên cứu — đây là lúc 1 triệu token phát huy sức mạnh.
Kết hợp với prompt engineering. Viết câu lệnh rõ ràng, nói cho Claude biết cần tìm gì trong đống tài liệu. Muốn học kỹ hơn thì xem Context Engineering Master — hướng dẫn cách cấu trúc input để AI thật sự dùng hết những gì anh em đưa vào.

Bức tranh lớn

Một năm trước, hầu hết mô hình AI chạm trần ở 128K token. Tầm 200 trang. Đủ cho hội thoại, không đủ cho công việc nặng.

Giờ thì 1 triệu token đã trở thành chuẩn mới ở nhiều nhà cung cấp, với Llama 4 Scout của Meta đạt tận 10 triệu. Context window đang lớn nhanh hơn bất kỳ ai dự đoán — và nó đang thay đổi khả năng của AI.

Bước nhảy từ 200K lên 1 triệu không đơn thuần là “nhiều hơn.” Nó vượt qua một ngưỡng. Nó có nghĩa là AI giữ được nguyên bộ dự án của anh em trong đầu — tất cả file, tất cả bối cảnh, tất cả lịch sử. Mối quan hệ thay đổi từ “công cụ hỏi-đáp từng câu” thành “đồng nghiệp hiểu toàn bộ bức tranh.”

Muốn so sánh chi tiết hơn giữa Claude với ChatGPT và Gemini? Bài ChatGPT vs Claude vs Gemini: Mình đã dùng thử cả 3 và đây là sự thật đi sâu vào từng mặt mạnh-yếu, không chỉ context window.

Cuộc chạy đua context window chưa kết thúc. Nhưng thời điểm hiện tại, Claude là con AI sử dụng context tốt nhất. Và đó mới là chỉ số quan trọng.