会話の途中で急に応答が止まり、トークン制限に引っかかったのは初めてだった。当時は何が起きているのかさっぱり分からなかった。
GPT-4でコードレビューをしていた時、大きなコードベースを貼り付けたら、応答がいきなり…止まった。一文の途中でバッサリ切れてしまったんだ。当時は「トークン」が何かも知らず、制限があることすら意識していなかったから、謎すぎて困った。
似たような経験がある方は多いはず。そんなあなたのために、このトークン見積もりツールを作りました。
トークンを数えてみよう
テキストを入力するか、下のフォームに貼り付けてみてください。トークン数、単語数、コストの見積もりがリアルタイムで更新されます。
AIトークンカウンター
推定コスト
| モデル | 入力 | 出力 |
|---|
トークンって何?
トークンとは、AI言語モデルがテキストを処理する際の「最小単位」です。必ずしも「単語」と一致するわけではありません。モデル内部のトークナイザーが、あなたの入力テキストを細かく分割した断片と考えてください。
大まかな目安:英語では1トークンは約4文字、つまり約0.75単語です。一方、日本語は1文字が1〜3トークンに分割されることが多く、英語と比べて同じ量でも多くのトークンを消費します。
| テキスト | トークン数 | 理由 |
|---|---|---|
| “Hello” | 1 | よく使う単語 = 1トークン |
| “indescribable” | 4 | 長い/珍しい単語 = 複数トークン |
| “ChatGPT” | 2 | ブランド名は分割される |
| “こんにちは” | 3 | 非ラテン文字はより多くのトークンを使う |
{"key": "value"} | 7 | コード/JSONには構造的トークンがある |
トークナイザーは、モデルの学習データに基づいてテキストを分割します。よく使われる英単語は1トークンで済むことが多いですが、専門用語やコード、英語以外のテキストは1単語あたり多くのトークンを消費しがちです。
トークン数がなぜ重要なのか
1. コンテキストウィンドウの制限
全てのAIモデルには「最大コンテキストウィンドウ」が設定されています。これは1回の会話で処理可能なトークンの上限(入力+出力の合計)を指します。具体的には以下のようになります:
| モデル | コンテキストウィンドウ |
|---|---|
| GPT-4.1 | 1Mトークン |
| GPT-4.1 mini | 1Mトークン |
| GPT-4.1 nano | 1Mトークン |
| o4-mini | 200Kトークン |
| Claude Opus 4.6 | 1Mトークン |
| Claude Sonnet 4.6 | 1Mトークン |
| Claude Haiku 4.5 | 200Kトークン |
| Gemini 2.5 Flash | 1Mトークン |
| Mistral Large 3 | 262Kトークン |
| DeepSeek V3.2 | 128Kトークン |
プロンプトがこの上限を超えると、応答が途中で途切れたり、エラーメッセージが表示されたりします。
2. APIコスト管理
AI APIを利用している場合(チャット画面だけでなくバックエンド処理も含む)、使用量はトークン単位で課金されます。入力と出力ではコストに大きな差があります:
| モデル | 入力(100万あたり) | 出力(100万あたり) |
|---|---|---|
| GPT-4.1 | ¥310 | ¥1,240 |
| GPT-4.1 mini | ¥62 | ¥248 |
| GPT-4.1 nano | ¥16 | ¥62 |
| o4-mini | ¥171 | ¥682 |
| Claude Opus 4.6 | ¥775 | ¥3,875 |
| Claude Sonnet 4.6 | ¥465 | ¥2,325 |
| Claude Haiku 4.5 | ¥39 | ¥194 |
| Gemini 2.5 Flash | ¥47 | ¥388 |
| Mistral Large 3 | ¥78 | ¥233 |
| DeepSeek V3.2 | ¥43 | ¥65 |
例えばGPT-4.1の場合、1,000トークンのプロンプト入力では約¥0.31です。最も安いGPT-4.1 nanoでも1,000トークンあたり約¥0.016。ただし、AIの出力(応答)は通常、入力よりも単価が高くなる傾向があります。
3. プロンプト最適化
トークン数を把握しておくと、以下のようなメリットがあります:
- システムプロンプトから無駄な記述を削り、コストを抑制する
- API呼び出し前に、生成される応答のトークン予算を見積もる
- 長文ドキュメントを貼り付ける際に、制限内に収める工夫ができる
- 異なるプロンプト構成の処理効率を比較・検証する
トークン見積もりの仕組み
このツールは、文字数÷4という簡易計算(ヒューリスティック)を採用しています。英語テキストに対する標準的な近似値で、一般的な文章では±10%程度の精度を誇ります。
正確な値を知りたい場合は、モデル固有のトークナイザー(OpenAIのtiktokenやAnthropicのものなど)を使用する必要があります。モデルによってトークン化の仕方は微妙に異なるためです。ただし、大まかな見積もりやコスト計画においては、÷4のルールで十分実用レベルです。
特に精度が下がりやすいケース:
- コードやJSON(通常より多くのトークンを消費する)
- 英語以外のテキスト(特に非ラテン文字系)
- 数字や特殊記号が密集したテキスト
- 非常に短いプロンプト(四捨五入の影響を受けやすい)
トークン管理の実践的なコツ
ChatGPT / Claude / Copilot(チャット画面)ユーザー向け:
- サブスクプランではトークン課金はありませんが、コンテキスト上限の制限はしっかり適用されます
- 長文の会話が続くとトークンが蓄積されて重くなる傾向がある — 応答が遅くなってきたら、新しいスレッド(会話)を始めるのがコツ
- ドキュメント全体を貼り付けるのではなく、文脈に直接関係する部分だけを選択して貼り付ける
API開発者向け:
- レスポンスパラメータに
max_tokensを指定し、出力コストを制限する - シンプルなタスクには低コストなモデル(GPT-4.1 mini、Haiku 4.5など)を採用する
- システムプロンプトは可能な限りキャッシュして再利用する
- ストリーミングで応答を受け取り、完了や不要であれば早めに呼び出しを中断する
プロンプトエンジニアリングに特化した方へ:
- 「短い=安い」とは限らない。無駄のないシステムプロンプトは、リトライ回数を減らすことで結果的にコストを節約する
- 軽量のmini/flashモデルで最初に動作確認を行い、精度が足りない場合のみ上位モデルへ切り替える
- バッチ処理を実行する前には、前述のコスト表で概算見積もりを取っておく
よくある質問
トークン数は正確ですか? 簡易計算(文字数÷4)に基づく推定値です。正確な値を得るには、モデル固有のトークナイザーが必要です。英語の一般的な文章であれば、±10%程度の精度でおおよそ合致します。
なぜモデルによって価格が違うのですか? パラメータ数が多く、計算リソースを多く消費するモデルほど運用コストが高くなります。価格はその計算負荷を反映しているためです。miniやflashシリーズはサイズが小さく処理が高速な分、低コストに設定されています。
入力トークンと出力トークンの違いは? 入力トークンはユーザーが送信するプロンプト、出力トークンはAIが生成する応答を指します。一般的に出力トークンの方が3〜5倍ほど高価です。これはテキストを「生成(推論)」する方が、「読み取り(処理)」するよりも計算負荷が高いためです。
英語以外のテキストでも機能しますか? 文字数をカウントして推算する仕組みなので、英語以外のテキストでも概算は可能です。ただし、非ラテン文字は1文字あたり2〜3トークンを消費することが多く、実際のトークン数は推定値より多めに出る傾向があります。
入力したテキストは保存されますか? いいえ、保存されません。すべての処理はブラウザ内のクライアントサイドで完結しており、入力したテキストが外部サーバーに送信されることはありません。