こんにちは!
AIが完璧な自信で完全に間違ったこと言ってきた経験、ありませんか?
存在しない研究を引用したり、統計を作り上げたり、架空の引用を持ち出したり。
これが「ハルシネーション」。正直、AIを使う上で一番イライラする問題かなと思います。
完全にゼロにはできないんですけど、劇的に減らすことはできる。
実際に効果があったテクニックをまとめてみました。
なぜAIは嘘をつくのか
まず、なぜ起きるか理解しておくと対策しやすいです。
AIは人間みたいに「知ってる」わけじゃない。訓練データのパターンに基づいて「それっぽい答え」を生成してる。
だから:
- トピックが曖昧だったり最新だったりすると(訓練データが少ない)
- 具体的な詳細を求めると(日付、数字、名前)
- 質問が曖昧だと(複数の解釈が可能)
……嘘をつきやすくなる。
しかも困ったことに、AIは「わからない」と言うより「自信を持って推測する」傾向がある。
ちなみに、2025年の最新モデルでもハルシネーション率は1〜2%程度。ゼロにはならないらしい。
テクニック1:「わからない」を許可する
AIはデフォルトで答えを出そうとする。「わからない」がOKだと明示する。
何かについて確実じゃない場合は、そう言って。
推測するより「わからない」と言ってくれたほうがいい。
間違った答えより、答えなしのほうがマシ。
これだけで、事実関係の質問でハルシネーションがかなり減る。
テクニック2:ソースを求める
AIに根拠を示させると、主張について慎重になる。
ドキュメントがある場合:
このドキュメントだけに基づいて答えて。
答えをサポートする具体的な段落を引用して。
ドキュメントに情報がなければ「情報なし」と言って。
[ドキュメント]
一般知識の場合:
〇〇について説明して。
特定の主張については、確信度も教えて。
確認が必要なものはフラグ立てて。
テクニック3:質問を分解する
複雑で多段階の質問はハルシネーションが増える。
ダメな例:
ProductXの歴史、主な特徴、価格、レビューを教えて。
ProductYとProductZとも比較して。
良い例:
これをステップバイステップで進めよう。
まず:ProductXの主な特徴は?
1つずつ聞いて、各回答を確認してから次へ。
テクニック4:チェーン・オブ・シンク
AIに推論プロセスを見せさせると、精度が上がる。
最終回答の前に、ステップバイステップで考えて。
推論を見せて。
AIが各ステップを明示しないといけないとき、自分の間違いに気づきやすくなる。
2024年の研究だと、GPT-4の数学エラーが28%減ったとか。
テクニック5:範囲を狭める
質問が広いほど、ハルシネーションの余地が増える。
広すぎ(リスキー):
機械学習について教えて
狭い(安全):
教師あり学習と教師なし学習の違いを説明して。
3〜4文で。主な違いだけ。
短くて焦点を絞った回答は、不確実な領域に踏み込む機会が減る。
テクニック6:参照資料を渡す
AIの「知識」に頼らない。必要な情報は直接渡す。
製品ドキュメント:
[ドキュメントを貼り付け]
このドキュメントだけに基づいて、顧客の質問に答えて:
[質問]
ドキュメントにない情報は追加しないで。
参照資料があると、作り話をする可能性が大幅に下がる。
テクニック7:自己検証を求める
驚くほど効果的。AIに自分の回答をチェックさせる。
今の回答を見直して。
不正確かもしれない主張、確信が持てない部分はある?
あればフラグ立てて。
明示的に聞くと、AIは自分のハルシネーションをキャッチすることがある。
最初から組み込むこともできる:
質問に答えて、その後正確性を見直して。
完全に確信がない部分はマークして。
テクニックを組み合わせる
複数組み合わせると効果が増す。
[トピック]について質問します。
ガイドライン:
1. 確信がある情報だけ使って
2. 不確実なら「確信なし」と言って
3. 特定の主張には確信度を示して
4. ステップバイステップで考えて
5. 答えた後、確認が必要な部分を簡潔に書いて
質問:[質問]
これで:
- 不確実性の許可(テクニック1)
- 確信度を求める(テクニック2)
- チェーン・オブ・シンク(テクニック4)
- 自己検証(テクニック7)
を一度にカバーできる。
防げないもの
現実的に、完全には防げないケースもある:
- 最近のイベント — 訓練カットオフ後の情報
- マイナーな詳細 — 特定の日付、ニッチな統計、マイナーな人物
- 技術仕様 — 正確なAPIパラメータ、コード構文の詳細
- 引用 — これはかなり頻繁に作り話する
精度が重要なら:
- 独立して検証する
- AIの引用を鵜呑みにしない
- 最終的な事実ではなく、ドラフトやアイデアにAIを使う
2025年の最新状況
ちなみに、最新モデルのハルシネーション率は改善してきてます。
- トップモデルは2%以下を達成
- Gemini-2.0-Flashは0.7%という報告も
- GPT-5では「根拠提示モード」が強化されたらしい
- Claude 3.5には「事実確認機能」が追加
でも、どのモデルでもゼロにはならない。大規模言語モデルの仕組み上、完全に避けることはできないみたい。
まとめ:検証マインドセット
究極の解決策はプロンプトテクニックじゃなくて、マインドセットの変化。
AIの出力は最終回答じゃなくて、検証が必要な初稿として扱う。
AIを使う場面:
- アイデアを素早く生成
- レビュー前提のドラフト
- 可能性の探索
- 渡した資料の要約
AIを使わない場面:
- 知らないことを知るオラクルとして
上のテクニックを使えば、間違いはかなり減る。でも「減る」≠「ゼロになる」。
信頼するけど、検証する。これが基本かなと思います。
関連記事: