評価・ベンチマーク・品質保証

🔄 Quick Recall: 前回のレッスンで、複雑な問題を分解するフレームワークを学んだ。しかし、設計したシステムが本当に機能しているかどうか、どう知るのか？

測定の問題

ほとんどの人はAI出力をこう評価する：読む→「いい感じ」か「違う」と判断→次へ。この方法には3つの致命的欠陥がある：

一貫性がない。 気分、期待、比較対象によって評価が変わる。
追跡できない。 ベースラインを測定していないから、改善しているかわからない。
診断できない。 出力が「違う」とき、どのコンポーネントが失敗したか特定できない。

評価ルーブリックの設計

曖昧な品質判断を、具体的で測定可能な基準に変える。

ルーブリック設計プロセス

ステップ1：次元の定義。 この出力で品質のどの側面が重要か？

ステップ2：スケールの作成。 各次元で優秀と不良はどう見えるか？

ステップ3：アンカーの追加。 各品質レベルに具体例を提供。

例：AI生成のビジネス分析評価

次元	5（優秀）	3（適切）	1（不良）
深さ	非自明な洞察を根拠付きで提示	主要ポイントを扱うが表面的	当たり前を繰り返すだけ
正確性	すべての主張が正確またはヘッジ付き	結論を変えない軽微なエラー	誤りまたは誤解を招く主張
完全性	関連するすべての視点とシナリオを検討	基本を扱うが重要な角度を欠く	分析を損なう大きなギャップ
実行可能性	具体的で実行可能な推奨	大まかな方向性だが具体性に欠ける	明確な次のステップのない抽象論
推論	前提を明示した論理的推論	推論は見えるがギャップあり	根拠なく結論が出現

✅ Quick Check: 最近満足したAI出力をこのルーブリックに通してみよう。思ったほどのスコアが出るか？

AIを使ってAIを評価する

適切なプロンプトで、AIを評価者として使える：

以下の出力を基準に対して評価して。各次元について：
- スコア（1-5）
- 出力からスコアを支持する具体的エビデンス
- 1点上げるために何を変えるべきか

[ルーブリック]

評価する出力：
[出力]

重要：厳格に。高いスコアをデフォルトにしない。3は適切な仕事に十分。

カスタムベンチマークの構築

ベンチマークはシステムに通して性能を測定するテストケースのセット。

ベンチマーク設計

カテゴリ	目的	テストケース例
標準	典型的な性能の検証	代表的なタスク5-10件
エッジケース	境界条件のテスト	曖昧、異常、複雑さの限界
敵対的	堅牢性のテスト	意図的にシステムを壊す入力
リグレッション	品質低下の防止	以前失敗して修正したタスク

各テストケースに定義すべきもの：

入力： 正確なプロンプトまたはシナリオ
期待される出力特性： 良い応答の特徴（正確なテキストではなく品質）
失敗モード： 悪い応答はどう見えるか
評価基準： このケースで最も重要なルーブリック次元

リグレッションテスト

システムプロンプト、推論チェーン、ワークフローを変更する際、以前機能していたものが壊れていないことを確認する。

リグレッションプロセス

ベースライン： 変更前にベンチマークを実行、スコアを記録
変更： システムに変更を加える
再実行： 同じベンチマークを再実行
比較： ベースラインとのスコア比較
判断： いずれかのカテゴリのスコアが低下したら、デプロイ前に調査

継続的品質保証

定期使用するAIシステムには、継続的な品質モニタリングを構築する。

サンプリングアプローチ

すべてのAI出力を評価はできない。代わりに体系的にサンプル：

ランダムサンプリング： 月次で出力の10%をランダム評価。 層別サンプリング： カテゴリ/タイプごとに比例して評価。 トリガーベースサンプリング： ユーザーが不満を示した出力を評価。

品質ダッシュボード

指標	測定内容	目標
平均ルーブリックスコア	全体的品質	5点中4.0以上
スコアのばらつき	一貫性	低い分散（信頼できる品質）
失敗率	スコア3未満の頻度	5%未満
次元別内訳	強み/弱みの領域	改善ポイントの特定
トレンド	時系列での改善/低下	安定または改善

評価のメタパターン

すべてを結びつけるパターン：

定義： 品質の意味を定義する（ルーブリック）
測定： 現在の性能を測定する（ベンチマーク）
変更： 何かを変える（新プロンプト、新チェーン）
再測定： 再び測定する（リグレッションテスト）
比較： A/B分析
デプロイ： 改善したらデプロイ、していなければロールバック
モニタリング： 継続的品質監視（QAサンプリング）

プロフェッショナルなソフトウェアエンジニアリングの手法。これがあなたのAIシステムの運用方法になる。

Key Takeaways

「良さそう」を構造化されたルーブリックで置き換え、一貫した追跡可能な評価を行う
標準、エッジ、敵対的、リグレッションのテストケースでカスタムベンチマークを構築する
リグレッションテストで、ある領域の改善が他の領域の低下を引き起こすのを防ぐ
継続的QAがサンプリングとトレンド追跡で品質ドリフトを問題化する前に捕捉
評価のメタパターン：定義→測定→変更→再測定→比較→デプロイ→モニタリング

Up Next

レッスン8（総仕上げ）：AIシステムの設計——コース全体のテクニックを組み合わせ、1つの複雑な現実世界の問題に対する完全な推論アーキテクチャを設計・構築・評価する。