ガードレール・安全性・ヒューマンインザループ
安全で信頼できるエージェントの構築——有害なアクションの防止、重要な判断での人間の承認、本番デプロイのモニタリング。
プレミアムコースコンテンツ
このレッスンはプレミアムコースの一部です。Proにアップグレードすると、すべてのプレミアムコースとコンテンツを利用できます。
- すべてのプレミアムコースを利用
- 1,000以上のAIスキルテンプレート付き
- 毎週新しいコンテンツを追加
🔄 Quick Recall: 前回のレッスンで計画戦略を学び、エージェントを体系的で効率的にした。しかし計画がしっかりしたエージェントでも、ガードレールなしではブレーキのない車と同じ。このレッスンで安全システムを追加する。
なぜエージェントの安全性はより重要か
チャットボットの最悪のケース:変な返答が出る。ユーザーが無視して再プロンプトすればいい。
エージェントの最悪のケース:間違ったメールを送信する。誤ったデータで上書きする。見積書を間違った金額で送る。元に戻せないアクションを実行する。
エージェントは自律的に行動する。自律性にはリスクが伴う。リスクにはガードレールが必要。
3層のガードレール
第1層:スコープ制約(何にアクセスできるか)
このエージェントのスコープ制約を設計して。
エージェントのタスク:[何をするエージェントか]
利用可能なツール:[全ツールリスト]
以下を定義:
1. アクセスを許可するツール(必要なもののみ)
2. 各ツールで許可する操作(読み取りのみ? 書き込みも?)
3. アクセスを許可するデータ範囲
4. 明示的にアクセスを禁止するリソース
5. なぜこの制限が適切か、理由
最小権限の原則:エージェントにはタスク完了に
必要な最小限のアクセスのみを付与する。
第2層:アクションガードレール(何ができるか)
このエージェントのアクションガードレールを設計して。
エージェントが実行しうるアクション:[リスト]
各アクションを分類:
🟢 自動実行OK:[リスト — リスクなし、可逆]
🟡 確認後に実行:[リスト — 中程度のリスク]
🔴 絶対に自動実行しない:[リスト — 高リスク、不可逆]
🟡のアクションについて、ユーザーに表示する
確認メッセージのテンプレートを作成。
第3層:出力ガードレール(何を返すか)
このエージェントの出力ガードレールを設計して。
エージェントが生成する出力:[タイプのリスト]
チェック項目:
1. 個人情報(PII)が出力に含まれていないか
2. 金額や数値が合理的な範囲か
3. 機密情報が外部に漏れていないか
4. 出力フォーマットが指定通りか
5. ハルシネーション(存在しない事実の生成)の兆候がないか
各チェックの自動化方法も提案して。
✅ Quick Check: 「最小権限の原則」がエージェントの安全性で重要な理由は?
エージェントに必要以上のアクセスを与えると、バグや想定外の挙動で意図しないリソースに触れる可能性が増える。ファイルの読み取りだけ必要なエージェントに書き込み権限を与えると、バグで重要ファイルを上書きするリスクが生まれる。「今のタスクに最低限必要なもの」だけを与えることで、失敗の影響範囲を最小化する。
ヒューマンインザループの設計
すべてのステップで人間の承認を求めたら、エージェントの意味がない。重要なのは「どこに」チェックポイントを置くか。
配置の原則
不可逆なアクションの前: メール送信、決済処理、データ削除
高額なアクションの前: 大量のAPI呼び出し、有料サービスの利用
外部とのコミュニケーションの前: クライアントへの返信、SNS投稿
不確実性が高いとき: エージェントが複数の選択肢で迷っている、自信が低い
このエージェントワークフローにヒューマンインザループの
チェックポイントを設計して。
ワークフロー:[ステップのリスト]
各ステップについて判定:
- 自動実行OK:なぜ安全か
- 承認が必要:何をユーザーに確認するか
承認が必要なポイントでは:
- ユーザーに表示する情報(何が起きる、リスクは何か)
- 承認/拒否/修正の選択肢
- 拒否された場合のフォールバック
モニタリングとログ
本番エージェントには監視が必要:
このエージェントのモニタリング計画を設計して。
エージェントのタスク:[記述]
実行頻度:[1日何回、週何回]
監視すべき指標:
1. タスク成功率(何%が正常完了するか)
2. 平均実行時間(遅くなっていないか)
3. ツール呼び出し回数(異常に多くないか)
4. エラー率(どの種類のエラーが多いか)
5. コスト(API使用料が予算内か)
アラート条件:
- いつ人間に通知すべきか
- どのレベルでエージェントを自動停止すべきか
日本の企業環境での注意点
日本の企業でエージェントをデプロイする際、追加で考慮すべき点:
- 個人情報保護法(APPI) — エージェントが個人データにアクセスする場合、利用目的の範囲内か確認
- 稟議プロセスとの整合 — 自動承認と人間の承認の境界が社内規定と矛盾しないか
- 監査ログ — 「誰が(エージェントが)何を(どのアクションを)いつ実行したか」を記録し、内部統制に対応
- 責任の所在 — エージェントのミスは運用者の責任。自動化の範囲と人間のオーバーサイトのバランスを事前に定義
Key Takeaways
- エージェントは自律的に行動する——チャットボットの「変な返答」とは違い、元に戻せないアクションを実行しうる
- 3層のガードレール:スコープ制約(何にアクセスできるか)、アクションガードレール(何ができるか)、出力ガードレール(何を返すか)
- 最小権限の原則:タスク完了に必要な最小限のアクセスのみ付与
- ヒューマンインザループは不可逆・高額・外部向け・不確実なアクションの前に配置
- 本番エージェントには成功率、実行時間、エラー率、コストのモニタリングが必須
- レート制限とコスト上限で暴走を防ぐ
Up Next
レッスン7:フレームワークとマルチエージェントでは、単一エージェントから複数の専門エージェントが協働するシステムにスケールアップする。
理解度チェック
まず上のクイズを完了してください
レッスン完了!