テストとデバッグ
AIスキルの3層テスト——手動スモークテスト、Promptfooによる品質検証、Cisco Skill Scannerによるセキュリティスキャン。
プレミアムコースコンテンツ
このレッスンはプレミアムコースの一部です。Proにアップグレードすると、すべてのプレミアムコースとコンテンツを利用できます。
- すべてのプレミアムコースを利用
- 1,000以上のAIスキルテンプレート付き
- 毎週新しいコンテンツを追加
🔄 前回のおさらい: レッスン4でAPI認証の安全な管理方法を学びました。ここでは構築したスキルの品質とセキュリティをテストする方法を学びます。
AIスキルテストの3層アプローチ
第1層:手動スモークテスト
最も基本的なテストです:
| テスト種類 | 内容 | 例 |
|---|---|---|
| ハッピーパス | 正常な入力で期待通りの出力 | 標準的な会議メモを入力 |
| エッジケース | 境界条件での動作確認 | 空の入力、超長文入力 |
| 敵対的入力 | 悪意ある入力への耐性 | プロンプトインジェクション試行 |
第2層:Promptfooによる品質検証
Promptfooはプロパティベースのアサーションでスキル出力を検証します:
- contains — 出力に含むべき要素
- not-contains — 出力に含むべきでない要素
- llm-rubric — AIが判定する品質基準
AI出力は非決定的なので、exact matchではなく「出力が持つべき性質」で検証するのがポイントです。
第3層:Cisco Skill Scannerによるセキュリティスキャン
4つのレイヤーで脆弱性を検出:
- 静的分析 — ファイル内容の直接スキャン
- 行動分析 — 実行パターンの検査
- LLM-as-judge — AIによる意図判断
- バイナリスキャン — バンドルファイルの検査
ClawHubスキルの36.82%に脆弱性が見つかり、13.4%が「重大」でした。
✅ 確認クイズ: Promptfooのllm-rubricアサーションはどんな場面で役立つ?→出力の正確性を文字列マッチングではなく、AIが「品質基準を満たしているか」を判断する場面。例:「出力がプロフェッショナルなトーンで書かれているか」は文字列では検証できないが、AIなら判断できます。
まとめ
- AI出力は非決定的——exact matchではなくproperty-basedアサーションでテスト
- Cisco Skill Scannerは4層のセキュリティスキャンでプロンプトインジェクションや認証情報漏洩を検出
- テスト駆動開発ではテストケースを先に書き、期待される出力プロパティを定義してからスキルを構築
- ClawHubスキルの36.82%に脆弱性——テストを省略すると脆弱なスキルを公開するリスク
次のレッスン: マルチステップワークフロー——サブエージェント、プロンプトチェーン、タスクDAGで複雑なワークフローを構築します。
理解度チェック
まず上のクイズを完了してください
レッスン完了!