가드레일, 안전, 사람의 개입
해로운 행동을 방지하는 가드레일, 핵심 결정을 위한 사람 체크포인트, 프로덕션 배포를 위한 모니터링으로 안전하고 신뢰할 수 있는 에이전트를 구축하세요.
프리미엄 강좌 콘텐츠
이 레슨은 프리미엄 강좌의 일부예요. Pro로 업그레이드하면 모든 프리미엄 강좌와 콘텐츠를 이용할 수 있어요.
- 모든 프리미엄 강좌 이용
- 1000개 이상의 AI 스킬 템플릿 포함
- 매주 새로운 콘텐츠 추가
🔄 Quick Recall: 지난 레슨에서 에이전트를 체계적이고 효율적으로 만드는 계획 전략을 배웠어요. 하지만 가드레일 없이 잘 계획된 에이전트는 브레이크 없이 잘 계획된 자동차와 같아요. 이 레슨에서 에이전트를 신뢰할 수 있게 만드는 안전 시스템을 추가해요.
안전이 에이전트에서 더 중요한 이유
단일 프롬프트로 AI를 사용할 때 최악의 경우는 무시하면 되는 나쁜 응답. AI 에이전트가 자율적으로 행동할 때 — 이메일을 보내고, 데이터를 수정하고, API를 호출하면 — 최악의 경우는 실제 결과예요.
피드백을 오해해서 화난 이메일을 고객에게 보내는 에이전트. 중복이라고 생각해서 파일을 삭제하는 에이전트. 루프에 빠져서 API 비용 50만원을 쌓는 에이전트.
가드레일이 이것을 방지해요.
가드레일 프레임워크
세 가지 레이어로 생각하세요:
레이어 1: 범위 제약 — 에이전트가 할 수 없는 것 (예방적) 레이어 2: 사람 체크포인트 — 에이전트가 반드시 멈춰야 하는 곳 (보호적) 레이어 3: 모니터링과 알림 — 에이전트를 감시하는 방법 (탐지적)
각 레이어가 다른 유형의 문제를 잡아요. 함께하면 프로덕션에서 안전한 에이전트를 만들어요.
레이어 1: 범위 제약
에이전트가 접근하고 할 수 있는 것을 제한:
범위 제약:
허용 도구:
- web_search: 예 (읽기 전용, 데이터 수정 없음)
- read_file: 예 (/research/ 디렉토리 파일만)
- write_file: 예 (/output/ 디렉토리만)
- send_email: 아니오 (초안만, 사람이 발송)
- database_query: 읽기 전용 (INSERT, UPDATE, DELETE 불가)
행동 제한:
- 작업당 최대 도구 호출: 30
- 작업당 최대 시간: 15분
- 작업당 최대 비용: $2.00
원칙: 에이전트가 작업에 필요한 최소 권한만 가져야 해요.
✅ Quick Check: 리서치 작업에서 에이전트를 읽기 전용 데이터베이스 접근으로 제한해야 하는 이유는? 리서치 에이전트는 정보를 수집만 해야지 수정하면 안 돼요. 쓰기 접근이 있고 추론 오류가 나면 나쁜 연구 결과가 아닌 손상된 데이터가 돼요.
레이어 2: 사람 개입 체크포인트
전략적 일시 정지 지점:
고위험 행동 — 에이전트가 다음을 하기 전에 반드시 멈춤:
- 외부 당사자에게 커뮤니케이션 발송
- 프로덕션 시스템의 데이터 수정
- 구매나 금융 거래
- 삭제나 아카이빙
신뢰도 임계값 — 에이전트가 다음 상황일 때:
- 발견에 대한 신뢰도가 80% 미만
- 해결할 수 없는 상충 정보를 만남
- 정의된 범위 밖의 판단이 필요
레이어 3: 모니터링과 알림
프로덕션 에이전트는 가시성이 필요해요:
활동 로깅 — 모든 도구 호출, 결정, 결과를 기록. 문제 시 정확히 무슨 일이 있었는지 파악.
성능 지표 — 작업 완료율, 평균 단계 수, 오류율, 작업당 비용 추적.
이상 탐지 — 다음 상황에 알림:
- 작업이 평균의 2배 이상 시간 소요
- 연속 3회 이상 도구 호출 실패
- 비용이 예산 임계값 초과
일반적 에이전트 실패 모드
| 실패 모드 | 설명 | 가드레일 |
|---|---|---|
| 무한 루프 | 진행 없이 같은 행동 반복 | 단계 제한 + 루프 탐지 |
| 범위 확장 | 원래 작업 넘어 확장 | 범위 제약 + 계획 검토 |
| 환각된 도구 | 존재하지 않는 도구 사용 시도 | 엄격한 도구 화이트리스트 |
| 데이터 유출 | 출력에 민감한 데이터 포함 | 출력 필터링 + 데이터 접근 제어 |
| 비용 폭주 | 과도한 API 호출 | 비용 한도 + 속도 제한 |
우아한 실패 설계
에이전트가 실패할 때 안전하게 실패해야 해요:
실패 처리:
오류를 만나면:
1. 전체 맥락과 함께 오류 로그
2. 대안 접근 하나 시도
3. 대안도 실패하면 멈추고 사용자에게 보고
4. 보고에 포함: 무엇을 하려 했는지, 무엇이 잘못됐는지, 무엇을 시도했는지, 추천
절대 하면 안 되는 것:
- 오류 후 조용히 계속
- 격차를 메우려 데이터 조작
- 제한을 우회하려 승인된 범위 초과
핵심 정리
- 세 가지 가드레일 레이어: 범위 제약(할 수 없는 것), 사람 체크포인트(멈춰야 하는 곳), 모니터링(감시 방법)
- 최소 권한: 에이전트는 특정 작업에 필요한 도구와 데이터만 접근해야 해요
- 사람 개입 체크포인트가 오류가 결과가 되기 전에 잡아요 — 고위험 행동 전에 배치
- 흔한 실패 모드(무한 루프, 범위 확장, 데이터 유출, 비용 폭주)에 각각 특정 가드레일이 있어요
- 에이전트는 우아하게 실패해야 해요: 멈추고, 로그하고, 보고하고, 추천 — 조용히 계속하거나 데이터 조작은 절대 안 돼요
Up Next: 다음 레슨에서 에이전트 프레임워크와 멀티 에이전트 오케스트레이션을 다뤄요 — 전문화된 에이전트가 협력해서 복잡한 워크플로를 처리하는 시스템.
이해도 체크
먼저 위의 퀴즈를 완료하세요
레슨 완료!