가드레일, 안전, 사람의 개입

🔄 Quick Recall: 지난 레슨에서 에이전트를 체계적이고 효율적으로 만드는 계획 전략을 배웠어요. 하지만 가드레일 없이 잘 계획된 에이전트는 브레이크 없이 잘 계획된 자동차와 같아요. 이 레슨에서 에이전트를 신뢰할 수 있게 만드는 안전 시스템을 추가해요.

안전이 에이전트에서 더 중요한 이유

단일 프롬프트로 AI를 사용할 때 최악의 경우는 무시하면 되는 나쁜 응답. AI 에이전트가 자율적으로 행동할 때 — 이메일을 보내고, 데이터를 수정하고, API를 호출하면 — 최악의 경우는 실제 결과예요.

피드백을 오해해서 화난 이메일을 고객에게 보내는 에이전트. 중복이라고 생각해서 파일을 삭제하는 에이전트. 루프에 빠져서 API 비용 50만원을 쌓는 에이전트.

가드레일이 이것을 방지해요.

가드레일 프레임워크

세 가지 레이어로 생각하세요:

레이어 1: 범위 제약 — 에이전트가 할 수 없는 것 (예방적) 레이어 2: 사람 체크포인트 — 에이전트가 반드시 멈춰야 하는 곳 (보호적) 레이어 3: 모니터링과 알림 — 에이전트를 감시하는 방법 (탐지적)

각 레이어가 다른 유형의 문제를 잡아요. 함께하면 프로덕션에서 안전한 에이전트를 만들어요.

레이어 1: 범위 제약

에이전트가 접근하고 할 수 있는 것을 제한:

범위 제약:

허용 도구:
- web_search: 예 (읽기 전용, 데이터 수정 없음)
- read_file: 예 (/research/ 디렉토리 파일만)
- write_file: 예 (/output/ 디렉토리만)
- send_email: 아니오 (초안만, 사람이 발송)
- database_query: 읽기 전용 (INSERT, UPDATE, DELETE 불가)

행동 제한:
- 작업당 최대 도구 호출: 30
- 작업당 최대 시간: 15분
- 작업당 최대 비용: $2.00

원칙: 에이전트가 작업에 필요한 최소 권한만 가져야 해요.

✅ Quick Check: 리서치 작업에서 에이전트를 읽기 전용 데이터베이스 접근으로 제한해야 하는 이유는? 리서치 에이전트는 정보를 수집만 해야지 수정하면 안 돼요. 쓰기 접근이 있고 추론 오류가 나면 나쁜 연구 결과가 아닌 손상된 데이터가 돼요.

레이어 2: 사람 개입 체크포인트

전략적 일시 정지 지점:

고위험 행동 — 에이전트가 다음을 하기 전에 반드시 멈춤:

외부 당사자에게 커뮤니케이션 발송
프로덕션 시스템의 데이터 수정
구매나 금융 거래
삭제나 아카이빙

신뢰도 임계값 — 에이전트가 다음 상황일 때:

발견에 대한 신뢰도가 80% 미만
해결할 수 없는 상충 정보를 만남
정의된 범위 밖의 판단이 필요

레이어 3: 모니터링과 알림

프로덕션 에이전트는 가시성이 필요해요:

활동 로깅 — 모든 도구 호출, 결정, 결과를 기록. 문제 시 정확히 무슨 일이 있었는지 파악.

성능 지표 — 작업 완료율, 평균 단계 수, 오류율, 작업당 비용 추적.

이상 탐지 — 다음 상황에 알림:

작업이 평균의 2배 이상 시간 소요
연속 3회 이상 도구 호출 실패
비용이 예산 임계값 초과

일반적 에이전트 실패 모드

실패 모드	설명	가드레일
무한 루프	진행 없이 같은 행동 반복	단계 제한 + 루프 탐지
범위 확장	원래 작업 넘어 확장	범위 제약 + 계획 검토
환각된 도구	존재하지 않는 도구 사용 시도	엄격한 도구 화이트리스트
데이터 유출	출력에 민감한 데이터 포함	출력 필터링 + 데이터 접근 제어
비용 폭주	과도한 API 호출	비용 한도 + 속도 제한

우아한 실패 설계

에이전트가 실패할 때 안전하게 실패해야 해요:

실패 처리:
오류를 만나면:
1. 전체 맥락과 함께 오류 로그
2. 대안 접근 하나 시도
3. 대안도 실패하면 멈추고 사용자에게 보고
4. 보고에 포함: 무엇을 하려 했는지, 무엇이 잘못됐는지, 무엇을 시도했는지, 추천

절대 하면 안 되는 것:
- 오류 후 조용히 계속
- 격차를 메우려 데이터 조작
- 제한을 우회하려 승인된 범위 초과

핵심 정리

세 가지 가드레일 레이어: 범위 제약(할 수 없는 것), 사람 체크포인트(멈춰야 하는 곳), 모니터링(감시 방법)
최소 권한: 에이전트는 특정 작업에 필요한 도구와 데이터만 접근해야 해요
사람 개입 체크포인트가 오류가 결과가 되기 전에 잡아요 — 고위험 행동 전에 배치
흔한 실패 모드(무한 루프, 범위 확장, 데이터 유출, 비용 폭주)에 각각 특정 가드레일이 있어요
에이전트는 우아하게 실패해야 해요: 멈추고, 로그하고, 보고하고, 추천 — 조용히 계속하거나 데이터 조작은 절대 안 돼요

Up Next: 다음 레슨에서 에이전트 프레임워크와 멀티 에이전트 오케스트레이션을 다뤄요 — 전문화된 에이전트가 협력해서 복잡한 워크플로를 처리하는 시스템.