지식 파일과 RAG — GPT를 전문가로 만들기
지식 파일 업로드와 RAG를 통해 GPT에 전문 도메인 지식을 부여하는 방법을 배웁니다.
🔄 지난 레슨에서 인스트럭션 5단계 프레임워크를 배웠습니다. 역할, 핵심 지시, 트리거-지시, 출력 형식, 제약 조건. 이제 GPT에 전문 지식을 부여할 차례입니다.
배울 내용
이 레슨을 마치면 지식 파일을 효과적으로 업로드하고, 한국어 토큰 효율성을 고려한 파일 최적화 방법을 적용할 수 있습니다.
지식 파일이란
일반 ChatGPT는 학습 데이터에 있는 일반 지식만 가지고 있습니다. 하지만 지식 파일을 업로드하면 GPT가 그 파일의 내용을 기반으로 답변합니다.
| 지식 파일 없음 | 지식 파일 있음 | |
|---|---|---|
| 답변 근거 | 일반 학습 데이터 | 업로드한 문서 |
| 정확도 | 일반적 | 도메인 특화 |
| 활용 예 | 일반 대화 | 회사 규정 QA봇, 제품 매뉴얼봇 |
예를 들어, 회사 취업규칙 PDF를 업로드하면 “연차 사용 규정이 어떻게 되나요?“라는 질문에 정확한 규정을 인용해서 답합니다.
RAG는 어떻게 동작하나
RAG(Retrieval-Augmented Generation)가 자동으로 활성화됩니다. 작동 방식:
- 사용자가 질문합니다
- GPT가 질문과 관련된 부분을 지식 파일에서 검색합니다
- 검색된 내용을 컨텍스트로 포함해서 답변을 생성합니다
파일 전체를 읽는 게 아니라, 질문과 관련된 부분만 찾아서 읽습니다. 그래서 큰 파일도 빠르게 처리할 수 있습니다.
✅ Quick Check: RAG에서 GPT는 업로드된 파일 전체를 읽나요, 아니면 관련 부분만 검색하나요? (관련 부분만 검색합니다. 사용자 질문과 유사한 내용을 파일에서 찾아서 그 부분만 컨텍스트로 사용합니다. 그래서 큰 파일도 효율적으로 처리됩니다.)
지식 파일 제한과 권장 사항
업로드 제한:
- 최대 20개 파일
- 파일당 최대 512MB
- 파일당 최대 200만 토큰
권장 파일 형식 (정확도 순):
| 형식 | 파싱 정확도 | 추천 용도 |
|---|---|---|
| .txt | ★★★★★ | 규정, 가이드라인, FAQ |
| .md (마크다운) | ★★★★★ | 구조화된 문서, 매뉴얼 |
| .csv | ★★★★★ | 데이터, 가격표, 목록 |
| .pdf (단일 컬럼) | ★★★★☆ | 보고서, 논문 |
| .json | ★★★★☆ | 구조화된 데이터 |
| .pdf (다단/복잡) | ★★☆☆☆ | 피하세요 |
| .pptx | ★★☆☆☆ | 피하세요 |
| .docx | ★★★☆☆ | 가능하지만 txt/md가 나음 |
OpenAI 공식 권장: 단순한 형식(단일 컬럼 텍스트)이 최적입니다. 복잡한 레이아웃의 PDF나 파워포인트는 정보가 손실될 수 있습니다.
한국어 토큰 문제 — 꼭 알아야 할 것
이건 한국어 GPT 사용자의 90%가 모르는 중요한 사실입니다.
GPT의 토크나이저(BPE)는 영어에 최적화되어 있습니다:
- 영어: 단어 약 4개 = 1토큰
- 한국어: 한글 1글자 ≈ 2-3토큰
같은 내용이라도 한국어 파일은 영어 파일보다 토큰을 2-3배 더 많이 사용합니다.
실질적 영향:
| 영어 | 한국어 | |
|---|---|---|
| 200만 토큰 = | 약 150만 단어 | 약 50-75만 글자 |
| A4 기준 | 약 3,000페이지 | 약 1,000-1,500페이지 |
이 말은 한국어 지식 파일의 실질 용량이 영어의 1/2~1/3 수준이라는 뜻입니다.
대응 방법:
- 핵심만 추출: 규정 전문 대신, FAQ 형식으로 핵심 내용만 정리
- 불필요한 내용 제거: 목차, 부록, 서식, 반복 문구 삭제
- 영어 혼용: 전문 용어나 데이터는 영어로 유지 (토큰 절약)
- 파일 분할: 500페이지 이상은 100-150페이지 단위로 분할 (타임아웃 방지)
✅ Quick Check: 한국어 지식 파일이 영어보다 실질 용량이 적은 이유는? (GPT의 토크나이저가 영어에 최적화되어 있어서, 한글 1글자가 2-3개 토큰으로 분할되기 때문입니다. 같은 200만 토큰 제한이라도 한국어 텍스트는 영어의 1/2~1/3 정도만 담을 수 있습니다.)
실습: 지식 파일 활용 GPT 만들기
“회사 규정 QA봇” 을 만들어봅시다.
Step 1: 파일 준비
회사 취업규칙이나 사내 규정 문서를 준비합니다. 없다면 고용노동부의 표준취업규칙을 사용해도 됩니다.
파일 최적화 체크리스트:
- 불필요한 표지, 목차 제거
- 각 조항 앞에 번호와 제목이 명확한지 확인
- 가능하면 .txt 또는 .md 형식으로 변환
- 500페이지 이상이면 분할
Step 2: 인스트럭션 작성
# 역할
너는 우리 회사의 인사 규정 전문 QA 봇이다.
업로드된 취업규칙 문서를 기반으로 직원들의 질문에 답한다.
# 핵심 규칙
- 반드시 업로드된 문서의 내용만을 기반으로 답변한다
- 웹 검색보다 지식 파일을 우선한다
- 답변 시 해당 조항 번호를 인용한다 (예: "제15조에 따르면...")
- 문서에 없는 내용은 "해당 규정은 업로드된 문서에 포함되어 있지 않습니다"라고 답한다
# 출력 형식
## 답변
(규정 기반 답변)
## 근거 조항
- 제X조 (조항명): "인용 내용"
핵심 포인트: “웹 검색보다 지식 파일을 우선한다"를 반드시 포함하세요. 이 지시가 없으면 GPT가 웹 검색 결과를 우선하는 경우가 있습니다.
Step 3: 업로드 & 테스트
Configure 탭 → Knowledge 섹션에 파일을 업로드하고, 프리뷰에서 테스트합니다:
- “연차 사용 규정은?”
- “야근 수당 계산 방법은?”
- “육아휴직 기간은?” (문서에 없는 내용도 테스트)
지식 파일 활용 팁
1. 인스트럭션에서 파일 사용법을 명시하라
# 지식 파일 사용 규칙
- [제품_매뉴얼.txt]: 제품 사양, 사용법, 문제해결에 참고
- [가격표.csv]: 가격, 할인, 배송 정보에 참고
- [FAQ.md]: 자주 묻는 질문 답변에 우선 참고
파일이 여러 개면, 어떤 질문에 어떤 파일을 참고해야 하는지 알려주면 정확도가 올라갑니다.
2. FAQ 형식이 가장 효과적
Q: 연차는 몇 일인가요?
A: 1년 미만 근속 시 11일, 1년 이상 시 15일, 매 2년마다 1일 추가 (최대 25일)
Q: 야근 수당은 어떻게 계산하나요?
A: 통상임금의 1.5배. 야간(22시-06시) 추가 시 2.0배.
RAG가 질문-답변 쌍을 정확하게 매칭합니다.
3. 정기적으로 파일 업데이트
규정이 바뀌면 파일도 업데이트해야 합니다. GPT는 업로드된 파일의 내용만 참조하므로, 오래된 파일 = 오래된 답변입니다.
핵심 정리
- 지식 파일 = GPT에 전문 도메인 지식을 부여하는 방법
- RAG가 자동으로 관련 부분만 검색해서 답변에 활용
- 제한: 20개 파일, 512MB/파일, 200만 토큰/파일
- 한국어 토큰 문제: 영어 대비 2-3배 토큰 사용 → 실질 용량 1/2~1/3
- 최적 형식: .txt, .md, .csv (단순할수록 좋음)
- 인스트럭션에 “지식 파일 우선 참조” 지시 필수
다음 레슨
다음 레슨에서는 Actions API를 다룹니다. GPT를 Notion, Google Sheets, Slack 등 외부 서비스와 연동해서 단순한 대화봇을 넘어 실제 작업을 수행하는 GPT로 만드는 방법입니다.
이해도 체크
먼저 위의 퀴즈를 완료하세요
레슨 완료!