레슨 4 15 min

지식 파일과 RAG — GPT를 전문가로 만들기

지식 파일 업로드와 RAG를 통해 GPT에 전문 도메인 지식을 부여하는 방법을 배웁니다.

🔄 지난 레슨에서 인스트럭션 5단계 프레임워크를 배웠습니다. 역할, 핵심 지시, 트리거-지시, 출력 형식, 제약 조건. 이제 GPT에 전문 지식을 부여할 차례입니다.

배울 내용

이 레슨을 마치면 지식 파일을 효과적으로 업로드하고, 한국어 토큰 효율성을 고려한 파일 최적화 방법을 적용할 수 있습니다.

지식 파일이란

일반 ChatGPT는 학습 데이터에 있는 일반 지식만 가지고 있습니다. 하지만 지식 파일을 업로드하면 GPT가 그 파일의 내용을 기반으로 답변합니다.

지식 파일 없음지식 파일 있음
답변 근거일반 학습 데이터업로드한 문서
정확도일반적도메인 특화
활용 예일반 대화회사 규정 QA봇, 제품 매뉴얼봇

예를 들어, 회사 취업규칙 PDF를 업로드하면 “연차 사용 규정이 어떻게 되나요?“라는 질문에 정확한 규정을 인용해서 답합니다.

RAG는 어떻게 동작하나

RAG(Retrieval-Augmented Generation)가 자동으로 활성화됩니다. 작동 방식:

  1. 사용자가 질문합니다
  2. GPT가 질문과 관련된 부분을 지식 파일에서 검색합니다
  3. 검색된 내용을 컨텍스트로 포함해서 답변을 생성합니다

파일 전체를 읽는 게 아니라, 질문과 관련된 부분만 찾아서 읽습니다. 그래서 큰 파일도 빠르게 처리할 수 있습니다.

Quick Check: RAG에서 GPT는 업로드된 파일 전체를 읽나요, 아니면 관련 부분만 검색하나요? (관련 부분만 검색합니다. 사용자 질문과 유사한 내용을 파일에서 찾아서 그 부분만 컨텍스트로 사용합니다. 그래서 큰 파일도 효율적으로 처리됩니다.)

지식 파일 제한과 권장 사항

업로드 제한:

  • 최대 20개 파일
  • 파일당 최대 512MB
  • 파일당 최대 200만 토큰

권장 파일 형식 (정확도 순):

형식파싱 정확도추천 용도
.txt★★★★★규정, 가이드라인, FAQ
.md (마크다운)★★★★★구조화된 문서, 매뉴얼
.csv★★★★★데이터, 가격표, 목록
.pdf (단일 컬럼)★★★★☆보고서, 논문
.json★★★★☆구조화된 데이터
.pdf (다단/복잡)★★☆☆☆피하세요
.pptx★★☆☆☆피하세요
.docx★★★☆☆가능하지만 txt/md가 나음

OpenAI 공식 권장: 단순한 형식(단일 컬럼 텍스트)이 최적입니다. 복잡한 레이아웃의 PDF나 파워포인트는 정보가 손실될 수 있습니다.

한국어 토큰 문제 — 꼭 알아야 할 것

이건 한국어 GPT 사용자의 90%가 모르는 중요한 사실입니다.

GPT의 토크나이저(BPE)는 영어에 최적화되어 있습니다:

  • 영어: 단어 약 4개 = 1토큰
  • 한국어: 한글 1글자 ≈ 2-3토큰

같은 내용이라도 한국어 파일은 영어 파일보다 토큰을 2-3배 더 많이 사용합니다.

실질적 영향:

영어한국어
200만 토큰 =약 150만 단어약 50-75만 글자
A4 기준약 3,000페이지약 1,000-1,500페이지

이 말은 한국어 지식 파일의 실질 용량이 영어의 1/2~1/3 수준이라는 뜻입니다.

대응 방법:

  1. 핵심만 추출: 규정 전문 대신, FAQ 형식으로 핵심 내용만 정리
  2. 불필요한 내용 제거: 목차, 부록, 서식, 반복 문구 삭제
  3. 영어 혼용: 전문 용어나 데이터는 영어로 유지 (토큰 절약)
  4. 파일 분할: 500페이지 이상은 100-150페이지 단위로 분할 (타임아웃 방지)

Quick Check: 한국어 지식 파일이 영어보다 실질 용량이 적은 이유는? (GPT의 토크나이저가 영어에 최적화되어 있어서, 한글 1글자가 2-3개 토큰으로 분할되기 때문입니다. 같은 200만 토큰 제한이라도 한국어 텍스트는 영어의 1/2~1/3 정도만 담을 수 있습니다.)

실습: 지식 파일 활용 GPT 만들기

“회사 규정 QA봇” 을 만들어봅시다.

Step 1: 파일 준비

회사 취업규칙이나 사내 규정 문서를 준비합니다. 없다면 고용노동부의 표준취업규칙을 사용해도 됩니다.

파일 최적화 체크리스트:

  • 불필요한 표지, 목차 제거
  • 각 조항 앞에 번호와 제목이 명확한지 확인
  • 가능하면 .txt 또는 .md 형식으로 변환
  • 500페이지 이상이면 분할

Step 2: 인스트럭션 작성

# 역할
너는 우리 회사의 인사 규정 전문 QA 봇이다.
업로드된 취업규칙 문서를 기반으로 직원들의 질문에 답한다.

# 핵심 규칙
- 반드시 업로드된 문서의 내용만을 기반으로 답변한다
- 웹 검색보다 지식 파일을 우선한다
- 답변 시 해당 조항 번호를 인용한다 (예: "제15조에 따르면...")
- 문서에 없는 내용은 "해당 규정은 업로드된 문서에 포함되어 있지 않습니다"라고 답한다

# 출력 형식
## 답변
(규정 기반 답변)

## 근거 조항
- 제X조 (조항명): "인용 내용"

핵심 포인트: “웹 검색보다 지식 파일을 우선한다"를 반드시 포함하세요. 이 지시가 없으면 GPT가 웹 검색 결과를 우선하는 경우가 있습니다.

Step 3: 업로드 & 테스트

Configure 탭 → Knowledge 섹션에 파일을 업로드하고, 프리뷰에서 테스트합니다:

  • “연차 사용 규정은?”
  • “야근 수당 계산 방법은?”
  • “육아휴직 기간은?” (문서에 없는 내용도 테스트)

지식 파일 활용 팁

1. 인스트럭션에서 파일 사용법을 명시하라

# 지식 파일 사용 규칙
- [제품_매뉴얼.txt]: 제품 사양, 사용법, 문제해결에 참고
- [가격표.csv]: 가격, 할인, 배송 정보에 참고
- [FAQ.md]: 자주 묻는 질문 답변에 우선 참고

파일이 여러 개면, 어떤 질문에 어떤 파일을 참고해야 하는지 알려주면 정확도가 올라갑니다.

2. FAQ 형식이 가장 효과적

Q: 연차는 몇 일인가요?
A: 1년 미만 근속 시 11일, 1년 이상 시 15일, 매 2년마다 1일 추가 (최대 25일)

Q: 야근 수당은 어떻게 계산하나요?
A: 통상임금의 1.5배. 야간(22시-06시) 추가 시 2.0배.

RAG가 질문-답변 쌍을 정확하게 매칭합니다.

3. 정기적으로 파일 업데이트

규정이 바뀌면 파일도 업데이트해야 합니다. GPT는 업로드된 파일의 내용만 참조하므로, 오래된 파일 = 오래된 답변입니다.

핵심 정리

  • 지식 파일 = GPT에 전문 도메인 지식을 부여하는 방법
  • RAG가 자동으로 관련 부분만 검색해서 답변에 활용
  • 제한: 20개 파일, 512MB/파일, 200만 토큰/파일
  • 한국어 토큰 문제: 영어 대비 2-3배 토큰 사용 → 실질 용량 1/2~1/3
  • 최적 형식: .txt, .md, .csv (단순할수록 좋음)
  • 인스트럭션에 “지식 파일 우선 참조” 지시 필수

다음 레슨

다음 레슨에서는 Actions API를 다룹니다. GPT를 Notion, Google Sheets, Slack 등 외부 서비스와 연동해서 단순한 대화봇을 넘어 실제 작업을 수행하는 GPT로 만드는 방법입니다.

이해도 체크

1. GPT의 지식 파일(Knowledge) 제한은?

2. 한국어 텍스트가 영어보다 더 많은 토큰을 사용하는 이유는?

3. 지식 파일에 가장 적합한 파일 형식은?

모든 문제에 답해야 확인할 수 있어요

먼저 위의 퀴즈를 완료하세요

관련 스킬