빠른 데이터 탐색
어떤 데이터셋이든 빠르게 이해하세요. AI를 활용해서 데이터를 프로파일링하고, 문제를 발견하고, 기회를 식별해요.
프리미엄 강좌 콘텐츠
이 레슨은 프리미엄 강좌의 일부예요. Pro로 업그레이드하면 모든 프리미엄 강좌와 콘텐츠를 이용할 수 있어요.
- 모든 프리미엄 강좌 이용
- 1000개 이상의 AI 스킬 템플릿 포함
- 매주 새로운 콘텐츠 추가
🔄 이전 레슨 복습: 이전 레슨에서 구체적이고 비교적인 분석 질문을 만드는 법을 배웠어요. 이제 질문에 답하기 위한 첫 단계 — 데이터를 빠르게 이해하기 — 를 다뤄요.
탐색 단계
좋은 질문을 만들었다면, 다음은 데이터를 탐색해요. 분석에 뛰어들기 전에 데이터를 이해하는 것이 핵심이에요.
데이터 프로파일링 체크리스트
| 확인 영역 | 확인 항목 |
|---|---|
| 구조 | 행 수, 열 수, 각 열의 의미 |
| 데이터 유형 | 숫자, 텍스트, 날짜, 범주형 |
| 값 범위 | 최소, 최대, 평균, 분포 |
| 품질 문제 | 결측값, 이상값, 중복, 불일치 |
| 관계 | 열 간의 상관관계, 참조 관계 |
AI로 데이터 프로파일링
다음 데이터를 프로파일링해줘:
[데이터를 붙여넣기 또는 설명]
다음을 분석해줘:
1. 데이터 구조 (행 수, 열 수, 각 열의 데이터 유형)
2. 각 숫자 열의 기본 통계 (평균, 중간값, 표준편차, 최소, 최대)
3. 결측값이 있는 열과 비율
4. 이상값이나 의심스러운 값
5. 데이터에서 눈에 띄는 패턴
6. 추가 분석을 위한 제안
일반적인 데이터 품질 문제
결측값
- 완전 결측: 열이 비어 있음
- 부분 결측: 일부 행만 빠짐
- 패턴 결측: 특정 조건에서만 빠짐 (예: 특정 기간, 특정 지역)
처리 방법: 제거, 대체(평균/중간값), 또는 별도 분석
이상값
극단적으로 크거나 작은 값. 오류일 수도 있고, 중요한 인사이트일 수도 있어요.
- 오류 이상값: 데이터 입력 실수 (매출 100만원이 10억원으로)
- 진짜 이상값: 실제로 특이한 사건 (블랙프라이데이 매출)
중복
같은 데이터가 여러 번 기록된 경우. 합계나 평균을 왜곡해요.
불일치한 형식
- 날짜: “2025-01-15” vs “01/15/2025” vs “1월 15일”
- 카테고리: “서울” vs “서울시” vs “SEOUL”
5분 탐색 루틴
- 구조 파악 (1분): 행/열 수, 데이터 유형 확인
- 기본 통계 (2분): 평균, 범위, 분포 확인
- 품질 점검 (2분): 결측값, 이상값, 중복 확인
스프레드시트에서의 탐색
엑셀이나 구글 시트에서:
- 빠른 통계: 데이터 범위 선택 → 하단 상태표시줄에서 합계/평균/개수 확인
- 필터: 각 열에 필터를 걸어서 고유 값과 빈 값 확인
- 조건부 서식: 이상값을 시각적으로 표시
- 피벗 테이블: 카테고리별 요약 빠르게 생성
데이터 관계 이해하기
데이터셋 내부 관계:
- 매출과 할인율 사이의 상관관계
- 시간에 따른 지표 추세
- 카테고리별 분포 차이
외부 데이터와의 관계:
- 계절/공휴일과 매출의 관계
- 마케팅 예산과 웹사이트 트래픽
- 경쟁사 동향과 시장 점유율 변화
핵심 정리
- 분석에 뛰어들기 전에 항상 데이터를 먼저 프로파일링하세요 — 구조, 유형, 범위, 품질을 확인해요
- 데이터 품질 문제(결측값, 이상값, 중복, 불일치)를 초기에 발견하면 잘못된 분석을 방지해요
- AI에게 데이터를 붙여넣고 프로파일링을 요청하면 몇 분 만에 구조와 문제를 파악할 수 있어요
- 5분 탐색 루틴(구조 → 통계 → 품질)을 습관화하세요
- 이상값은 오류일 수도 있고 중요한 인사이트일 수도 있어요 — 맥락을 확인해서 판단하세요
다음 레슨: 전달하는 시각화 — 데이터를 이야기로 전환하는 차트를 만들어요.
이해도 체크
먼저 위의 퀴즈를 완료하세요
레슨 완료!