데이터가 안 맞을 땐 어떻게 하나요? — AI 데이터 기본 4강

1. 데이터가 안 맞는 5가지 모습
저는 컨설팅 다니면서 사장님들께 이런 말씀을 자주 듣습니다. "AI 도입하려고 데이터 줬더니 80%가 청소에 시간 쓴다더라구요." 다섯 가지 잠금장치 중 하나라도 풀려 있으면 그 위에 얹은 AI 의사결정은 전부 사상누각이 됩니다.
① 누락(Missing) — 빈 칸·NULL
채워졌어야 할 칸이 비어 있는 상태입니다. 동네 카페 멤버십 가입에서 "전화번호는 나중에"가 누적되거나, 보험 영업에서 5만 명 중 1만 명 직업란이 비어 위험률 산정이 안 되는 경우. 김지백 강사에 따르면 빈 칸이 10%만 넘어가도 평균값·재구매율이 통째로 거짓말이 됩니다. 사장님 신호등: 보고서에 "기타·미입력"이 10% 이상일 때, 평균값이 직관과 너무 다를 때, 직원이 "이 칸은 그냥 비워두면 돼요"라고 말할 때.
② 중복(Duplicate) — 같은 고객·같은 거래가 2번
같은 사람이 "김지백 / 김 지백 / 김지백(VIP)"으로 세 줄 들어가 있는 상태입니다. CRM과 쇼핑몰 회원 DB를 합쳤더니 고객 한 명이 평균 1.7명으로 부풀려진 사례가 흔합니다. 방치 비용: 마케팅 비용이 1.7배 새고, "고객 10만 명"이 실제로는 6만 명인 거짓 보고로 임원·투자자 신뢰가 흔들립니다.
③ 오타·표기 불일치(Typo) — "서울특별시" vs "서울시" vs "Seoul"
한국 데이터에서 가장 흔합니다. 주소가 4가지로 흩어지고, 거래처가 "(주)삼성전자 / 삼성전자(주) / 삼성전자 주식회사"로 세 거래처로 잡혀 결제 누락이 발생합니다. 지역별·거래처별 합계가 안 맞기 시작하면 첫 번째 의심해야 할 문제입니다.
④ 이상값(Outlier) — 매출 0원 또는 1억 원
카페 일매출이 평소 30만 원인데 어느 날 3,000만 원으로 찍히면 진짜 큰 거래인지, 단위 오타인지 판단해야 합니다. 사장님 룰: 평균이 중앙값보다 2배 이상 크면 어딘가에 거인이 숨어있는 신호. 정렬 후 위·아래 5개씩 눈으로 확인하세요. 아마존이 여성 지원자를 차별한 AI 채용 시스템도 학습 데이터의 편향·이상값이 원인이었습니다.
⑤ 포맷 불일치(Format) — 날짜·전화번호가 섞여 있음
같은 시트에 "2026-05-21 / 26.5.21 / 2026년 5월 21일 / 5/21"이 섞여 있으면 시스템은 다 다른 값으로 인식합니다. 2025년 9월 국세청 홈택스가 사이트 변경 후 데이터 포맷이 어긋나 세금계산서 수신이 9시간 가까이 지연된 사고도 같은 원인입니다. 시스템 A→B로 옮길 때 절반이 거절된다면 포맷 문제입니다.
2. 비전공 사장님의 냉장고 정리 5단계
3강이 '마트 장보기 5단계'였다면, 4강은 '냉장고 정리 5단계'입니다. 5단계를 다 하지 마시고, 오늘 점심시간에 딱 1단계만 해보세요. 그것만 해도 데이터 품질이 한 단계 올라갑니다.
1단계. 냉장고 열기 (스캔) — 데이터 프로파일링
새 엑셀 파일을 받으면 절대 바로 분석하지 않습니다. 일단 냉장고 문부터 열어 전체를 훑어봅니다. 몇 행 × 몇 열인지, 빈칸은 어디 있는지, 이상하게 생긴 값은 없는지.
5분 미니액션: 가장 자주 보는 엑셀 파일을 열고 모든 열에 필터를 걸어보세요(Ctrl+Shift+L / Cmd+Shift+L). 각 열 화살표를 한 번씩 클릭만 해도 5분 안에 데이터 윤곽이 파악됩니다.
2단계. 유통기한 지난 것 버리기 — 보존 정책
냉장고에 5년 전 김치는 없습니다. 그런데 회사 데이터는 10년 전 고객 명단이 그대로 있는 경우가 흔합니다. 보관해두면 (1)저장비용, (2)개인정보 리스크, (3)분석 노이즈가 됩니다. 저의 룰: 마케팅 로그 1년, 거래 데이터 5년(한국 세법), 인사 기록 퇴직 후 3년. 삭제 전 반드시 _archive_2026_05 같은 시트로 백업.
3단계. 상한 것 빼기 — 이상치 처리
통계학자들은 Z-score를 쓰지만 사장님 버전으로는 이거면 충분합니다. (1)평균과 중앙값을 비교, (2)평균이 중앙값보다 2배 크면 거인 의심, (3)정렬 후 위·아래 5개씩 눈 확인. 자주 보이는 '상한 것'들: 고객 나이 235세, 매출 -100만원, 전화번호 010-0000-0000(테스트값).
4단계. 같은 음식 합치기 — 표준화
"서울특별시 / 서울시 / 서울 / Seoul / SEOUL"이 다 따로 집계되는 것은 양파 세 봉지 사는 것과 같습니다. 매핑 표(Mapping Table)를 따로 만드세요. 도구는 =TRIM(A1)(앞뒤 공백), =SUBSTITUTE(단어 치환), '중복 항목 제거' 메뉴.
5단계. 위생포장 — 포맷 통일
같은 김치라도 어떤 건 락앤락, 어떤 건 비닐봉지에 들어있으면 냉장고가 엉망이죠. 5가지 표준 형식: 날짜 YYYY-MM-DD, 전화 010-XXXX-XXXX, 주소 "시,구,상세", 금액 숫자만, 이름 성+이름 붙여쓰기. 5분 미니액션: 가장 자주 쓰는 시트의 날짜 열 하나만 YYYY-MM-DD로 통일. 이거 하나만 해놔도 AI 분석 오류가 절반으로 줍니다.
| 단계 | 도구 | 5분 미니액션 | AI 프롬프트 한 줄 |
|---|---|---|---|
| 1. 냉장고 열기 | 필터, COUNTBLANK | 모든 열에 필터(Ctrl+Shift+L) | "각 열의 타입·빈칸·최빈값 3개 표로" |
| 2. 유통기한 버리기 | 날짜 필터 | 2년 이상 분리 보관 | "특정 날짜 이전 행 분리해줘" |
| 3. 상한 것 빼기 | AVERAGE, MEDIAN | 숫자 열 정렬, 위·아래 5개 | "이상해 보이는 값 이유와 함께 찾아줘" |
| 4. 같은 음식 합치기 | TRIM, SUBSTITUTE | 매핑 표 첫 5줄 만들기 | "같은 회사 다른 표기를 매핑 표로" |
| 5. 위생포장 | 셀 서식, TEXT 함수 | 날짜 한 열 YYYY-MM-DD 통일 | "날짜·전화번호 표준 형식으로 변환" |
_v2 사본 만든 뒤 작업하세요.
3. 한국 기업의 GIGO 실패 3건
저는 "데이터 한 줄이 틀리면 AI 결정 1만 건이 틀어진다"고 말합니다. 실제 한국에서 데이터가 더러워서 큰 손해를 본 사례 3건을 점층 구성으로 봅시다.
사례 ① 쿠팡 검색 알고리즘 조작 — 과징금 1,400억 원 (2024)
공정거래위원회는 2024년 6월 쿠팡과 자회사 씨피엘비(CPLB)에 과징금 1,400억 원을 잠정 부과했습니다. 2019년 2월~2023년 7월 사이 임직원 2,297명을 동원해 PB 상품 7,342개에 후기 7만 2,614건과 평균 별점 4.8점을 인위적으로 입혔습니다. "랭킹 데이터"와 "후기 데이터" 자체가 오염된 상태였던 거죠. 결과: 검색 100위 내 PB 노출 56.1% → 88.4%, 행정 비용 1,400억 원.
사례 ② 스캐터랩 '이루다' — AI 개인정보 침해 첫 손배 판결 (2024)
스캐터랩은 '연애의 과학' 등에서 모은 카카오톡 대화 약 94억 문장(60만 명분)을 이름·전화번호 마스킹 없이 챗봇 학습에 투입했습니다. '더러운 데이터(개인정보 미정제 원본)'를 그대로 학습시킨 전형적 GIGO. 챗봇이 실제 계좌번호·이름을 토해내기도 했죠. 2024년 11월 서울동부지법은 1인당 10만~40만 원 배상을 판결, 한국 최초 AI 개인정보 침해 손해배상 판결이 됐습니다.
사례 ③ 제조기업 A사 AI 재고관리 — 6개월 지연
한 제조기업이 AI 에이전트로 재고 자동화를 시도했으나, ERP 품목 코드와 실물 창고 바코드 체계가 달랐습니다. 재고 수량 15%가 부정확한 상태로 AI에 그대로 연결, AI가 엉뚱한 발주 알림을 보냈고 프로젝트는 6개월 지연됐습니다. 부서별로 같은 품목을 다르게 관리하던 게 문제의 뿌리였습니다.
4. 비전공 사장님이 쓸 도구 4종 (2026년 5월 기준)
저는 사장님께 "SQL 배우지 마세요. 대신 도구 4개만 골라 쓰세요"라고 권합니다. 월 비용 약 4만 원, 사람 손 안 대고 매달 데이터를 정제할 수 있는 최소 구성입니다.
| 도구 | 가격(2026.5) | 잘하는 것 | 추천 시나리오 |
|---|---|---|---|
| Excel Power Query | 무료(MS365 포함) | 매달 반복 파일 자동 합치기·정제. 단계가 매크로처럼 기록돼 차월 자동 재적용 | 매달 영업소 10개 매출 엑셀을 한 시트로 합치고 정제 |
| Google Sheets | 무료 | TRIM·UNIQUE·ARRAYFORMULA. 팀 동시 편집·공유 | 카톡·구글폼으로 모인 고객 데이터를 다같이 정리 |
| Claude (Code/Projects) | $20 / 월 | "이 데이터에서 이상치 찾아 정리해줘" 자연어 명령. 한국어 강함 | 영수증·견적서 PDF 100장을 표로 정리, 주소 컬럼 표준화 |
| Make.com | $9 / 월 | 시각적 시나리오, 분기·조건 처리. 노코드 자동화 가성비 최강 | 구글폼 → Sheets → Claude 자동 정제 → Slack 알림 파이프라인 |
NIA 한국지능정보사회진흥원도 2025년 5월 'AI 데이터 품질관리 가이드라인 v3.5'를 발간했습니다. 정부가 직접 "데이터 품질이 AI의 시작"이라고 선언한 셈입니다. 김지백 강사에 따르면 AI 시대의 GIGO는 한 번의 쓰레기가 평생의 쓰레기입니다(Garbage In, Garbage Forever). 학습된 모델은 지우기 어렵고, RAG 문서는 검색마다 인용되며, 파인튜닝된 가중치는 되돌릴 수 없기 때문입니다.
5. 자가진단 — 우리 회사 데이터, 얼마나 깨끗한가
아래 10문항 중 7개 이상 체크되면 데이터 청소 작업이 시급합니다. 클릭해서 체크하세요.
- 고객·거래처 명단의 빈 칸이 10% 이상이다
- 같은 고객이 시스템에 2번 이상 들어간 경우를 본 적 있다
- 지역별·거래처별 합계를 내봤는데 전체 합과 안 맞은 적이 있다
- 평균값이 직관과 크게 다른 보고서를 받은 적이 있다
- 날짜·전화번호 형식이 한 시트 안에 2가지 이상 섞여 있다
- 오래된 데이터(3년 이상)를 한 번도 정리한 적이 없다
- 매핑 표(서울특별시=서울시) 같은 표준 표기 사전이 없다
- 버린 데이터의 백업을 따로 보관하지 않는다
- 같은 데이터를 두 직원이 정리하면 결과가 달라진다
- AI/분석 프로젝트가 데이터 품질 때문에 지연된 적이 있다
핵심 정리
- 데이터가 안 맞는 5가지 모습 — 누락·중복·오타·이상값·포맷. 하나라도 풀려 있으면 AI 의사결정은 사상누각.
- 냉장고 정리 5단계로 사장님이 직접 청소 — 스캔 → 유통기한 → 이상치 → 표준화 → 포맷 통일. 오늘 1단계만 해보세요.
- 한국 GIGO 사례 3건 — 쿠팡 1,400억 / 이루다 손배 판결 / 제조 A사 6개월 지연. 모두 입력 데이터를 통제하지 못해 생긴 일.
- 4종 도구로 충분 — Power Query + Sheets + Claude + Make. 월 비용 약 4만 원이면 매달 자동 정제 가능.
- AI 예산의 70%는 데이터에 쓰십시오 — AI 시대의 GIGO는 Garbage In, Garbage Forever. 한 번의 쓰레기가 평생의 쓰레기입니다.
다음 5강에서는 청소된 데이터를 어떻게 저장·공유·보호할지(사장님 버전 데이터 거버넌스)를 다룹니다.
자주 묻는 질문
우리 조직에 맞는 AI 교육을
설계해드립니다.
위 자료의 내용을 기반으로 맞춤형 강의 커리큘럼을 구성해드립니다. 기업·공공기관·임원 대상 프로그램 모두 가능합니다.
조회수·다운로드 카운트 등 인터랙티브 기능은 자료실 인터랙티브 페이지에서 이용하실 수 있습니다.