AI 데이터2026. 03. 31

데이터가 안 맞을 땐 어떻게 하나요? — AI 데이터 기본 4강

데이터가 안 맞을 땐 어떻게 하나요? — AI 데이터 기본 4강
저는 외부강사 김지백입니다. 지난 3강에서 마트 장보기 5단계로 데이터를 모으는 법을 봤죠. 그런데 막상 장을 봐서 냉장고에 넣고 한 달이 지나면 이런 일이 생깁니다. "어, 이 우유 언제 산 거지? 작년 거네?" "양파가 왜 세 봉지나 있어?" 데이터도 똑같습니다. 모으는 것보다 정리해서 쓸 수 있는 상태로 유지하는 것이 훨씬 어렵습니다. 한국 업계 자료에 따르면 AI 도입 예산의 약 80%가 데이터 전처리에 들어갑니다. 오늘 4강에서는 비전공 사장님도 Excel·구글시트·Claude만으로 따라할 수 있는 '냉장고 정리 5단계'를 알려드리겠습니다. 코딩 한 줄 없이, 오늘 점심시간 안에 끝낼 수 있습니다.

1. 데이터가 안 맞는 5가지 모습

저는 컨설팅 다니면서 사장님들께 이런 말씀을 자주 듣습니다. "AI 도입하려고 데이터 줬더니 80%가 청소에 시간 쓴다더라구요." 다섯 가지 잠금장치 중 하나라도 풀려 있으면 그 위에 얹은 AI 의사결정은 전부 사상누각이 됩니다.

① 누락(Missing) — 빈 칸·NULL

채워졌어야 할 칸이 비어 있는 상태입니다. 동네 카페 멤버십 가입에서 "전화번호는 나중에"가 누적되거나, 보험 영업에서 5만 명 중 1만 명 직업란이 비어 위험률 산정이 안 되는 경우. 김지백 강사에 따르면 빈 칸이 10%만 넘어가도 평균값·재구매율이 통째로 거짓말이 됩니다. 사장님 신호등: 보고서에 "기타·미입력"이 10% 이상일 때, 평균값이 직관과 너무 다를 때, 직원이 "이 칸은 그냥 비워두면 돼요"라고 말할 때.

② 중복(Duplicate) — 같은 고객·같은 거래가 2번

같은 사람이 "김지백 / 김 지백 / 김지백(VIP)"으로 세 줄 들어가 있는 상태입니다. CRM과 쇼핑몰 회원 DB를 합쳤더니 고객 한 명이 평균 1.7명으로 부풀려진 사례가 흔합니다. 방치 비용: 마케팅 비용이 1.7배 새고, "고객 10만 명"이 실제로는 6만 명인 거짓 보고로 임원·투자자 신뢰가 흔들립니다.

③ 오타·표기 불일치(Typo) — "서울특별시" vs "서울시" vs "Seoul"

한국 데이터에서 가장 흔합니다. 주소가 4가지로 흩어지고, 거래처가 "(주)삼성전자 / 삼성전자(주) / 삼성전자 주식회사"로 세 거래처로 잡혀 결제 누락이 발생합니다. 지역별·거래처별 합계가 안 맞기 시작하면 첫 번째 의심해야 할 문제입니다.

④ 이상값(Outlier) — 매출 0원 또는 1억 원

카페 일매출이 평소 30만 원인데 어느 날 3,000만 원으로 찍히면 진짜 큰 거래인지, 단위 오타인지 판단해야 합니다. 사장님 룰: 평균이 중앙값보다 2배 이상 크면 어딘가에 거인이 숨어있는 신호. 정렬 후 위·아래 5개씩 눈으로 확인하세요. 아마존이 여성 지원자를 차별한 AI 채용 시스템도 학습 데이터의 편향·이상값이 원인이었습니다.

⑤ 포맷 불일치(Format) — 날짜·전화번호가 섞여 있음

같은 시트에 "2026-05-21 / 26.5.21 / 2026년 5월 21일 / 5/21"이 섞여 있으면 시스템은 다 다른 값으로 인식합니다. 2025년 9월 국세청 홈택스가 사이트 변경 후 데이터 포맷이 어긋나 세금계산서 수신이 9시간 가까이 지연된 사고도 같은 원인입니다. 시스템 A→B로 옮길 때 절반이 거절된다면 포맷 문제입니다.

GIGO 한 줄 원칙: 쓰레기를 넣으면 쓰레기가 나옵니다. AI도, BI 대시보드도, ChatGPT도 결국 들어간 데이터 수준만큼만 답을 합니다. 누락·중복·오타·이상값·포맷 — 다섯 개 잠금장치 중 하나라도 풀려 있으면 그 위에 얹은 모든 의사결정은 사상누각입니다.

2. 비전공 사장님의 냉장고 정리 5단계

3강이 '마트 장보기 5단계'였다면, 4강은 '냉장고 정리 5단계'입니다. 5단계를 다 하지 마시고, 오늘 점심시간에 딱 1단계만 해보세요. 그것만 해도 데이터 품질이 한 단계 올라갑니다.

1단계. 냉장고 열기 (스캔) — 데이터 프로파일링

새 엑셀 파일을 받으면 절대 바로 분석하지 않습니다. 일단 냉장고 문부터 열어 전체를 훑어봅니다. 몇 행 × 몇 열인지, 빈칸은 어디 있는지, 이상하게 생긴 값은 없는지.

5분 미니액션: 가장 자주 보는 엑셀 파일을 열고 모든 열에 필터를 걸어보세요(Ctrl+Shift+L / Cmd+Shift+L). 각 열 화살표를 한 번씩 클릭만 해도 5분 안에 데이터 윤곽이 파악됩니다.

AI 프롬프트: "첨부한 엑셀 파일을 열어서, 각 열마다 (1) 데이터 타입, (2) 빈칸 개수, (3) 가장 자주 등장하는 값 상위 3개를 표로 정리해줘. 분석은 아직 하지 마."

2단계. 유통기한 지난 것 버리기 — 보존 정책

냉장고에 5년 전 김치는 없습니다. 그런데 회사 데이터는 10년 전 고객 명단이 그대로 있는 경우가 흔합니다. 보관해두면 (1)저장비용, (2)개인정보 리스크, (3)분석 노이즈가 됩니다. 저의 룰: 마케팅 로그 1년, 거래 데이터 5년(한국 세법), 인사 기록 퇴직 후 3년. 삭제 전 반드시 _archive_2026_05 같은 시트로 백업.

3단계. 상한 것 빼기 — 이상치 처리

통계학자들은 Z-score를 쓰지만 사장님 버전으로는 이거면 충분합니다. (1)평균과 중앙값을 비교, (2)평균이 중앙값보다 2배 크면 거인 의심, (3)정렬 후 위·아래 5개씩 눈 확인. 자주 보이는 '상한 것'들: 고객 나이 235세, 매출 -100만원, 전화번호 010-0000-0000(테스트값).

4단계. 같은 음식 합치기 — 표준화

"서울특별시 / 서울시 / 서울 / Seoul / SEOUL"이 다 따로 집계되는 것은 양파 세 봉지 사는 것과 같습니다. 매핑 표(Mapping Table)를 따로 만드세요. 도구는 =TRIM(A1)(앞뒤 공백), =SUBSTITUTE(단어 치환), '중복 항목 제거' 메뉴.

AI 프롬프트: "이 고객 명단의 '회사명' 열을 보고 같은 회사인데 다르게 적힌 것들을 묶어줘. 예: '㈜A사', '(주)A사', 'A주식회사' → 'A사'. 매핑 표로 정리해줘."

5단계. 위생포장 — 포맷 통일

같은 김치라도 어떤 건 락앤락, 어떤 건 비닐봉지에 들어있으면 냉장고가 엉망이죠. 5가지 표준 형식: 날짜 YYYY-MM-DD, 전화 010-XXXX-XXXX, 주소 "시,구,상세", 금액 숫자만, 이름 성+이름 붙여쓰기. 5분 미니액션: 가장 자주 쓰는 시트의 날짜 열 하나만 YYYY-MM-DD로 통일. 이거 하나만 해놔도 AI 분석 오류가 절반으로 줍니다.

단계도구5분 미니액션AI 프롬프트 한 줄
1. 냉장고 열기필터, COUNTBLANK모든 열에 필터(Ctrl+Shift+L)"각 열의 타입·빈칸·최빈값 3개 표로"
2. 유통기한 버리기날짜 필터2년 이상 분리 보관"특정 날짜 이전 행 분리해줘"
3. 상한 것 빼기AVERAGE, MEDIAN숫자 열 정렬, 위·아래 5개"이상해 보이는 값 이유와 함께 찾아줘"
4. 같은 음식 합치기TRIM, SUBSTITUTE매핑 표 첫 5줄 만들기"같은 회사 다른 표기를 매핑 표로"
5. 위생포장셀 서식, TEXT 함수날짜 한 열 YYYY-MM-DD 통일"날짜·전화번호 표준 형식으로 변환"
사장님이 흔히 하는 실수 3가지: (1) 버린 데이터 백업을 안 한다 — 일주일 뒤 "그 고객 어디 갔어?" 묻는 임원이 꼭 있습니다. (2) 한 번에 다 끝내려고 한다 — 30분씩, 한 단계씩이 정답. (3) 원본 파일을 그대로 수정한다 — 반드시 _v2 사본 만든 뒤 작업하세요.

3. 한국 기업의 GIGO 실패 3건

저는 "데이터 한 줄이 틀리면 AI 결정 1만 건이 틀어진다"고 말합니다. 실제 한국에서 데이터가 더러워서 큰 손해를 본 사례 3건을 점층 구성으로 봅시다.

사례 ① 쿠팡 검색 알고리즘 조작 — 과징금 1,400억 원 (2024)

공정거래위원회는 2024년 6월 쿠팡과 자회사 씨피엘비(CPLB)에 과징금 1,400억 원을 잠정 부과했습니다. 2019년 2월~2023년 7월 사이 임직원 2,297명을 동원해 PB 상품 7,342개에 후기 7만 2,614건과 평균 별점 4.8점을 인위적으로 입혔습니다. "랭킹 데이터"와 "후기 데이터" 자체가 오염된 상태였던 거죠. 결과: 검색 100위 내 PB 노출 56.1% → 88.4%, 행정 비용 1,400억 원.

사례 ② 스캐터랩 '이루다' — AI 개인정보 침해 첫 손배 판결 (2024)

스캐터랩은 '연애의 과학' 등에서 모은 카카오톡 대화 약 94억 문장(60만 명분)을 이름·전화번호 마스킹 없이 챗봇 학습에 투입했습니다. '더러운 데이터(개인정보 미정제 원본)'를 그대로 학습시킨 전형적 GIGO. 챗봇이 실제 계좌번호·이름을 토해내기도 했죠. 2024년 11월 서울동부지법은 1인당 10만~40만 원 배상을 판결, 한국 최초 AI 개인정보 침해 손해배상 판결이 됐습니다.

사례 ③ 제조기업 A사 AI 재고관리 — 6개월 지연

한 제조기업이 AI 에이전트로 재고 자동화를 시도했으나, ERP 품목 코드와 실물 창고 바코드 체계가 달랐습니다. 재고 수량 15%가 부정확한 상태로 AI에 그대로 연결, AI가 엉뚱한 발주 알림을 보냈고 프로젝트는 6개월 지연됐습니다. 부서별로 같은 품목을 다르게 관리하던 게 문제의 뿌리였습니다.

세 사례의 공통점은 단 하나입니다. "입력 데이터를 통제하지 못한 회사는 AI를 통제하지 못합니다." 알고리즘 조작이든, 개인정보 미정제든, ERP-실물 불일치든 — 결국 데이터 한 층에서 시작된 문제가 회사 전체로 번졌습니다.

4. 비전공 사장님이 쓸 도구 4종 (2026년 5월 기준)

저는 사장님께 "SQL 배우지 마세요. 대신 도구 4개만 골라 쓰세요"라고 권합니다. 월 비용 약 4만 원, 사람 손 안 대고 매달 데이터를 정제할 수 있는 최소 구성입니다.

도구가격(2026.5)잘하는 것추천 시나리오
Excel Power Query무료(MS365 포함)매달 반복 파일 자동 합치기·정제. 단계가 매크로처럼 기록돼 차월 자동 재적용매달 영업소 10개 매출 엑셀을 한 시트로 합치고 정제
Google Sheets무료TRIM·UNIQUE·ARRAYFORMULA. 팀 동시 편집·공유카톡·구글폼으로 모인 고객 데이터를 다같이 정리
Claude (Code/Projects)$20 / 월"이 데이터에서 이상치 찾아 정리해줘" 자연어 명령. 한국어 강함영수증·견적서 PDF 100장을 표로 정리, 주소 컬럼 표준화
Make.com$9 / 월시각적 시나리오, 분기·조건 처리. 노코드 자동화 가성비 최강구글폼 → Sheets → Claude 자동 정제 → Slack 알림 파이프라인

NIA 한국지능정보사회진흥원도 2025년 5월 'AI 데이터 품질관리 가이드라인 v3.5'를 발간했습니다. 정부가 직접 "데이터 품질이 AI의 시작"이라고 선언한 셈입니다. 김지백 강사에 따르면 AI 시대의 GIGO는 한 번의 쓰레기가 평생의 쓰레기입니다(Garbage In, Garbage Forever). 학습된 모델은 지우기 어렵고, RAG 문서는 검색마다 인용되며, 파인튜닝된 가중치는 되돌릴 수 없기 때문입니다.

5. 자가진단 — 우리 회사 데이터, 얼마나 깨끗한가

아래 10문항 중 7개 이상 체크되면 데이터 청소 작업이 시급합니다. 클릭해서 체크하세요.

  • 고객·거래처 명단의 빈 칸이 10% 이상이다
  • 같은 고객이 시스템에 2번 이상 들어간 경우를 본 적 있다
  • 지역별·거래처별 합계를 내봤는데 전체 합과 안 맞은 적이 있다
  • 평균값이 직관과 크게 다른 보고서를 받은 적이 있다
  • 날짜·전화번호 형식이 한 시트 안에 2가지 이상 섞여 있다
  • 오래된 데이터(3년 이상)를 한 번도 정리한 적이 없다
  • 매핑 표(서울특별시=서울시) 같은 표준 표기 사전이 없다
  • 버린 데이터의 백업을 따로 보관하지 않는다
  • 같은 데이터를 두 직원이 정리하면 결과가 달라진다
  • AI/분석 프로젝트가 데이터 품질 때문에 지연된 적이 있다

핵심 정리

  1. 데이터가 안 맞는 5가지 모습 — 누락·중복·오타·이상값·포맷. 하나라도 풀려 있으면 AI 의사결정은 사상누각.
  2. 냉장고 정리 5단계로 사장님이 직접 청소 — 스캔 → 유통기한 → 이상치 → 표준화 → 포맷 통일. 오늘 1단계만 해보세요.
  3. 한국 GIGO 사례 3건 — 쿠팡 1,400억 / 이루다 손배 판결 / 제조 A사 6개월 지연. 모두 입력 데이터를 통제하지 못해 생긴 일.
  4. 4종 도구로 충분 — Power Query + Sheets + Claude + Make. 월 비용 약 4만 원이면 매달 자동 정제 가능.
  5. AI 예산의 70%는 데이터에 쓰십시오 — AI 시대의 GIGO는 Garbage In, Garbage Forever. 한 번의 쓰레기가 평생의 쓰레기입니다.

다음 5강에서는 청소된 데이터를 어떻게 저장·공유·보호할지(사장님 버전 데이터 거버넌스)를 다룹니다.

#데이터 클렌징#데이터 정제#데이터 품질#AI 데이터#GIGO#AI아카데미#김지백#데이터 리터러시

자주 묻는 질문

Q. 데이터 청소를 정말 사장이 직접 해야 하나요?
전부 직접 하지 않으셔도 됩니다. 실무는 직원에게 맡기되, 사장님은 5가지 신호등(빈칸 10% 이상 / 평균과 직관의 괴리 / 중복 항의 / 합계 불일치 / 포맷 섞임)만 매주 30분 확인하면 됩니다. 사장이 신호를 모르면 회사 데이터는 점점 더러워집니다. 감시는 본인, 실무는 위임이 정답입니다.
Q. 데이터 청소에 얼마나 시간이 걸리나요?
한 번에 다 끝내려고 하면 100% 실패합니다. 30분씩 하루에 1단계가 정답입니다. 일주일이면 5단계가 끝나고, 월간 갱신은 30분이면 충분합니다. Power Query·Claude 같은 AI 도구를 쓰면 시간이 2~3배 단축됩니다. 핵심은 '시작'이지 '완성'이 아닙니다.
Q. Excel과 구글시트 중 어느 게 데이터 청소에 더 좋나요?
100만 행 미만의 매달 반복되는 작업은 Excel Power Query가 더 강력합니다. 정제 단계가 매크로처럼 기록돼 차월에 자동 재적용됩니다. 팀이 같이 보면서 정리해야 하면 구글시트가 낫습니다. 1인 사업가는 Excel, 팀 단위는 구글시트로 시작하세요.
Q. AI에게 데이터 청소를 맡겨도 되나요? 개인정보는 안전한가요?
맡겨도 됩니다. 단 두 가지 가드레일을 두세요. 첫째, 주민번호·계좌번호·핸드폰 같은 민감 정보는 업로드 전에 마스킹하거나 별표 처리. 둘째, Claude Pro/Max/Team 또는 ChatGPT Team처럼 학습 옵트아웃이 보장되는 플랜을 사용하세요. 무료 플랜은 입력이 학습에 쓰일 수 있어 기업 데이터를 다루기에는 위험합니다.
Q. GIGO 원칙은 왜 AI 시대에 더 중요한가요?
전통 통계는 1만 행이 오염되면 1만 건이 틀렸지만, AI는 한 번 학습된 더러운 데이터가 수억 건의 답변을 동시에 오염시킵니다. RAG는 검색마다 더러운 문서를 인용하고, 파인튜닝된 가중치는 되돌리기 어렵습니다. 그래서 'Garbage In, Garbage Forever'라고 부릅니다. AI 예산의 70%는 모델이 아니라 데이터에 쓰셔야 합니다.
Q. 데이터 청소 자동화는 어떻게 시작하나요?
Make.com 또는 Zapier로 시작하세요. 구글폼 입력 → 구글시트 저장 → Claude로 자동 정제 → 결과 Slack 알림. 이 4단계 파이프라인을 1주일이면 완성할 수 있습니다. 코딩 없이 가능하고, 월 비용 9~20달러 수준입니다. 핵심은 '매번 사람이 클렌징하지 않게' 만드는 것입니다.
이 주제로 강의 문의

우리 조직에 맞는 AI 교육을
설계해드립니다.

위 자료의 내용을 기반으로 맞춤형 강의 커리큘럼을 구성해드립니다. 기업·공공기관·임원 대상 프로그램 모두 가능합니다.

강의 소개 보기강의 문의하기

조회수·다운로드 카운트 등 인터랙티브 기능은 자료실 인터랙티브 페이지에서 이용하실 수 있습니다.