AI 데이터2026.03.20

데이터가 도대체 뭐인가요? — AI 데이터 기본 1강

데이터가 도대체 뭐인가요? — AI 데이터 기본 1강
📖 약 7분 분량 ✍️ 약 3,000자 📚 AI 데이터 리터러시 시리즈 1/8강
대표님, 오늘 아침에 카카오톡 한 통 보내셨지요? 그 한 줄도 데이터입니다. 가계부 한 줄, 카드 영수증 한 장, 사무실 CCTV 1초 — 우리는 매일 데이터를 만들고 있는데, 정작 데이터가 뭐지는 잘 모릅니다. 오늘은 "AI 시대 데이터 리터러시" 시리즈의 첫 강의로, 데이터가 도대체 뭐지 가장 쉬운 말로 풀어보겠습니다. 초등학생도 이해할 수 있게 비유로만 설명드릴 테니, 한 잔의 차와 함께 5분만 시간 내주세요.

01데이터가 도대체 뭐인가요? — 영수증 한 장, 발자국 한 개

데이터(Data)는 어렵게 정의하면 "관찰·측정·기록한 사실의 조각"입니다. 어렵지요? 쉽게 비유로 풀어드리겠습니다.

  • 가게 영수증 한 장은 데이터입니다. 한 장만 보면 별 의미 없지만 한 달치를 모으면 "어떤 메뉴가 잘 팔리는지" 보입니다.
  • 해변의 발자국 한 개도 데이터입니다. 한 사람의 발자국에서 키·몸무게·방향이 추정됩니다.
  • 스마트폰 사진 한 장도 데이터입니다. 사진에 찍힌 시간·장소·기기 정보가 같이 저장됩니다.

데이터는 "기록된 사실의 작은 조각"이라고 생각하시면 됩니다. 데이터를 정리하면 정보(Information)가 되고, 정보가 쌓이면 지식(Knowledge)이 됩니다. 영수증 한 장이 모여 매출 보고서가 되고, 매출 보고서가 쌓이면 "겨울에는 떡국, 여름에는 콩국수가 잘 팔린다"는 지식이 되는 식이지요.

02우리는 매일 데이터를 만들고 있습니다 — 알고 계셨나요?

"저는 데이터 다루는 사람 아닌데요" 하시는 분이 많습니다. 그런데 우리는 매일 데이터를 주르르 고 있습니다. 한국 사용자 기준 실제 수치를 보시지요.

일상 활동사용량만들어지는 데이터
카카오톡 보내기하루 51.4회 실행메시지·사진·통화 로그
유튜브 보기1인당 월 40시간시청 기록·재생 위치·취향
카드 결제분기 69억 건 승인 (전국)시간·장소·품목·결제수단
5G 데이터 통신1인당 월 29GB (영화 약 10편 분량)모든 인터넷 활동 로그
스마트워치 차고 있기한국인 33% 사용1초 단위 걸음수·심박수
사무실 출근전국 CCTV 190만 대24시간 영상 + 출입 카드 기록

"이것도 데이터구나" 깨닫음 3가지:안 눌러 것도 데이터입니다. 유튜브에서 3초 만에 넘긴 영상은 "이 사람은 이 주제 싫어함"으로 기록됩니다. ② 메타데이터가 진짜 데이터입니다. 카톡 내용을 안 봐도 "누가·언제·몇 분 동안 누구와 대화했는지"만으로 인간관계도가 그려집니다. ③ "사라진 줄 알았던" 데이터는 영구 보관됩니다. 카드사·통신사 약관에 7년~영구로 명시돼 있습니다.

03데이터의 3가지 종류 — 옷장 정리하듯 분류해봅시다

옷장을 정리하실 때 양복은 양복끼리, 티셔츠는 티셔츠끼리 거시지요. 데이터도 같습니다. 3가지로 나뉘니다.

종류한 줄 설명일상 예시
정형 데이터엑셀처럼 칸이 딜딜 맞는 깔끔한 데이터매출 장부, 직원 명단, 입출금 내역
반정형 데이터어느 정도 규칙은 있지만 칸이 안 들어가는 데이터이메일, 카톡 백업, 웹사이트 로그
비정형 데이터규칙 없는 자유 형태 데이터인스타 사진·영상, 회의 녹음, PDF 보고서

놀라운 사실 하나 — 전 세계 데이터의 약 80~90%가 비정형 데이터입니다. 사장님 회사를 떠올려 보세요. 엑셀에 깔끔히 정리된 매출 데이터(정형)는 의외로 적고, 이메일·회의록·고객 응대 녹음(비정형)이 압도적으로 많지요. 이게 정상입니다. 그래서 AI 시대에는 비정형 데이터를 잘 다루는 회사가 결국 이깁니다.

04데이터의 단위 — 노래 1곡, 영화 1편으로 외우세요

KB·MB·GB·TB 같은 단위는 외우려 하지 마시고 일상 사례로 기억하세요.

단위일상 사례
1 KB짧은 문자메시지 한 통, A4 한 페이지 한글 텍스트
1 MBMP3 노래 1곡 (약 3~5MB) · 스마트폰 사진 1장 (약 2~4MB)
1 GB풀HD 영화 1편 (약 1.5~4GB) · 사진 300장 · 노래 250공
1 TB4K 영화 약 250편 · 외장하드 1개

이 단위만 머리에 들어가면 충분합니다. 회사 클라우드 용량 계약서 보실 때, AI 도구가 "한 번에 100MB 입력 가능"이라고 적혀 있을 때 감을 잡으실 수 있습니다.

05AI 시대, 데이터가 왜 중요한가? — AI는 요리사, 데이터는 재료

여기까지가 기초였습니다. 이제 핵심 질문 — 왜 AI 시대에 데이터가 갑자기 중요해졌을까요? 한 마디로 답하면, AI는 요리사이고 데이터는 재료이기 때문입니다. 요리사가 아무리 손이 좋아도 냉장고에 썰은 재료만 있으면 맛있는 요리는 절대 못 만듭니다.

"데이터는 21세기의 새로운 석유다."

2006년 영국 수학자 클라이브 험비(Clive Humby)가 첫 쓴 이 말은 2017년 영국 이코노미스트가 표지 기사로 다루면서 전 세계에 퍼졌습니다. 핵심은 "원유처럼 데이터도 정제해야 가치가 생긴다"는 것이지요. 한국 기업 사례 셋만 보시지요.

  • 쿠팡 — 수천만 건 주문 데이터를 AI로 미리 예측해 고객이 주문하기 전에 상품을 가까운 물류센터로 옮깁니다. 그 결과가 익일·당일 배송입니다.
  • 당근마켓 — "동네 인증" 데이터와 사용자 행동 로그를 결합한 정교한 지역 광고로 창사 8년 만에 첫 흑자를 냈고, 지역 광고 매출만 월 100억 원을 돌파했습니다.
  • 네이버 하이퍼클로바X — 글로벌 AI보다 한국어 데이터를 6,500배 더 많이 학습시켜, 한국말은 챗GPT보다 잘하는 AI를 만들었습니다.

반대로 데이터를 잘못 다뤄 망한 사례도 있습니다. IBM은 암 진단 AI 'Watson for Oncology'를 만들 때 실제 환자 데이터가 아닌 의사 몇 명의 가상 케이스로 학습시켰다가 부적절한 치료를 추천하는 사고가 발생, 결국 약 40억 달러(약 5조 6천억 원)를 날렸습니다.

GIGO 원칙 — Garbage In, Garbage Out. 1957년 미국 육군 수학자가 만든 이 격언은 "쓰레기를 넣으면 쓰레기가 나온다"는 뜻입니다. ChatGPT나 Claude가 아무리 똑똑해도, 회사 안에 있는 데이터가 엉망이면(중복·오타·누락·편향) 답도 똑같이 엉망으로 나옵니다. 70년 전 원칙이지만, 생성형 AI 시대에 더 강력해졌습니다.

지금 한국 중소기업의 AI 도입률은 5.3%, 제조업은 1% 안팎입니다. 도입 못 하는 이유 1위는 비용(44.2%)이지만, 현장에서 들어보면 진짜 1위는 "우리 회사 데이터가 엉망이라 AI에 못 먹인다"입니다. 거창한 AI 솔루션 알아보시기 전에, 사장님 회사 고객명단·매출장부·재고 엑셀이 깨끗한지부터 점검하셔야 합니다.

06이번 주 5분 실천 — "내가 매일 만드는 데이터" 적어보기

오늘 마무리 전에 5분만 시간 내주세요. 종이 한 장 꺼내서 다음을 체크하시면 됩니다 (아래 항목을 클릭하면 체크표시됩니다).

  • 내가 오늘 카톡으로 보낸 메시지 수 (대략) 적어보기 — 그게 오늘 만든 텍스트 데이터입니다.
  • 내가 오늘 카드로 결제한 횟수와 합계 적어보기 — 그게 오늘 만든 거래 데이터입니다.
  • 회사에서 오늘 보낸 이메일 수와 화상회의 시간 적어보기 — 그게 회사의 자산입니다.
  • 우리 회사에서 가장 많이 쌓이고 있는 데이터 종류 1가지 적어보기 — 그것이 우리 회사 AI 1호 프로젝트 후보입니다.

적고 보시면 깜짝 놀라실 겁니다. 우리는 모르고 있었을 뿐, 매일 어마어마한 데이터를 만들고 있습니다. 그 데이터를 "쓰레기"로 둘 것인지 "자산"으로 키울 것인지가 AI 시대 회사의 경쟁력을 결정합니다.

오늘 한 가지만 기억하세요. 데이터는 가게 영수증 한 장, 해변의 발자국 한 개, 스마트폰 사진 한 장 같은 사실의 작은 조각입니다. 우리는 매일 카톡 51회·유튜브 40시간·5G 29GB·카드 결제 같은 형태로 데이터를 쌏아내고 있고, 그중 80~90%는 사진·녹음·이메일 같은 비정형 데이터입니다. AI는 좋은 요리사이지만, 좋은 재료(데이터) 없이는 어떤 마술도 부리지 못합니다. 거창한 AI 도구 알아보시기 전에, 우리 회사 데이터가 깨끗한지부터 점검하시기 바랍니다.

다음 강 — 우리 회사 데이터, 어디에 숨어 있나?

집 살림 인벤토리 만드는 마음으로, 회사 안 모든 데이터 종류를 찾아내는 가이드. 이메일·CCTV·CRM·POS·메신저·고객응대 녹음까지 새는 곳 없이 점검하고, 우리 회사 AI 1호 프로젝트 후보를 골라냅니다.

#데이터 리터러시#AI 데이터#데이터 기초#빅데이터#비정형 데이터#데이터 활용#김지백#사장님 가이드#AI 시리즈

자주 묻는 질문

Q. 회사에서 가장 먼저 모아야 할 데이터는 무엇인가요?
거창하게 시작하실 필요 없습니다. 고객 명단, 매출 장부, 재고 엑셀 이 세 가지가 가장 먼저입니다. 이 세 가지만 빠짐없이 정리돼 있어도 AI가 매출 예측, 고객 분석, 재고 최적화의 80%를 해줍니다. 한국 중소기업 대표분들과 상담해보면 이 셋 중 하나는 꼭 빠져 있거나 엉망입니다. 첫걸음은 이 세 가지 점검부터입니다.
Q. 비정형 데이터가 80%라고 하셨는데, 이걸 어떻게 다루나요?
비정형 데이터(사진·녹음·이메일·PDF)는 옷날에는 정말 다루기 힘들었지만, 지금은 ChatGPT·Claude 같은 생성형 AI가 직접 읽고 분석합니다. 예를 들어 회의 녹음을 클로바노트에 업로드하면 텍스트로 변환되고, 그 텍스트를 ChatGPT에 던지면 요약·핵심 결정사항·후속 액션이 나옵니다. 다음 시리즈에서 단계별로 다루겠습니다.
Q. 우리 회사는 작아서 데이터가 별로 없는데 그래도 의미 있나요?
오히려 작은 회사가 더 유리합니다. 데이터가 적으니 정리가 빠르고, 한두 사람만 마음먹으면 전사 표준을 만들 수 있습니다. 중요한 건 양이 아니라 질입니다. 정확한 고객 명단 1,000명이 부정확한 고객 명단 10만 명보다 백 배 가치 있습니다.
Q. 데이터를 너무 많이 모으면 오히려 부담이 되지 않나요?
정확한 지적이세요. 그래서 다음 강의에서 "필요한 데이터만 마트 장보기처럼 골라 담는 법"을 다룹니다. 데이터는 무조건 많이 모으는 것이 아니라, 목적이 분명한 것만 모으는 것이 정석입니다. 동의 없이 모은 데이터는 개인정보보호법 위반이 될 수도 있습니다.
Q. ChatGPT를 그냥 쓰면 안 되나요? 굳이 데이터를 따로 모아야 하나요?
일반적인 질문(글쓰기·번역·아이디어)은 ChatGPT가 회사 데이터 없이도 잘 답합니다. 그러나 '우리 회사 매출이 작년 대비 어떻게 변했나', '우리 고객 중 단골은 누구인가' 같이 우리 회사 사정을 알아야 하는 질문은 데이터 없이 답할 수 없습니다. AI를 '외부 컨설턴트'가 아닌 '사내 직원'으로 쓰시려면 회사 데이터가 필수입니다.
이 주제로 강의 문의

우리 조직에 맞는 AI 교육을
설계해드립니다.

위 자료의 내용을 기반으로 맞춤형 강의 커리큘럼을 구성해드립니다. 기업·공공기관·임원 대상 프로그램 모두 가능합니다.

강의 소개 보기강의 문의하기

조회수·다운로드 카운트 등 인터랙티브 기능은 자료실 인터랙티브 페이지에서 이용하실 수 있습니다.