데이터가 도대체 뭐인가요? — AI 데이터 기본 1강

01데이터가 도대체 뭐인가요? — 영수증 한 장, 발자국 한 개
데이터(Data)는 어렵게 정의하면 "관찰·측정·기록한 사실의 조각"입니다. 어렵지요? 쉽게 비유로 풀어드리겠습니다.
- 가게 영수증 한 장은 데이터입니다. 한 장만 보면 별 의미 없지만 한 달치를 모으면 "어떤 메뉴가 잘 팔리는지" 보입니다.
- 해변의 발자국 한 개도 데이터입니다. 한 사람의 발자국에서 키·몸무게·방향이 추정됩니다.
- 스마트폰 사진 한 장도 데이터입니다. 사진에 찍힌 시간·장소·기기 정보가 같이 저장됩니다.
데이터는 "기록된 사실의 작은 조각"이라고 생각하시면 됩니다. 데이터를 정리하면 정보(Information)가 되고, 정보가 쌓이면 지식(Knowledge)이 됩니다. 영수증 한 장이 모여 매출 보고서가 되고, 매출 보고서가 쌓이면 "겨울에는 떡국, 여름에는 콩국수가 잘 팔린다"는 지식이 되는 식이지요.
02우리는 매일 데이터를 만들고 있습니다 — 알고 계셨나요?
"저는 데이터 다루는 사람 아닌데요" 하시는 분이 많습니다. 그런데 우리는 매일 데이터를 주르르 고 있습니다. 한국 사용자 기준 실제 수치를 보시지요.
| 일상 활동 | 사용량 | 만들어지는 데이터 |
|---|---|---|
| 카카오톡 보내기 | 하루 51.4회 실행 | 메시지·사진·통화 로그 |
| 유튜브 보기 | 1인당 월 40시간 | 시청 기록·재생 위치·취향 |
| 카드 결제 | 분기 69억 건 승인 (전국) | 시간·장소·품목·결제수단 |
| 5G 데이터 통신 | 1인당 월 29GB (영화 약 10편 분량) | 모든 인터넷 활동 로그 |
| 스마트워치 차고 있기 | 한국인 33% 사용 | 1초 단위 걸음수·심박수 |
| 사무실 출근 | 전국 CCTV 190만 대 | 24시간 영상 + 출입 카드 기록 |
"이것도 데이터구나" 깨닫음 3가지: ① 안 눌러 것도 데이터입니다. 유튜브에서 3초 만에 넘긴 영상은 "이 사람은 이 주제 싫어함"으로 기록됩니다. ② 메타데이터가 진짜 데이터입니다. 카톡 내용을 안 봐도 "누가·언제·몇 분 동안 누구와 대화했는지"만으로 인간관계도가 그려집니다. ③ "사라진 줄 알았던" 데이터는 영구 보관됩니다. 카드사·통신사 약관에 7년~영구로 명시돼 있습니다.
03데이터의 3가지 종류 — 옷장 정리하듯 분류해봅시다
옷장을 정리하실 때 양복은 양복끼리, 티셔츠는 티셔츠끼리 거시지요. 데이터도 같습니다. 3가지로 나뉘니다.
| 종류 | 한 줄 설명 | 일상 예시 |
|---|---|---|
| 정형 데이터 | 엑셀처럼 칸이 딜딜 맞는 깔끔한 데이터 | 매출 장부, 직원 명단, 입출금 내역 |
| 반정형 데이터 | 어느 정도 규칙은 있지만 칸이 안 들어가는 데이터 | 이메일, 카톡 백업, 웹사이트 로그 |
| 비정형 데이터 | 규칙 없는 자유 형태 데이터 | 인스타 사진·영상, 회의 녹음, PDF 보고서 |
놀라운 사실 하나 — 전 세계 데이터의 약 80~90%가 비정형 데이터입니다. 사장님 회사를 떠올려 보세요. 엑셀에 깔끔히 정리된 매출 데이터(정형)는 의외로 적고, 이메일·회의록·고객 응대 녹음(비정형)이 압도적으로 많지요. 이게 정상입니다. 그래서 AI 시대에는 비정형 데이터를 잘 다루는 회사가 결국 이깁니다.
04데이터의 단위 — 노래 1곡, 영화 1편으로 외우세요
KB·MB·GB·TB 같은 단위는 외우려 하지 마시고 일상 사례로 기억하세요.
| 단위 | 일상 사례 |
|---|---|
| 1 KB | 짧은 문자메시지 한 통, A4 한 페이지 한글 텍스트 |
| 1 MB | MP3 노래 1곡 (약 3~5MB) · 스마트폰 사진 1장 (약 2~4MB) |
| 1 GB | 풀HD 영화 1편 (약 1.5~4GB) · 사진 300장 · 노래 250공 |
| 1 TB | 4K 영화 약 250편 · 외장하드 1개 |
이 단위만 머리에 들어가면 충분합니다. 회사 클라우드 용량 계약서 보실 때, AI 도구가 "한 번에 100MB 입력 가능"이라고 적혀 있을 때 감을 잡으실 수 있습니다.
05AI 시대, 데이터가 왜 중요한가? — AI는 요리사, 데이터는 재료
여기까지가 기초였습니다. 이제 핵심 질문 — 왜 AI 시대에 데이터가 갑자기 중요해졌을까요? 한 마디로 답하면, AI는 요리사이고 데이터는 재료이기 때문입니다. 요리사가 아무리 손이 좋아도 냉장고에 썰은 재료만 있으면 맛있는 요리는 절대 못 만듭니다.
"데이터는 21세기의 새로운 석유다."
2006년 영국 수학자 클라이브 험비(Clive Humby)가 첫 쓴 이 말은 2017년 영국 이코노미스트가 표지 기사로 다루면서 전 세계에 퍼졌습니다. 핵심은 "원유처럼 데이터도 정제해야 가치가 생긴다"는 것이지요. 한국 기업 사례 셋만 보시지요.
- 쿠팡 — 수천만 건 주문 데이터를 AI로 미리 예측해 고객이 주문하기 전에 상품을 가까운 물류센터로 옮깁니다. 그 결과가 익일·당일 배송입니다.
- 당근마켓 — "동네 인증" 데이터와 사용자 행동 로그를 결합한 정교한 지역 광고로 창사 8년 만에 첫 흑자를 냈고, 지역 광고 매출만 월 100억 원을 돌파했습니다.
- 네이버 하이퍼클로바X — 글로벌 AI보다 한국어 데이터를 6,500배 더 많이 학습시켜, 한국말은 챗GPT보다 잘하는 AI를 만들었습니다.
반대로 데이터를 잘못 다뤄 망한 사례도 있습니다. IBM은 암 진단 AI 'Watson for Oncology'를 만들 때 실제 환자 데이터가 아닌 의사 몇 명의 가상 케이스로 학습시켰다가 부적절한 치료를 추천하는 사고가 발생, 결국 약 40억 달러(약 5조 6천억 원)를 날렸습니다.
GIGO 원칙 — Garbage In, Garbage Out. 1957년 미국 육군 수학자가 만든 이 격언은 "쓰레기를 넣으면 쓰레기가 나온다"는 뜻입니다. ChatGPT나 Claude가 아무리 똑똑해도, 회사 안에 있는 데이터가 엉망이면(중복·오타·누락·편향) 답도 똑같이 엉망으로 나옵니다. 70년 전 원칙이지만, 생성형 AI 시대에 더 강력해졌습니다.
지금 한국 중소기업의 AI 도입률은 5.3%, 제조업은 1% 안팎입니다. 도입 못 하는 이유 1위는 비용(44.2%)이지만, 현장에서 들어보면 진짜 1위는 "우리 회사 데이터가 엉망이라 AI에 못 먹인다"입니다. 거창한 AI 솔루션 알아보시기 전에, 사장님 회사 고객명단·매출장부·재고 엑셀이 깨끗한지부터 점검하셔야 합니다.
06이번 주 5분 실천 — "내가 매일 만드는 데이터" 적어보기
오늘 마무리 전에 5분만 시간 내주세요. 종이 한 장 꺼내서 다음을 체크하시면 됩니다 (아래 항목을 클릭하면 체크표시됩니다).
- 내가 오늘 카톡으로 보낸 메시지 수 (대략) 적어보기 — 그게 오늘 만든 텍스트 데이터입니다.
- 내가 오늘 카드로 결제한 횟수와 합계 적어보기 — 그게 오늘 만든 거래 데이터입니다.
- 회사에서 오늘 보낸 이메일 수와 화상회의 시간 적어보기 — 그게 회사의 자산입니다.
- 우리 회사에서 가장 많이 쌓이고 있는 데이터 종류 1가지 적어보기 — 그것이 우리 회사 AI 1호 프로젝트 후보입니다.
적고 보시면 깜짝 놀라실 겁니다. 우리는 모르고 있었을 뿐, 매일 어마어마한 데이터를 만들고 있습니다. 그 데이터를 "쓰레기"로 둘 것인지 "자산"으로 키울 것인지가 AI 시대 회사의 경쟁력을 결정합니다.
오늘 한 가지만 기억하세요. 데이터는 가게 영수증 한 장, 해변의 발자국 한 개, 스마트폰 사진 한 장 같은 사실의 작은 조각입니다. 우리는 매일 카톡 51회·유튜브 40시간·5G 29GB·카드 결제 같은 형태로 데이터를 쌏아내고 있고, 그중 80~90%는 사진·녹음·이메일 같은 비정형 데이터입니다. AI는 좋은 요리사이지만, 좋은 재료(데이터) 없이는 어떤 마술도 부리지 못합니다. 거창한 AI 도구 알아보시기 전에, 우리 회사 데이터가 깨끗한지부터 점검하시기 바랍니다.
자주 묻는 질문
우리 조직에 맞는 AI 교육을
설계해드립니다.
위 자료의 내용을 기반으로 맞춤형 강의 커리큘럼을 구성해드립니다. 기업·공공기관·임원 대상 프로그램 모두 가능합니다.
조회수·다운로드 카운트 등 인터랙티브 기능은 자료실 인터랙티브 페이지에서 이용하실 수 있습니다.