지식파일은 몇 개까지 올릴 수 있나요?

서비스마다 다릅니다. ChatGPT GPTs는 한 GPT당 20개까지(파일당 약 512MB 제한), Claude 프로젝트는 200K 토큰의 컨텍스트 한도 안에서, Gemini Gem도 자체 제한이 있습니다. 다만 '많이 = 좋다'가 아닙니다. 핵심 가이드 1~3개로 시작하는 게 정답률이 더 높습니다.

지식파일에 올린 내용이 모델 학습에 쓰이나요?

주요 유료 플랜은 대체로 '학습에 쓰지 않음'을 약관에 명시합니다. 하지만 정책은 자주 바뀌고 무료 플랜은 다를 수 있습니다. 회사 기밀이라면 올리기 전에 그 시점의 약관과 기업 정책을 반드시 확인하세요.

RAG와 파인튜닝은 뭐가 다른가요?

RAG는 '답할 때마다 자료에서 찾아 보고 답하는' 방식이고, 파인튜닝은 '모델 자체를 우리 자료로 다시 훈련시키는' 방식입니다. 노코드로 가능한 건 RAG입니다. 파인튜닝은 개발·비용이 크고, 자료가 바뀌면 다시 훈련해야 해 작은 조직에서는 RAG가 훨씬 실용적입니다.

스캔본 PDF도 잘 동작하나요?

이미지 PDF는 글자 인식(OCR)이 필요한데, 일부 서비스는 자동 OCR이 약합니다. 가능하면 워드·구글 닥스에서 직접 PDF로 내보낸 텍스트형 PDF를 권합니다. 꼭 스캔본을 써야 한다면 OCR을 거쳐 텍스트 PDF로 만든 뒤 올리세요.

표나 그림은 어떻게 정리해야 하나요?

표·그림은 RAG가 약합니다. 표 위에 '다음 표는 직급별 연차일수 안내'처럼 자연어 한 줄을 캡션으로 달아 두면 봇이 그 줄을 보고 답합니다. 중요한 표 내용은 표 아래에 '주요 사항: 부장 25일, 차장 22일…' 식으로 자연어로 한 번 더 풀어 적는 것이 가장 안전합니다.

지식파일을 넣었는데도 봇이 옛 정보를 말해요. 왜죠?

두 가지 가능성입니다. 첫째, 지시문에 '이 파일을 최우선 참고, 자료에 없으면 모른다고 답한다'를 명시하지 않았을 때입니다. 둘째, 같은 항목에 대해 파일에 옛 버전과 새 버전이 같이 들어 있을 때입니다. 옛 PDF는 지우고 'v2026-05' 같은 버전 표기를 파일명·문서 첫 줄에 박아 두세요.

지식파일·노코드 RAG | 우리 회사 자료로만 답하는 GPT 만들기 — AI 심화 7강

AI 다음 걸음(심화) 시리즈 · 7강

내 자료로만 답하게 — 지식파일과 노코드 RAG 입문

6강에서 '나만의 GPT'를 만들었습니다. 그런데 진짜 강점은 따로 있어요. PDF·계약서·매뉴얼 같은 우리 자료를 봉투에 넣으면, AI가 그 자료를 우선 참고해서 답하기 시작합니다. 외부 정보가 아니라 '내 자료'로 답하는 봇. 개발자들이 'RAG(검색 보강 생성)'라 부르는 그 기능을, 코드 한 줄 없이 만들어 봅니다.

⏱ 약 15분 분량 ✍ 약 7,300자 🎯 6강 수료 후 · 사내 자료 활용

핵심 한 줄 — '지식파일'은 GPT가 답하기 전에 먼저 들춰 보는 참고서입니다. 우리 회사 가이드·FAQ·매뉴얼 PDF를 올려 두면, AI가 그 안에서 근거를 찾아 답하기 시작합니다. 이게 'RAG(검색 보강 생성)'의 노코드 버전이고, 코드 없이도 '우리 회사 자료로만 답하는 봇'을 만드는 가장 빠른 길입니다.

📚

이 강에서 얻어 갈 것

PDF 몇 장만 올려서 '우리 회사 자료로만 답하는 AI'를 만드는 법과, 인용·환각·기밀 측면에서 꼭 알아야 할 한계.

왜 '내 자료'가 중요한가

일반 ChatGPT나 Claude에게 "우리 회사 환불 규정 알려줘" 하면, AI는 자기가 학습한 일반적인 환불 통념으로 답합니다. 우리 회사 규정과 다를 가능성이 큽니다.

회의록 요약, 사내 정책 안내, 고객 응대 — 일이 우리 조직의 구체적인 문서에 매여 있을수록 일반 AI의 한계가 분명해집니다.

⚡

현실의 문제

우리가 답을 받고 싶은 질문의 70% 이상은 '우리 회사에선 이걸 어떻게 해?' 같은 내부 맥락 질문입니다. 일반 AI는 이걸 모릅니다.

해결책 하나는 매번 대화창에 PDF를 끌어다 놓는 겁니다. 하지만 매 대화마다 같은 파일을 다시 올리는 건 너무 번거롭죠.

훨씬 영리한 방법은 그 자료를 GPT 봉투에 처음부터 넣어 두는 것입니다. 이게 6강에서 잠깐 언급한 '지식파일' 기능이에요.

지식파일은 GPT가 답하기 전에 먼저 들춰 보는 책장입니다. 책장이 비어 있으면 AI는 자기 머리(학습 데이터)로만 답하지만, 책장에 우리 가이드를 꽂아 두면 그걸 먼저 들춰 보고 답합니다. 매번 같은 책을 들고 다니지 않아도 되는 거예요.

사내 AI 도입에서 가장 큰 차이는 모델이 아니라 '우리 자료를 얼마나 잘 물려 줬는가'에서 갈립니다. 같은 모델이라도 자료가 좋으면 정답률이 확 올라갑니다.

김지백 강사 · 한국경영교육연구소

RAG가 뭔가 — 한 단어로

개발자들 사이에서 'RAG'라는 약자를 자주 듣습니다. Retrieval-Augmented Generation, 우리말로 풀면 '검색 보강 생성'입니다.

이름만 어렵지 발상은 단순합니다.

🔎

RAG의 핵심

AI가 답을 만들기 직전에 우리가 준 자료에서 관련된 부분을 검색해서, 그 내용을 함께 보고 답하는 방식.

일반 AI는 학습 때 외운 지식만 갖고 답합니다. 그래서 새로운 정보나 우리 회사 내부 문서는 모릅니다.

RAG를 쓰면, 질문이 들어올 때마다 그때그때 우리 자료에서 관련 단락을 찾아 모델에 같이 보여 줍니다. 모델은 그걸 보고 답을 만들죠. 그래서 '검색해서 보강한다'는 이름이 붙었습니다.

사용자 질문

"우리 회사 환불 규정 알려줘"

자료 검색

지식파일에서 '환불' 관련 단락을 찾아냄

함께 보여 주기

모델에게 '이 단락을 보고 답해'라고 같이 전달

답 생성

모델이 그 단락을 근거로 우리 회사 규정대로 답함

왜 '코드 한 줄 안 쓰고도' RAG가 되나 — ChatGPT GPTs·Claude 프로젝트·Gemini Gem은 이 1~3단계를 자동으로 처리합니다. 우리는 그냥 파일만 끌어다 놓으면, 다음부터 질문이 올 때마다 서비스가 알아서 검색해 모델에 붙여 줍니다.

어떤 파일이 들어가고, 어떤 파일은 빠져야 하나

지식파일은 아무거나 넣는다고 잘 동작하지 않습니다. 좋은 자료와 나쁜 자료의 차이가 크죠.

✅ 잘 동작

구조가 있는 문서 — 회사 가이드, 정책 문서, FAQ, 매뉴얼, 제품 사양서.

제목·소제목이 분명하고, 한 단락이 한 주제만 다루는 문서.

❌ 잘 안 동작

스캔본 이미지 PDF — 글자를 인식 못 할 수 있음.

한 PDF에 여러 주제가 뒤섞인 잡학 모음. 표·그림 위주 자료.

구조가 있어야 잘 동작하는 이유는, RAG가 '관련 단락'을 찾아내는 방식이기 때문입니다. 한 단락이 한 주제만 다뤄야 검색이 정확해지죠.

📝

파일 손질의 첫걸음

PDF를 올리기 전에 제목·소제목을 분명히 달고, 한 단락 = 한 주제로 정리하기. 이 한 가지만 해도 정답률이 눈에 띄게 올라갑니다.

꼭 빼야 할 파일

개인정보가 든 명단 — 직원 주민번호, 고객 연락처, 결제정보 (서비스 정책 위반·법 위반 위험)
비밀유지계약(NDA) 대상 자료 — 외부 유출 금지인 계약서·고객 정보
모델 학습 동의 받지 않은 데이터 — 제3자 저작물·개인 사진
오래된 옛 정책 — 현행과 다른 규정 (혼동 일으킴)

중요 — 일부 서비스는 지식파일을 모델 개선에 쓰지 않겠다고 명시하지만(예: 일부 유료 플랜), 정책은 자주 바뀝니다. 회사 기밀이라면 올리기 전에 그 시점의 약관·기업 정책을 반드시 확인하세요. 기초 7강 '개인정보·보안' 원칙을 따르는 게 안전합니다.

실전 — '우리 회사 FAQ 봇' 만들기

가장 만들기 쉽고 가장 자주 쓰이는 GPT가 'FAQ 봇'입니다. 신입사원이나 고객이 자주 묻는 질문에 대해 우리 회사 자료대로 답하는 봇이죠.

6강에서 만든 마케팅 카피 봇과 같은 흐름이지만, 이번엔 지식파일이 주인공입니다.

FAQ 정리

사내 위키·이메일에 흩어진 답을 한 문서로 모은다.

제목·구조 다듬기

"질문 · 한 줄 요약 · 자세한 답 · 관련 링크" 형식으로 통일.

PDF로 저장

워드·구글 닥스에서 PDF로 내보내기. 파일명은 'FAQ_v2026-05.pdf' 식으로.

GPT 만들기 + 업로드

6강 절차대로 GPT를 만들고, 지식파일에 이 PDF를 올린다.

테스트 → 개선

실제 FAQ 질문 5개를 던져 보고, 틀리면 지시문이나 PDF를 손본다.

핵심은 4단계 다음의 '지시문'입니다. 지식파일만 올린다고 봇이 그 자료를 우선해 보진 않거든요. "이 파일을 최우선으로 참고하라"고 명시해 줘야 일관됩니다.

# 역할
너는 [회사명]의 사내 FAQ 응대 봇이다.
신입사원·동료가 묻는 질문에 답한다.

# 자료 우선순위 (가장 중요)
- 첨부된 [FAQ_v2026-05.pdf]를 가장 먼저 참고한다.
- 파일에 답이 있으면 그대로 인용하고, 파일의 항목 번호나 제목을 함께 적는다.
- 파일에 답이 없으면 "이 부분은 자료에 없습니다. 인사팀(내선 5678)에 문의하세요"라고 답한다.
- 자료에 없는 내용을 추측해서 답하지 않는다.

# 답 형식
- 답 첫 줄: 한 줄 요약 (질문에 대한 즉답)
- 다음: 자세한 설명
- 마지막: 출처 [FAQ_v2026-05.pdf, 항목 N번]

# 첫 응대
사용자가 질문하면, 질문이 모호한 경우(예: "휴가 어떻게 써?")
어떤 종류의 휴가인지 한 번 더 물어 본 뒤 답한다.

이 지시문에서 가장 중요한 건 "자료에 답이 없으면 추측하지 말고 인사팀에 문의하라고 답한다"는 한 줄입니다. 이게 없으면 봇이 모르는 부분을 그럴싸하게 지어 냅니다.

RAG의 80%는 '모를 땐 모른다고 말하게' 만드는 일입니다. 이 한 줄이 봇의 신뢰도를 좌우합니다.

김지백 강사 · 한국경영교육연구소

좋은 지식파일의 4가지 조건

같은 PDF라도 어떻게 정리하느냐에 따라 봇의 정답률이 크게 달라집니다.

한 주제 한 단락

두 주제가 한 단락에 섞이면 검색이 부정확해집니다.

제목이 분명

소제목이 질문의 키워드와 일치하면 검색 정확도가 확 올라갑니다.

날짜 표기

"v2026-05" 같은 버전을 파일명·문서 첫 줄에 박아 둡니다.

표는 표 캡션

표는 검색이 약합니다. 표 위에 한 줄 설명문을 꼭 답니다.

특히 4번 — 표 캡션 — 이 놓치기 쉬운 포인트입니다. RAG는 표 안의 셀 하나하나를 잘 찾아내지 못합니다. "다음 표는 직급별 연차일수 안내"처럼 자연어 한 줄을 표 바로 위에 적어 두면 봇이 그 줄을 보고 답합니다.

실전 팁 — FAQ를 만들 때 한 항목씩 "질문 (Q) · 답 (A)" 형식으로 적으면 그 자체로 RAG에 최적화됩니다. 항목 번호를 붙이고, 항목마다 비워 둔 줄로 끊어 주세요. 검색이 단락 단위로 일어나기 때문입니다.

한계 — 지식파일은 마법이 아니다

지식파일은 강력하지만 만능은 아닙니다. 도입 전에 꼭 알아야 할 한계 세 가지입니다.

한계 1 — 파일에 있어도 100% 인용하지 않는다

모델이 파일에서 단락을 가져왔다고 해도, 답을 만들 때 그 표현을 그대로 쓰지 않을 수 있습니다. 비슷하지만 살짝 다른 표현으로 바뀌어 나오는 경우가 있죠.

그래서 중요한 수치·금액·일자는 봇 답을 그대로 믿으면 안 됩니다. 봇이 인용한 항목 번호를 따라 원본 파일을 한 번 더 확인하는 절차가 필요합니다.

한계 2 — 환각이 줄어들 뿐 사라지진 않는다

지식파일을 잘 넣으면 환각이 분명히 줄어듭니다. 하지만 0이 되진 않습니다. 모델은 여전히 자기 학습 데이터로 답을 보강하려는 본능이 있고, 자료에 없는 부분도 그럴싸하게 지어 낼 수 있습니다.

❌ 위험

"우리 회사 환불 규정은 30일 이내, 영수증 필수, 본사 발송 후 7영업일 내 환불."

→ 자료엔 30일·영수증 얘기까지만 있는데, 봇이 7영업일을 지어 냈을 수 있음.

✅ 안전

"우리 회사 환불 규정 — 30일 이내, 영수증 필수 [FAQ_v2026-05.pdf, 항목 12]. 처리 기간은 자료에 없어 인사팀(내선 5678)에 문의하세요."

한계 3 — 파일이 오래되면 함께 노화한다

지식파일은 자동으로 업데이트되지 않습니다. 회사 정책이 바뀌면 PDF를 다시 만들어 봇에 다시 올려야 합니다.

그래서 운영자가 누구인지 정해 두는 게 중요합니다. '분기마다 갱신한다' 같은 주기를 정해 두지 않으면, 6개월 뒤 봇이 옛 정책으로 답하기 시작합니다.

꼭 기억 — 봇이 똑똑해 보일수록 사용자는 답을 곧이곧대로 믿습니다. 그래서 운영자는 봇이 인용한 출처를 정기적으로 점검해야 합니다. '봇이 답한 내용 = 곧 정답'으로 굳어지면 잘못된 답이 표준이 됩니다.

오늘 만들 FAQ 봇 — 시작 체크리스트

이번 강을 다 읽었다면, 다음 1시간 안에 사내 FAQ 봇 1개를 만들어 두시길 권합니다. 가장 자주 받는 질문 10~20개부터.

지식파일 봇 시작 체크리스트

사내·고객에게 자주 받는 질문 10~20개를 적어 본다.
각 질문에 한 줄 요약 + 자세한 답 + 관련 링크를 정리한다.
한 단락 = 한 주제로 끊고, 항목마다 번호를 붙인다.
워드·구글 닥스에서 PDF로 내보낸다. 파일명에 버전(예: v2026-05)을 박는다.
6강에서 만든 흐름대로 GPT를 새로 만들고, 지식파일에 PDF를 올린다.
지시문에 "이 파일을 최우선 참고, 자료에 없으면 모른다고 답한다"를 명시한다.
실제 FAQ 질문 5개로 테스트하고, 틀리면 지시문이나 PDF를 손본다.
분기마다 갱신할 담당자와 날짜를 정해 둔다.

지식파일은 1주차에 만들고 12주 동안 다듬는 게 정석입니다. 처음부터 완벽할 필요 없습니다. 매주 한 항목씩 고쳐 가면, 3개월 뒤엔 팀 전체가 가장 자주 쓰는 도구가 됩니다.

김지백 강사 · 한국경영교육연구소

다음 8강에서는 오늘 만든 FAQ 봇을 팀 전체가 함께 쓰는 자산으로 발전시킵니다. 프롬프트 라이브러리, 공유 GPT 운영, 팀 요금제, 누가 만들고 누가 검토할지 — 거버넌스까지 정리합니다.

다음 강 — 팀과 공유하는 AI 자산

오늘 만든 FAQ 봇과 6강 마케팅 카피 봇을, 어떻게 팀 전체가 같은 결과를 내며 쓰게 만들까. 프롬프트 라이브러리·공유 GPT·Team 요금제·운영 거버넌스까지 정리합니다.

AI 심화 시리즈 전체 보기

[심화 7강] 지식파일로 내 자료만 답하는 GPT — 노코드 RAG 입문

내 자료로만 답하게 — 지식파일과 노코드 RAG 입문

왜 '내 자료'가 중요한가

RAG가 뭔가 — 한 단어로

어떤 파일이 들어가고, 어떤 파일은 빠져야 하나

꼭 빼야 할 파일

실전 — '우리 회사 FAQ 봇' 만들기

좋은 지식파일의 4가지 조건

한계 — 지식파일은 마법이 아니다

한계 1 — 파일에 있어도 100% 인용하지 않는다

한계 2 — 환각이 줄어들 뿐 사라지진 않는다

한계 3 — 파일이 오래되면 함께 노화한다

오늘 만들 FAQ 봇 — 시작 체크리스트

지식파일 봇 시작 체크리스트

다음 강 — 팀과 공유하는 AI 자산

자주 묻는 질문

주간 AI 실무 레터

우리 조직에 맞는 AI 교육을
설계해드립니다.

[심화 7강] 지식파일로 내 자료만 답하는 GPT — 노코드 RAG 입문

왜 '내 자료'가 중요한가

RAG가 뭔가 — 한 단어로

어떤 파일이 들어가고, 어떤 파일은 빠져야 하나

꼭 빼야 할 파일

실전 — '우리 회사 FAQ 봇' 만들기

좋은 지식파일의 4가지 조건

한계 — 지식파일은 마법이 아니다

한계 1 — 파일에 있어도 100% 인용하지 않는다

한계 2 — 환각이 줄어들 뿐 사라지진 않는다

한계 3 — 파일이 오래되면 함께 노화한다

오늘 만들 FAQ 봇 — 시작 체크리스트

지식파일 봇 시작 체크리스트

다음 강 — 팀과 공유하는 AI 자산

자주 묻는 질문

주간 AI 실무 레터

우리 조직에 맞는 AI 교육을설계해드립니다.

우리 조직에 맞는 AI 교육을
설계해드립니다.