에이전틱 코딩2026.05.25

자동화 에이전트, 무조건 답이 아니다 — AI 영상 자동제작 하루 실측기 (53분 → 35분, 그리고 외부 API)

📖 약 9분 분량 ✍️ 약 3,400자 🤖 에이전틱 코딩 · 실측 리포트
대표님, AI 에이전트에게 "영상 만들어"라고 시키면 정말 끝일까요? 오늘 저는 AI 에이전트로 유튜브 영상 3편을 처음부터 끝까지 자동 제작하면서, 그 흔한 착각이 왜 위험한지를 숫자로 확인했습니다. 그냥 돌렸더니 한 편에 53분, 에이전트는 중간에 295번이나 헤맸습니다. 거기서 로컬 자원(GPU·CPU·토큰)을 네 번 쥐어짠 끝에 35분까지 줄였지만 — 진짜 교훈은 시간 단축이 아니라 따로 있었습니다. "무료 로컬의 천장을 직접 확인하고, 비즈니스라면 가장 느린 병목에 외부 API로 투자하라"는 것입니다.

01결론부터 — 자동화는 '시작점'이지 '정답'이 아니다

비즈니스에서 AI 자동화를 도입할 때 가장 흔한 착각은 "에이전트에게 시키면 끝"이라는 생각입니다. 에이전틱 코딩으로 영상 제작을 통째로 맡겨보면, 이 생각의 빈틈이 곧바로 드러납니다. 핵심 메시지 세 가지를 먼저 던집니다.

  • ① 자동화는 출발점일 뿐이다. 그냥 돌리면 한 편에 53분, 에이전트는 295번 헤맸다.
  • ② '무료(로컬)'에는 숨은 비용이 있다. 느린 시간, 반복되는 시행착오, 그리고 결과물이 매번 흔들리는 일관성 붕괴.
  • ③ 비즈니스라면 '아끼기'가 아니라 'ROI'로 판단해야 한다. 가장 느린 한 곳에 투자하면 전체가 빨라진다.

이제 이 세 가지를 오늘 하루의 실측 과정으로 하나씩 증명하겠습니다.

02실험 — 영상 한 편을 통째로 자동화하다

작업 흐름은 이렇습니다: 대본 → 문장 분할 → 화면(키네틱 타이포 HTML) → 음성(TTS) → 영상 렌더 → 자막·SEO. 사람이 시킨 건 대본 한 편뿐, 나머지는 AI 에이전트 팀(기획·화면·음성/렌더·SEO)이 나눠 처리합니다.

첫 영상의 성적표는 약 53분이었습니다. 그리고 음성·렌더를 담당한 에이전트가 중간에 도구를 295번 호출하며 헤맸습니다 — 오류가 나면 다시 시도하고, 음성이 다 될 때까지 계속 확인하고…. 이 '헤맴'이 시간과 비용을 동시에 갉아먹었습니다. 자동화는 됐지만, 효율적이지는 않았던 겁니다.

03짚고 갈 개념 — '토큰'과 '컴퓨팅'은 다른 비용이다

여기서 많은 분이 헷갈립니다. "AI가 음성 만드느라 토큰을 많이 썼다"는 말은 절반만 맞습니다. 토큰과 컴퓨팅은 전혀 다른 비용이기 때문입니다.

구분무엇인가언제 늘어나나
토큰AI 에이전트(LLM)의 '생각·판단' 비용시행착오·재시도·반복 확인이 많을수록 ↑
컴퓨팅 (GPU·CPU·메모리)실제 음성 합성·영상 렌더링 처리무거운 작업을 비효율적으로 돌릴수록 ↑

정확히 말하면 "음성 생성이 토큰을 먹은 것"이 아니라, "음성을 잘못 돌려 에이전트가 헤매면서 토큰과 시간을 둘 다 먹은 것"입니다. 그래서 최적화의 1번 목표는 에이전트가 헤매지 않게 만드는 것이었습니다.

04로컬 자원을 네 번 쥐어짠 과정 — 53분이 35분으로

김지백 강사에 따르면 "에이전틱 코딩의 진짜 실력은 한 번에 잘 짜는 게 아니라, 병목을 데이터로 찾아 한 곳씩 풀어내는 반복에 있다"고 합니다. 오늘 네 번의 개선을 한 표로 먼저 정리하면 다음과 같습니다.

차수무엇을 했나효과
1차음성 23문장 한꺼번에 요청 · 렌더 2단계(초안→최종) · 반복 오류 5종 규칙화헤맴·토큰·시간 동시 절감
2차모든 글자에 색 명시 · 디자인을 '변수'로 정리재렌더 사고 사전 차단
3차음성(GPU)·화면(CPU) 병렬 · 렌더 일꾼 6→10명 · NVENC GPU 인코딩53분 → 35분
4차음성 서버 2개 시도 → VRAM 한계 확인로컬의 '천장'을 데이터로 확인

1차 — 헤맴을 줄였다 (토큰·시간 동시 절감)

  • 음성을 한꺼번에 요청: 예전엔 문장을 한 줄씩 "요청 → 끝날 때까지 기다림 → 다음 요청"으로 줄세웠습니다. 이걸 23문장을 한 번에 요청하도록 바꿔 대기 낭비를 없앴습니다.
  • 렌더를 '초안 → 최종' 2단계로: 확인용은 저화질로 빠르게, 진짜 최종만 고화질로 1번. 시행착오를 고화질로 반복하던 낭비를 제거했습니다.
  • 반복 오류 5종을 규칙으로 못박음: 한글 폰트가 흐리게 나오던 문제, 음성 태그가 렌더를 죽이던 문제 등 매번 다시 겪던 함정을 에이전트 설명서에 규칙으로 박아, 같은 실수를 두 번 안 하게 했습니다.

2차 — 재작업 자체를 예방했다

영상 글자가 검게 묻혀 안 보이는 사고가 났습니다. 원인은 글자색 지정 누락. 모든 글자에 색을 명시하고 디자인을 '변수'로 정리해, 애초에 이런 사고가 안 나도록 막았습니다. 재렌더는 곧 시간·비용 낭비라, 사후 수정보다 사전 차단이 훨씬 쌉니다.

3차 — CPU·GPU를 동시에 굴렸다

  • 음성과 화면을 동시 제작(병렬): 음성은 그래픽카드(GPU), 화면 디자인은 CPU/AI가 담당합니다. 서로 안 기다려도 되니 둘을 동시에 돌렸습니다. (예전엔 화면 다 만들고 음성 시작 = 순차)
  • 렌더 일꾼 6명 → 10명: 영상을 프레임 단위로 캡처하는 작업자를 늘렸습니다. 16코어 CPU인데 기본값이 6에 막혀 있던 걸 풀었습니다.
  • 영상 압축을 GPU 전용 엔진(NVENC)으로: CPU가 하던 압축을 그래픽카드 전용 인코더에 넘겨, CPU는 캡처에 집중하게 했습니다. → 최종 고화질 렌더가 단 2분.

4차 — 로컬의 '천장'을 직접 확인했다

가장 느린 단계는 음성 생성 17.6분이었습니다. 음성 서버를 2개로 늘려 봤더니, 그래픽카드 메모리(10GB)가 여유 30MB까지 꽉 차 서로 경합하며 오히려 느려졌습니다. 게임 런처 등 다른 프로그램을 꺼봐도 효과는 미미했습니다. 즉, 이건 내 PC 한 대의 물리적 한계였습니다. 중요한 건 — 무작정 외부로 간 게 아니라 로컬을 끝까지 쥐어짜 한계를 데이터로 확인한 뒤 결론을 내렸다는 점입니다.

05그래서 — 외부 API라는 선택지

음성 같은 작업은 클라우드 API(예: Typecast, ElevenLabs) 로 넘기면 내 PC의 물리적 한계를 통째로 우회합니다.

항목내 PC (로컬)외부 API (클라우드)
처리 위치내 그래픽카드 1대 (한 줄씩)클라우드 서버 (동시 처리)
음성 23문장약 17.6분1~2분
메모리 경합있음 (렌더와 충돌)없음 (GPU는 렌더 전용)
품질·일관성장비 상태에 따라 흔들림안정적·반복 일관

음성만 외부로 넘겨도 전체가 35분 → 약 15분으로 줄어들 것으로 추정됩니다(외부 API 수치는 Typecast API 스펙 기반 추정치입니다). 가장 느린 한 곳만 투자해도 전체가 빨라집니다.

📝 5분 체크포인트

본문을 잘 이해하셨는지 점검해보세요. 답을 고르고 [정답 확인]을 누르면 즉시 채점됩니다.

Q1. 에이전트가 영상 한 편에 295번이나 도구를 호출하며 헤맨 것은 주로 무엇을 늘렸나?

정답: C — 에이전트가 헤매면 '생각·판단' 비용인 토큰과 대기 시간이 동시에 늘어납니다. 그래서 최적화 1번 목표는 '헤매지 않게 만드는 것'이었습니다.

Q2. 53분을 35분으로 줄인 3차 개선의 핵심이 아닌 것은?

정답: B — 장비를 새로 사지 않고도, 갖고 있던 16코어 CPU와 GPU를 동시에·끝까지 굴려서 시간을 줄였습니다. 하드웨어 추가가 아니라 자원 활용 방식의 개선이었습니다.

Q3. 외부 API로 음성을 넘기는 판단의 기준으로 가장 맞는 것은?

정답: A — 영상 1편이면 무료 로컬로 충분하지만, 매주 수십 편을 반복 생산하는 비즈니스라면 절약된 시간 앞에서 API 비용은 푼돈입니다. '아끼기'가 아니라 'ROI'로 판단해야 합니다.

🎯 우리 회사 AI 자동화 준비도 체크

해당되는 항목을 모두 클릭해 체크하세요. 마지막에 [내 점수 보기]를 누르면 등급이 나옵니다.

  • AI 에이전트로 반복 작업을 자동화해 본 적 있다
  • 토큰 비용과 컴퓨팅(GPU·CPU) 비용을 구분할 수 있다
  • 작업의 '가장 느린 병목'이 어디인지 안다
  • 같은 실수를 규칙으로 박아 반복을 막아본 적 있다
  • 로컬과 외부 API의 장단점을 비교해 본 적 있다
  • 매주 반복·규모가 있는 콘텐츠 생산 니즈가 있다

'무료'가 가장 비쌀 수 있습니다. 실습·체험 단계라면 로컬 무료로 충분합니다 — 배우는 데 돈 들일 필요 없습니다. 하지만 비즈니스(반복·규모)라면 기준이 완전히 바뀝니다. 결과물은 품질이 좋고, 효율적이며, 매번 일정하게 반복 생산돼야 합니다. 그러려면 충분한 토큰 + 컴퓨터 용량(CPU·GPU·메모리) + 동시에 생산하는 시스템이 받쳐줘야 합니다. 투자는 '돈 쓰기'가 아니라 'ROI'입니다. 영상 1편이면 무료가 맞지만, 매주 10편 × 1년이면 외부 API 비용은 절약된 시간(수백 시간) 앞에서 푼돈입니다. 자동화 에이전트는 마법 버튼이 아니라 출발점입니다. 로컬 자원을 끝까지 최적화해 한계를 확인하고, 사업으로 키울 거라면 가장 느린 병목에 과감히 투자하세요. 비즈니스에서는 품질·효율·일관성이 곧 경쟁력입니다.

#에이전틱 코딩#AI 자동화#AI 영상 제작#AI 에이전트#로컬 vs API#토큰 컴퓨팅#ROI#김지백

자주 묻는 질문

Q. AI 자동화를 도입하면 바로 효율이 오르나요?
아닙니다. 처음 그냥 돌리면 한 편에 53분이 걸리고 에이전트가 수백 번 헤맵니다. 자동화는 출발점일 뿐, 병목을 찾아 반복 최적화해야 효율이 따라옵니다.
Q. 토큰 비용과 컴퓨팅 비용은 같은 건가요?
다릅니다. 토큰은 AI의 '생각·판단' 비용으로 시행착오가 많을수록 늘고, 컴퓨팅은 GPU·CPU가 실제 음성·영상을 처리하는 비용입니다. 에이전트가 헤매면 둘 다 늘어납니다.
Q. 음성 생성은 왜 가장 느린가요?
로컬 그래픽카드 한 대가 문장을 순차 처리하기 때문입니다. 실측에서 23문장 음성에 17.6분이 걸렸고, 서버를 2개로 늘리자 VRAM(10GB)이 여유 30MB까지 꽉 차 오히려 경합으로 느려졌습니다.
Q. 외부 API로 넘기면 항상 이득인가요?
반복·규모가 있는 비즈니스일 때 그렇습니다. 영상 1편이면 무료 로컬로 충분하지만, 매주 수십 편을 만든다면 절약된 시간 앞에서 API 비용은 푼돈입니다. ROI로 판단하세요.
Q. 로컬 무료로만 운영해도 되나요?
실습·체험 단계라면 충분합니다. 다만 비즈니스는 품질·효율·일관성이 경쟁력이라, 느린 시간·반복 시행착오·결과물 흔들림이라는 '무료의 숨은 비용'이 라이선스 비용보다 비싸질 수 있습니다.
이 주제로 강의 문의

우리 조직에 맞는 AI 교육을
설계해드립니다.

위 자료의 내용을 기반으로 맞춤형 강의 커리큘럼을 구성해드립니다. 기업·공공기관·임원 대상 프로그램 모두 가능합니다.

강의 소개 보기강의 문의하기

조회수·다운로드 카운트 등 인터랙티브 기능은 자료실 인터랙티브 페이지에서 이용하실 수 있습니다.