본문 바로가기

생성형 AI로 만든 영상에서 ‘음성 합성 비용’의 경비 처리 기준

📑 목차

    AI 음성 합성 비용은 사용 목적에 따라 경비 또는 자산으로 분류된다.

    TTS·커스텀 보이스 모델 제작·라이선스 비용의 세무 처리 기준을 2025년 기준으로 정리.

    생성형 AI로 만든 영상에서 ‘음성 합성 비용’의 경비 처리 기준

     

    AI 음성이 영상 제작의 핵심 프레임이 된 시대, 세법은 ‘누가 말했는지’보다 ‘어떤 권리를 샀는지’를 먼저 본다

    2025년 현재, 크리에이터·유튜버·강의 제작자·브랜딩 스튜디오는
    사람 목소리 대신 AI 합성 음성(AI Voice)을 거의 표준처럼 사용한다.

     

    특히 다음 도구들은 영상 제작의 핵심 인프라가 되었다.

    • ElevenLabs
    • HeyGen Voice
    • KITS.AI
    • Azure Neural Voice
    • Google Voice Studio
    • Custom Voice(고유 모델 튜닝)

    AI 음성은 더 이상 단순한 보조 기능이 아니다.
    이제는 영상의 스토리텔링·브랜딩·속도·일관성을 만들기 위한 핵심 자산이 되었고 영상 제작비에서 차지하는 비중도 매우 커졌다.

     

    문제는 AI 음성 비용이

    • 구독료(월 단위)
    • 사용량 기반(문자 수·음성 길이·API 토큰)
    • 커스텀 모델 제작비
    • 음성 라이선스 비용 등 다양하게 구성되면서

    세법이 이 비용을 단순 소프트웨어비로 보지 않고
    저작권·퍼포머 권리·콘텐츠 경비·무형자산 비용 등 여러 범주로 나누어 해석하고 있다는 점이다.

     

    특히 가장 큰 논쟁은 다음 질문이다.

    “AI 음성을 만든 비용은 경비인가, 아니면 자산화해야 하는가?”

     

    또는,

    “AI 음성 라이선스 비용을 전액 경비로 넣어도 되는가?”

     

    이 글에서는 2025년 최신 세무 해석과 실제 프리랜서·크리에이터 사례를 기준으로
    AI 음성 합성 비용의 경비 인정 기준을 정확하게 정리한다.


    세법이 AI 음성 합성을 바라보는 기본 원칙 — “음성은 창작물이 아니라 용역(서비스)이다”

    AI 합성 음성 비용을 해석할 때 세법은 음성을 크게 두 가지로 나누어 본다.


    ① “음성 생성 서비스(Voice Generation Service)” → 일반 경비

    텍스트를 입력하면 음성으로 반환하는 구조는 세법상 ‘디지털 용역’으로 분류된다.

    • TTS(Text-to-Speech)
    • 멀티 언어 더빙
    • 감정 조정 기능
    • 톤·속도 조절

    이 경우에는 음성 결과물이 파일로 만들어지더라도 용역 제공에 대한 대가이기 때문에
    일반적인 콘텐츠 제작 경비로 인정된다.


    ② “고유 보이스 모델(Custom Voice Model) 제작” → 자산 또는 장기비용

    AI 음성을 다음처럼 직접 훈련하여 만든 경우:

    • 내 목소리 복제(Voice Cloning)
    • 성우 기반 LORA 보이스
    • 장기적 콘텐츠 제작용 고유 보이스 모델
    • 기업용 브랜드 음성(Brand Voice)

    세법은 이를 무형자산 또는 개발비로 볼 가능성이 높다.

    왜냐하면 이 모델이 향후 지속적으로 콘텐츠를 생산하는 경제적 가치가 있는 엔진으로 기능하기 때문이다.

     

    즉,

    AI 음성을 ‘만드는 비용’은 자산, 음성을 ‘사용하는 비용’은 경비.

     

    이 원칙이 매우 중요하다.


    AI 음성 합성 비용의 경비 인정 기준 — 5단계 체크리스트

    세무사는 AI 음성 비용을 검토할 때 다음 5가지를 중심으로 판단한다.


    기준 1 — 음성이 “일회성 용역”인가?

    다음과 같은 형태라면 100% 경비 인정이 유력하다.

    • 영상 한 편에 필요한 더빙 작업
    • 월 구독형 TTS 서비스
    • API 기반 음성 요청
    • 단발성 프로젝트용 음성 생성

    즉, 음성이 반복 자산이 아니면 바로 비용 처리 가능.


    기준 2 — 커스텀 음성이 콘텐츠의 핵심인가?

    반복적인 시리즈 제작에 쓰이는 고유 음성이라면 세법은 이를 수익 창출 기반 자산으로 본다.

    예:

    • 채널 대표 AI 음성
    • 강의 브랜드 음성
    • 기업 브랜딩용 AI 나레이터

    이때는 비용 전액을 경비로 넣으면 위험하다.


    기준 3 — 음성 ‘모델’이 독립 경제적 가치를 가지는가?

    다음 조건 중 하나라도 충족하면 자산성 인정:

    • 모델 자체를 판매하거나 라이선스 판매 가능
    • 동일 모델로 여러 영상 제작
    • 외부 기업에게 제공
    • 크리에이터의 핵심 IP로 작동

    즉, 모델을 소유했다면 자산.


    기준 4 — 비용이 일정한가? vs 비정기적인가?

    정기 구독 → 경비
    대규모 맞춤형 제작비 → 자산


    기준 5 — 원천권리(저작권·음성권)가 누구에게 있는가?

    AI 음성을 제작하려면 음성권(퍼포머 권리)이 명확해야 한다.

    권리가 불명확하면 경비 불인정 가능성도 있다.


    음성 합성 비용의 유형별 세무 처리 — 6가지 상세 케이스

    각 상황별로 어떻게 처리하는지 정리해줄게.


    케이스 1 — 텍스트 입력 → AI 음성 출력 (가장 일반적인 TTS)

    - 처리: 전액 경비
    - 계정과목: 소프트웨어 사용료, 외주용역비, 콘텐츠 제작비가 가장 안전한 형태다.


    케이스 2 — 월 정액 기반 더빙 서비스 (예: HeyGen Voice Subscription)

    - 처리: 업무용 비율만큼 경비
    - 사적 사용 있으면 비율 배분 필요

    증빙이 있으면 전액 경비도 가능.

    케이스 3 — 커스텀 보이스 모델 제작(Cloning) 비용

    - 처리: 무형자산 / 개발비
    - 점진적 상각(5년~10년)

    세무상 가장 까다로운 유형.


    케이스 4 — 외부 성우 음성 기반 LORA 보이스 제작

    - 처리: 자산 인식 + 권리 계약 필수
    - 성우의 음성권 라이선스 필수
    - 라이선스 기간에 따라 상각

    이 경우 권리 구조가 명확하지 않으면 경비가 아닌 “사적 지출”로 판단될 수 있다.


    케이스 5 — API 기반 대량 더빙 비용

    - 처리: 전액 경비
    - 번역·더빙·요약 등 업무 목적이면 인정

    다만 사적 사용은 배분 필요.


    케이스 6 — 음성을 단순 ‘필터’처럼 사용하는 경우

    예: 기존 음성을 변조, 톤 조절
    - 처리: 콘텐츠 후처리 비용 → 전액 경비

    이 유형은 거의 문제 없다.


    세법이 AI 음성 비용을 인정하지 않는 경우 TOP 6

    다음과 같은 상황은 경비 부인이 발생할 수 있다.


    1) 음성권 라이선스가 없는 원본 파일로 모델을 만든 경우

    합성 결과 자체가 불법 활용이 되므로 경비 인정 불가.


    2) 개인용·업무용을 구분하지 않은 AI 구독

    특히 ChatGPT·HeyGen 개인계정 혼용은 매우 위험.


    3) 음성 모델 제작비를 단기 경비로 처리

    자산화 대상인데 비용 처리하면 경정 가능.


    4) 영상 제작과 무관한 음성 생성

    예: 게임용, 취미용, 개인 콘텐츠용


    5) 인플루언서 목소리를 무단으로 사용

    불법 자산이므로 비용 자체가 부정됨.


    6) 사용 로그·프로젝트 매칭 증빙 없음

    세무조사 시 가장 먼저 요청되는 부분.


    AI 음성 합성 비용의 “업무용 비율” 계산법

    AI 음성 도구는 개인·업무 혼합 사용이 잦아 세법은 비율 계산 방식을 요구할 수 있다.

    대표적인 방식:


    방식 1 — 음성 길이(초·분) 기준 비율

    업무 음성 800초, 전체 음성 1,000초
    업무 비율 80%


    방식 2 — 생성 횟수 기준

    업무 프로젝트 생성 30회, 전체 생성 50회
    업무 비율 60%


    방식 3 — 업무 영상 개수 기준

    업무 영상 더빙 12편, 전체 생성 20편
    업무 비율 60%


    가장 중요한 점은 사용 로그 기록(export 가능)이 필수라는 것.


    크리에이터가 반드시 해야 하는 실전 증빙 5가지

    경비 인정률을 높이려면 다음 자료를 반드시 남겨야 한다.


    1) 음성 생성 내역 로그

    API·앱 모두 다운로드 가능.

    2) 프로젝트별 사용 내역(영상 제목, 날짜)

    세무조사 시 거의 100% 요구되는 자료.

    3) 사용료 영수증·결제명세

    구독형·건별 구입 모두 필수.

    4) 음성권·저작권 라이선스 문서

    성우 기반 모델 제작 시 필수.

    5) 프로젝트 설명서

    어떤 영상에 사용했는지 문서로 남기면 비용 인정률이 급상승한다.


    결론 — AI 음성 비용은 “파일 비용”이 아니라 “권리 기반 서비스 비용”이다

    세법의 최종 결론은 다음과 같다.

    AI 음성을 ‘사용’하는 비용은 대부분 경비가 되고, AI 음성을 ‘만드는’ 비용은 자산이 된다.

     

    그리고, AI 음성 합성이 콘텐츠의 핵심이면 세무서는 그 비용의 성격을 더 엄격히 본다.

     

    즉,

    • 더빙용 음성 → 경비
    • 커스텀 보이스 모델 → 자산
    • 개인·업무 혼용 → 배분
    • 권리 없는 음성 → 경비 부인

    이 구조를 이해하면 AI 영상 제작자의 세무 리스크는 크게 줄어든다.