박지민 36kr Korea 대표

중국 인공지능 경쟁의 중심이 챗봇에서 영상으로 이동하고 있다. 그 중심에 중국의 틱톡 운영사 바이트댄스(字节跳动)가 내놓은 생성형 인공지능 모델 '시댄스(Seedance) 2.0'이 있다. 사용자는 시댄스에 상세한 프롬프트를 입력하거나 이미지 한 장을 업로드하는 것만으로도 60초 이내의 오디오가 포함된 영상을 생성할 수 있다.

지금까지 생성형 영상 인공지능은 놀랍지만 불안정했다. 인물의 손이 무너지거나 컷이 바뀌면 얼굴이 달라지고, 입 모양과 음성이 어긋나는 일이 잦았다. 이를 사용하는 기업 입장에서는 재미있는 실험일 수는 있어도 실제 제작 공정에 생성형 인공지능을 포함하기 어려웠다. 시댄스의 경우, 품질, 제어성, 속도, 가격 등이 동시에 개선됐다.

특히 시댄스 2.0 사용 가격이야말로 '쇼크' 수준이다. 시댄스 기업용 가격(편집형 기준)은 100만 토큰당 약 4.1달러, 순수 생성형 기준 약 6.7달러이다. 15초 영상 한 편의 생성비는 약 2.2달러, 초당 약 0.15달러 수준에 불과하다.

100만 토큰당 4.1달러 가격 구조를 만들어낸 비결에 시댄스의 진짜 경쟁력이 있다. 36Kr(36氪), 동점과기(动点科技) 등 중국 기술 매체가 이 흐름을 집요하게 추적하는 이유다.

바이트댄스의 강점은 생성형 인공지능 모델 하나가 아니다. 더우인(抖音), 틱톡(TikTok), 캡컷(CapCut), 지멍(即梦), 더우바오(豆包), 화산엔진(火山引擎), 바이트플러스(BytePlus)로 이어지는 자체 콘텐츠 생태계에서 나오는 시너지에 있다(모두 바이트댄스 계열사다).

시댄스의 사업적 의미는 "멋진 영상을 만든다"가 아니라 "플랫폼에서 팔릴 영상을 더 싸고 빠르게 만든다"에 가깝다. 개인용 서비스는 바이럴과 학습 데이터의 창구이고, 기업용 서비스는 반복 매출과 수익 회수의 통로다.

영상 모델은 단순히 많은 영상을 본다고 좋아지는 것이 아니다. 어떤 장면이 광고 전환율을 높였는지, 어떤 컷이 이탈을 줄였는지, 어떤 상품 설명이 구매로 이어졌는지에 대한 데이터가 쌓일수록 상업적 가치가 커진다.

더우인과 틱톡의 소비 데이터, 캡컷의 제작 데이터, 커머스의 거래 데이터의 축적이 바이트댄스의 강점이다. 바이트댄스는 새 모델이 나오면 개인용 앱에서 수요를 만들고, 수요가 몰리면 가격과 대기열을 조정하며, 곧바로 기업 고객에게 안정적 접속과 검수 옵션을 판다. 연구, 서비스, 영업, 법무를 동시에 돌린다.

시장은 바이트댄스를 단순 숏폼 기업이 아니라 광고, 커머스, 소비자 인공지능, 클라우드, 생성형 영상이 결합된 플랫폼으로 보고 있다. 시댄스 매출이 별도 공시되지 않더라도 광고 소재 자동화와 커머스 영상 생산, 글로벌 현지화 제작비 절감은 본업의 영업 레버리지로 반영될 수 있다.

로이터통신은 투자사 제너럴 애틀랜틱(General Atlantic)의 바이트댄스 지분 매각 논의 과정에서 바이트댄스의 기업 가치가 5500억달러(약 780조원)로 평가되었다고 보도했다.

영상 모델은 텍스트 모델보다 계산 자원을 훨씬 많이 요구한다. 마진 압박이 클 수밖에 없다. 영상 모델의 장기 원가 경쟁력은 모델 성능, 단위 비용, 권리 방어력, 검수 체계, 업무 통합 능력의 조합에서 나온다.

이렇게 되면, 영상 인공지능은 단순 소프트웨어가 아니라 공정 인프라에 가깝다. 원천 모델, 학습 데이터, 그래픽 처리 장치, 클라우드, 저작권 라이선스, 검수 인력, 배포 플랫폼, 광고 성과 데이터가 모두 연결돼 있기 때문이다.

중국 플랫폼은 이 공정 인프라의 상당 부분을 내부화했다. 실제로 중국은 영상 인공지능을 미래 기술이 아니라 현재의 제조 공정으로 다루기 시작했다. 중국 사례를 볼 때 "어느 모델이 더 좋은가"보다 "어느 회사가 전체 가치 사슬을 장악하고 있는가"를 봐야 하는 이유다.

이제 반복 제작되는 광고 소재와 상품 설명 영상이 편당 외주 제작비가 아니라 토큰 단위 클라우드 호출 비용으로 바뀌고 있다. 시댄스가 광고, 전자상거래, 숏폼, 숏드라마, 게임 홍보에 들어가는 영상 제작의 원가와 시간을 다시 계산하게 만들었다.

이것이 한국이 읽어야 할 시사점이다. 영상 인공지능은 마케팅 부서의 실험 도구가 아니다. 또 "우리도 영상 모델 하나 만들자"에서 멈춰서는 안 된다.

한국에는 드라마, 음악, 웹툰, 게임, 반도체, 통신망, 클라우드라는 자산이 있다. 이 자산을 흩어진 상태로 두면 해외 플랫폼의 학습 재료가 된다. 권리와 데이터와 제작 도구를 묶으면 한국 콘텐츠는 인공지능 시대의 원재료가 아니라 표준 상품이 된다.

시댄스 2.0이 던지는 질문은 단순하다. 우리는 인공지능이 만든 영상을 소비할 것인가, 아니면 인공지능으로 영상 산업의 원가와 권리 구조를 다시 설계할 것인가.