“최근 시장에서 화두가 되고 있는 ‘챗GPT’와 같은 초거대 인공지능(AI) 모델의 등장은 카카오에게 기회이자 위기다. 초거대 AI 모델 개발 경쟁은 풍부한 자본과 기술력을 가진 글로벌 기업들에게 절대적으로 유리한 싸움이기 때문이다. 이에 카카오는 카카오브레인이 보유한 한국어 특화 언어 모델 ‘코지피티(KoGPT)’를 활용해 카카오가 잘할 수 있는 버티컬 서비스에 집중하고자 한다.”
홍은택 카카오 대표

카카오브레인이 멀티미디어 영역에서 생성 모델 경쟁력을 높이고 있다. ‘민달리(minDALL-E)’ ‘RQ-트랜스포머(RQ-Transformer)’ 등 자체 개발한 이미지 생성 모델을 발전시켜 AI 아티스트 ‘칼로(Karlo)’라는 하나의 페르소나로 탄생시킨 데 이어 최근에는 독자적인 기술을 바탕으로 모션 생성 모델 ‘플레임(FLAME)’을 학계에 공개했다. 카카오브레인은 이들 모델을 오픈 응용프로그램인터페이스(API) 형태로 순차 공개, 사용자 접근성을 높여 글로벌 창작 시장의 문을 두드린다는 포부다.

22일 카카오브레인에 따르면 회사는 지난 9일(현지 시각) 세계 최고 권위의 AI 학회인 전미인공지능학회(AAAI)에서 최성준 고려대 인공지능학과 교수 연구팀과 공동 개발한 플레임에 대한 논문을 구두 발표했다. 구두 발표는 AAAI가 높은 평가를 내린 논문에 한해 이뤄진다.

플레임은 텍스트 투 모션, 즉 사용자가 입력한 명령어를 가상 인간의 동작으로 바꿔주는 생성 모델이다. ‘오른발로 발차기하는 사람’을 입력하면 화면 속 가상 인간이 오른발을 들어 발을 차는 식이다. 카카오브레인 측은 “플레임은 코지피티가 기반인 모션 생성 모델로, 기존 동작 확산 모델(MDM·motion diffusion model)보다 복잡한 문장을 이해해 더 완성도 높은 동작을 만들어낸다”며 “프레임별, 조인트(관절)별 동작 수정도 쉽다”고 설명했다. 김일두 카카오브레인 대표는 “플레임은 게임, 애니메이션, 영화 등 모션 그래픽 제작을 필요로 하는 곳에서 업무 자동화 및 효율성 증진에 큰 기여를 할 것으로 기대된다”고 했다.

IT업계는 카카오브레인이 플레임을 고도화해 텍스트를 동영상으로 바꿔주는, 이른바 텍스트 투 비디오 AI 시장까지 노릴 수 있다고 보고 있다. 지난해 하반기 메타가 ‘메이크 어 비디오’, 구글이 ‘이매진 비디오’라는 생성 모델을 공개한 바 있지만 아직 범용 서비스로 출시한 적은 없어서다. 카카오브레인과 플레임을 공동 개발한 최 교수는 “여러 기업들이 텍스트 기반의 영상 생성에 집중하고 있는 가운데 차별화된 연구 결과를 만들어나갈 것”이라고 했다.

카카오브레인의 AI 아티스트 '칼로'가 명령어에 맞춰 그린 토끼. /카카오브레인

카카오브레인은 이미 칼로를 통해 이미지 생성 분야에서 두각을 드러내고 있다. 지난달에는 AI·빅데이터 전문 기업 바이브컴퍼니와 손잡고 잡지 표지를 제작했다. AI가 만든 작품이 잡지 표지에 실린 국내 첫 사례다. 카카오브레인 측은 “민달리가 오픈 AI의 ‘달리(DALL-E)’를 재현하는 데 그쳤다면, RQ-트랜스포머는 카카오브레인의 독자 기술로 개발해 의미가 남다르다”며 “지난해 6월에 열린 세계적인 학술대회 ‘CVPR 2022′에서도 이 기술의 우수성을 인정받았다”고 전했다.

카카오브레인은 보유한 멀티미디어 생성 모델들을 오픈 API 형태로 공개하고 있다. 지난해 10월 코지피티에 이어 올해엔 칼로의 오픈 API·체험판을 내놨다. 이들 모델의 활용 범위를 넓혀 전체 시장 파이를 키운다는 취지다. 업계에서는 카카오브레인이 향후 플레임도 오픈 API 형태로 공개할 가능성을 점치고 있다. 다만 영상 생성 모델은 이미지 생성 모델보다 훈련 과정이 까다로워 다소 시간이 걸릴 것이란 관측이 나온다.

한 업계 관계자는 “카카오브레인은 7억4000만개 이미지-테스트 쌍으로 구성된 데이터셋 ‘코요(Coyo)’를 갖고 있다. 이는 국내 최대 규모다”라며 “따라서 별도의 데이터셋을 구축할 필요는 없겠지만, 아무래도 이미지를 생성할 때보다 영상을 생성할 때 오류가 발생할 확률이 더 높아 코드를 짤 때 세심한 주의를 기울여야 할 것”이라고 했다.

카카오브레인은 지난해 10월 13일 자체 개발한 한국어 특화 언어 모델 '코지피티(KoGPT)'를 오픈 응용프로그램인터페이스(API) 형태로 공개했다. /카카오브레인

카카오브레인이 글로벌 창작 생태계를 확대하는 동안 카카오는 카카오브레인의 기술을 자사 서비스에 입혀나갈 방침이다. 우선 올해 상반기 중 칼로로 카카오톡 프로필과 배경 사진을 만드는 서비스를 출시한다. 구체적인 도입 시점은 밝히지 않았지만 코지피티를 활용해 채팅방에서 쓸 수 있는 AI 비서도 선보일 계획이다.

단, 이를 위한 투자는 당분간 늘리지 않을 예정이다. 서비스 장애 재발 방지에 연구개발(R&D) 투자를 집중하기 위함으로 풀이된다. 배재현 카카오 최고투자책임자(CIO)는 지난 10일 2022년 결산 실적 콘퍼런스콜에서 “코지피티는 경쟁 모델 대비 적은 파라미터(매개변수)를 활용하지만 퍼포먼스 측면에서 뒤지지 않는다”며 “투자 비용은 그동안의 수준에서 크게 늘어나지 않을 것”이라고 했다. 카카오는 카카오브레인에 대한 정확한 투자 액수를 공개하지 않고 있다.

파라미터는 AI 모델의 성능을 가늠할 수 있는 척도다. 파라미터가 많을수록 정교한 학습이 가능하다. 코지피티의 파라미터는 약 60억개로, 챗GPT의 기반이 된 ‘GPT-3(1750억개)’와 네이버 ‘하이퍼클로바(2040억개)’ 대비 현저히 적다. 카카오브레인이 언어 모델보다 이미지, 모션 생성 모델에 방점을 찍는 배경이다. 업계 관계자는 “카카오가 국내에서는 대기업으로 분류되지만 글로벌 수준에서는 라이트급 체급이다”라며 “지난해 판교 SK C&C 데이터센터 화재로 ‘먹통’ 사태를 겪으면서 비용이 늘어난 상황에서 카카오는 더더욱 가성비로 승부할 수밖에 없을 것”이라고 했다.