イレブンラボの最高経営責任者(CEO)であるマティ・スタニシェフスキが21日、ソウル瑞草区のJWマリオットホテルでChosunBizの取材に応じた。高校時代からの親友である最高技術責任者(CTO)のピオトル・ダブコフスキと2022年にイレブンラボを共同創業した/イレブンラボ提供

イレブンラブズ(ElevenLabs)は、グローバルな音声人工知能(AI)分野で最も速いペースで成長しているスタートアップだ。企業価値は66億ドル(約9兆7000億ウォン)で、創業3年でユニコーン(企業価値1兆ウォン以上の未上場企業)に浮上した。世界最大のベンチャーキャピタル(VC)であるセコイア・キャピタル、エヌビディア、ドイツテレコム、LG U+、NAVER、米国の俳優マシュー・マコノヒーなどから2億8100万ドル(約4100億ウォン)超の投資を誘致した。

イレブンラブズの競争力は、70以上の言語で多様な声を実現するリアルタイムAI音声合成技術だ。単純な翻訳と吹き替えを越え、会話中の笑い、ため息、呼吸音まで捉えた自然な音声を生成するのが特徴である。文章を書くとリアルタイムで人の声に変換する音声生成技術であるTTS(Text-to-Speech)とその逆のSTT(音声認識)、ボイスクローン(音声複製)、AI吹き替え、サウンド効果、音楽AI、サウンド効果などの技術を保有している。

出発点は映画だった。英国ロンドンに住んでいたポーランド出身のマティ・スタニシェフスキ(Staniszewski)とピオトル・ダブコフスキ(Dabkowski)は4年前、ポーランド語で吹き替えられた外国映画を見てもどかしさを覚えた。ポーランドでは外国映画を放映する際、すべての登場人物の台詞をたった1人の声優が単調なトーンで朗読する。老若男女の区別なく1人の声しか聞こえず、没入感が下がらざるを得ない。2人が意気投合して2022年に共同創業したイレブンラブズは「映画の中の外国語の台詞を俳優の声のままリアルタイムでポーランド語に変える技術があったらどうだろう」という問いから出発した。

マティ・スタニシェフスキ イレブンラブズ共同創業者兼最高経営責任者(CEO)は21日にChosunBizのインタビューで「当初はポーランド特有の吹き替え方式の限界を克服するためにイレブンラブズを始めたが、いまは最先端の音声AI技術を基盤に人と技術が疎通する方式を再定義することが目標だ」と語った。スタニシェフスキは、人の声で代表される音声が将来のAI機器作動の基本インターフェース(媒介)として位置づけられると予測した。現在はChatGPTのようなAIチャットボットに指示を出すときテキスト(文章)を主に使うが、将来はロボットや自動車、ウェアラブル機器などが人の言葉を完全に理解して反応できるようになり、音声で疎通する方式が主流になると見通した。

現在イレブンラブズの月間アクティブユーザー(MAU)は5000万人に達し、フォーチュン500企業の75%を顧客に抱えている。音声合成技術を活用すれば声優なしでも映像に吹き替えやナレーションを付けることができ、コールセンター業務に適用すればAIが実際のオペレーターのように電話応対を行えるため、時間とコストを削減できるというのが同社の説明だ。

スタニシェフスキCEOは「韓国は人工知能(AI)ベースの音声技術の導入スピードが非常に速い」とし「映画、Kドラマ、Kポップを網羅する放送産業からゲームまで、オーディオ中心のコンテンツ制作文化が深く根付いており、成長ポテンシャルが大きい」と述べた。会社側が推定する韓国の音声AI市場規模は3400億ウォンである。イレブンラブズは今回、韓国市場進出を発表し、韓国をアジア市場進出の中核拠点とする方針を明らかにした。以下はスタニシェフスキCEOとの一問一答。

―イレブンラブズが世界で6番目の拠点として韓国を選んだ理由は。

「韓国はAI導入のスピードが速く、映画、放送、ゲーム産業で音声AI技術を開放的な姿勢で受け入れている。韓国では会社員の63%が日常的に生成AIを使用しており、これはグローバル平均の2倍に達する。成長ポテンシャルが大きい市場だ。さらに韓国には音声AI技術分野の研究者、エンジニアなど優れた人材が多い。今後も優秀な韓国の研究者とエンジニアを採用し、技術を発展させていくつもりだ。」

―韓国で音声AI技術の需要が最も大きい分野は。

「現在は映画・放送とゲーム分野の需要が最も大きく、この2分野でここ6カ月間に多くの協業を進めた。Kドラマなどのコンテンツ制作はもちろん、これを他言語で国際化する作業まで協力できる部分が多い。100%AI映画でもイレブンラブズの音声合成技術が使われる。ゲーム分野ではKRAFTONとともに、ゲーマーと会話し相互作用するノンプレイヤーキャラクター(NPC)を実装する作業を進めている。」

―グローバル市場も韓国と似ているか。

「グローバル市場は韓国と異なり、過去1年間はコールセンターのような『カスタマーエクスペリエンス(Customer Experience)』分野が映画やゲーム産業より大きな比重を占めた。しかしイレブンラブズのTTSモデル『イレブンv3』の韓国語機能が一段と高度化され、来年からは韓国でもカスタマーエクスペリエンス分野の需要が本格的に増えると予想する。

韓国語はAI音声技術の実装が難しい言語であり、韓国語のテキストと音声を生成するモデルを開発して完成度を高めるまで時間がかかった。まず文章を書くと声に変換する技術を完成させ、品質に自信がついたため韓国市場への進出を決めた。いまは韓国語のリアルタイム音声生成技術を滑らかに実装する段階に入っており、来年からはカスタマーエクスペリエンス分野での導入が増えると見ている。」

米国の俳優マシュー・マコノヒーは最近、イレブンラボのIconic Voice Marketplaceに自身の声を登録し、吹き替えなど商業利用を可能にした/イレブンラボ提供

―ハリウッド俳優や有名人が自分の声をAIで複製して使うことに拒否感を示しているが、最近マシュー・マコノヒー、マイケル・ケインと契約を結び、彼らの声をAIで生成できるようになった秘訣は。

「創業初期から有名俳優をはじめとするアーティストやコンテンツクリエイターがどうすればAIエコシステムに積極的に参加できるかを考えた。そこで世界で初めて、人々が自分の声をAIで複製して共有し、その音声が使われると収益を得られる『アイコニック・ボイス・マーケットプレイス』を作った。これまでに1万件余りの声がマーケットプレイスに登録され、これらに総額1100万ドル(約162億ウォン)の収益を支払った。韓国語の音声も400件余りに達する。マイケル・ケインのような有名俳優の声は特定プロジェクト単位でのみ使えるようにした。イレブンラブズが新しい音声ベースの経済モデルを構築し、有名人は自分の声を使って収益を上げられる点に注目し、このようなパートナーシップを実現できたと考える。」

―音声AI分野で現れるいわゆる『不気味の谷(uncanny valley)』現象を緩和するため、どのような取り組みをしているか。

「現在イレブンラブズの技術で生成した音声は実際の人の声と見分けがつかないほど自然で、『不気味の谷』の段階は越えた。ただし活用事例によっては依然として違和感は存在する。代表的な例がアバターだ。われわれは自らアバターを作ることはしないが、アバター技術を作る企業と協力し、当社の音声技術を提供している。この場合、声がどれほど自然でも、映像でアバターが登場すると『これは人ではないな』という考えが浮かび、異質感を覚える。現在は映像と音声を別々に生成しているが、今後は両方を一緒に学習し、映像と音声を同時に理解・生成できるモデルを作って、この問題を解決しようとしている。」

―現在イレブンラブズが音声AI技術の高度化の側面で注力している部分は。

「リアルタイムの吹き替えと翻訳、そして対話型AIエージェントだ。最も難しい部分の一つは、リアルタイム翻訳で感情と抑揚を維持しつつミスを減らすことだ。これをいかに自然に実装するかが核心課題である。実際の人同士の会話のように、AI音声が会話に自然に割り込み、話者の言葉に素早く反応する技術もまだ完全には実装されていない。現在、技術を高度化しているところで、今後6〜12カ月以内に実装できると見込む。」

―音声AI部門でも競合が多いが、イレブンラブズならではの差別化点は。

「最大の差別化点は、イレブンラブズは研究とプロダクト開発をともに手がける企業だという点だ。自ら開発した基盤モデルをもとに、ナレーション、ボイスオーバー、AIエージェントなど多様な音声AI技術を容易に活用できるツールと製品を構築した。また地域を問わず、音声AI分野で世界最高水準の人材を採用した。音声AI分野で専門性を持つ人材は世界で50〜100人にすぎず、ロンドンだけでは見つけられなかった。そのため創業初期からリモートワーク体制を導入した。優秀な研究者とともに世界最高の音声AIモデルを作り、市場をリードする計画だ。」

―競争が激しい音楽AI市場にも進出したが、今後の計画は。

「イレブンラブズは音楽の消費よりも創作を支援することに焦点を当てる点で競合と差別化される。SpotifyやSunoのような音楽を聴くプラットフォームではなく、クリエイターが音楽を作り配布できるよう支援する技術を提供する。われわれの顧客企業がサウンド効果とBGMを必要としている事実を捉え、これらすべてを容易に作れる音楽AIモデルを開発した。われわれは100%ライセンスベースのモデルを構築し、モデル学習に使われたすべてのデータはレーベル(音盤会社)とのパートナーシップを通じて確保した。」

―ボイスフィッシングをはじめ、音声AI技術が悪用される可能性にはどのように対応しているか。

「ディープフェイクを含むAI音声の悪用は今後社会問題になり得るため、責任を持って対応すべきだというのがわれわれの哲学だ。イレブンラブズのモデルで生成するすべての音声コンテンツは追跡が可能で、問題が発生すれば即時措置を取れる。音声生成者が入力する文章や内容を分析し、リスク要素が見つかれば即時に遮断する詐欺検知技術も適用した。最大の問題は、安全装置が不足した商用モデルやセキュリティが脆弱なオープンソースモデルまで、われわれが止めることはできないという点だ。そこで米国と英国のAIセキュリティ研究所と協力し、われわれの詐欺検知技術を他機関も活用できるように共有している。こうした努力とは別に、安全装置のない音声AIモデルに対する強力な法的規制も必要だ。」

―社名をイレブンラブズ(ElevenLabs)と定めた理由は。

「当初はボイスラボ、オーディオラボのように音声技術を強調した伝統的な名前を考えたが、このような社名では『人と技術をつなぐ方式を完全に再定義する』というわれわれのビジョンを盛り込むには不十分だと感じた。私と共同創業者のピオトルは数学が好きで、数字の11は数学的にも興味深く、大衆文化にも頻繁に登場する。アポロ11号が人類で初めて月に着陸し、日常表現でも『限界を越えていこう(turn it up to 11)』『10点満点に11点』のように最高を志向する意味が込められている。

少し余談だが、私が取締役として参加しているスウェーデンのフィンテック企業クラルナ(Klarna)が最近ニューヨーク証券取引所に上場した。上場式では記念のコインが一つずつ配られるが、コインに『ウォール街11番街』と書いてあった。そのときこれを見て「いつかイレブンラブズも企業公開(IPO)を実現できる」と心に誓った。5年以内の上場を目標に据えたが、イレブンラブズが今のような成長を続けるなら3年以内でも可能だと期待している。」

―今後の韓国市場での計画は。

「イレブンラブズが3年前、音声生成モデルを初めて海外市場に紹介した場が韓国のインタースピーチ・カンファレンスだ。創業初期に韓国を訪れた記憶があるため、まるで故郷に戻ってきたような気持ちだ。近く韓国にオフィスを構え、韓国専任チームを組成し、主要投資家であるNAVER、LG U+など有力企業と協力して多様な分野でパートナーシップを拡大する計画だ。韓国が『アジア音声AIハブ』へと飛躍できるよう支援する。」

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。