Metaが1600言語対応ASR「Omnilingual」公開低資源500言語も転写可能に

Meta（メタ）ロゴ／聯合ニュース

フェイスブックとインスタグラムの親会社であるMeta（メタ）が、1000種類を超える音声言語を認識できる人工知能（AI）技術を公開した。

Meta（メタ）の基礎AI研究（FAIR）チームは、少数言語を含む1600言語を認識して文字起こしできる自動音声認識（ASR）体系を10日（現地時間）に披露した。Meta（メタ）はこの技術を「オムニリングアル」（Omnilingual）と命名した.

Meta（メタ）は、オムニリングアルが対応する言語の中には、AI転写（転写・ある言語の発音を別の文字体系に移す過程）機能が提供されたことのない「低資源言語」（データが不足しているか、研究または技術支援が不十分な言語）500種が含まれると明らかにした。これまで主要AIが公式に数十程度の言語しかサポートしてこなかったのとは対照的である。

大規模言語モデル（LLM）に基づく大衆的な生成AIは、関連データが多い高資源言語ではうまく動作するが、そうでない低資源言語では駆動が制限される。また、発売済みのモデルに新たな言語対応を追加するには、専門家が主導する微調整を経なければならない不便もあった。

しかしオムニリングアルは、少量の音声―文字データのペアしかなくても、基本的なレベルの音声認識機能を使えるというのがMeta（メタ）の説明だ。

ただしMeta（メタ）が公開した資料によると、オムニリングアルの低資源言語の文字エラー率は高資源言語に比べて相当高い。高資源言語249種と中資源言語881種ではエラー率10％未満の言語が95％に達したが、低資源言語546種ではエラー率10％未満の言語が36％にとどまった。

Meta（メタ）は、オムニリングアルに適用したパラメーター70億個規模の音声エンコーダーを誰もが活用できるようオープンソースで公開した。音声データを自動でAIが理解可能なベクトルデータ形式に整列するツールである。少数言語350種の音声資料コーパス（corpus）も公開した。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。