フェイスブックとインスタグラムの親会社であるMeta(メタ)が、1000種類を超える音声言語を認識できる人工知能(AI)技術を公開した。
Meta(メタ)の基礎AI研究(FAIR)チームは、少数言語を含む1600言語を認識して文字起こしできる自動音声認識(ASR)体系を10日(現地時間)に披露した。Meta(メタ)はこの技術を「オムニリングアル」(Omnilingual)と命名した.
Meta(メタ)は、オムニリングアルが対応する言語の中には、AI転写(転写・ある言語の発音を別の文字体系に移す過程)機能が提供されたことのない「低資源言語」(データが不足しているか、研究または技術支援が不十分な言語)500種が含まれると明らかにした。これまで主要AIが公式に数十程度の言語しかサポートしてこなかったのとは対照的である。
大規模言語モデル(LLM)に基づく大衆的な生成AIは、関連データが多い高資源言語ではうまく動作するが、そうでない低資源言語では駆動が制限される。また、発売済みのモデルに新たな言語対応を追加するには、専門家が主導する微調整を経なければならない不便もあった。
しかしオムニリングアルは、少量の音声―文字データのペアしかなくても、基本的なレベルの音声認識機能を使えるというのがMeta(メタ)の説明だ。
ただしMeta(メタ)が公開した資料によると、オムニリングアルの低資源言語の文字エラー率は高資源言語に比べて相当高い。高資源言語249種と中資源言語881種ではエラー率10%未満の言語が95%に達したが、低資源言語546種ではエラー率10%未満の言語が36%にとどまった。
Meta(メタ)は、オムニリングアルに適用したパラメーター70億個規模の音声エンコーダーを誰もが活用できるようオープンソースで公開した。音声データを自動でAIが理解可能なベクトルデータ形式に整列するツールである。少数言語350種の音声資料コーパス(corpus)も公開した。