ガートナーの生成AI推論コスト見通しシナリオ。ガートナー提供

ガートナー(Gartner)は30日、2030年までに大規模言語モデルの推論コストが大きく低下しても、企業の人工知能(AI)コスト負担は持続すると明らかにした。

ガートナーは、1兆個(1000B)パラメータ規模の大規模言語モデル(LLM)の推論コストが2025年比で90%以上減少すると展望した。これにより、同規模モデル基準でのコスト効率性は最大100倍まで改善されると見通した。

AIトークンは生成型AIモデルが処理する基本データ単位で、約3.5バイト(約4字)に相当するデータとして定義される。

ウィル・ソマーガートナーシニアディレクターアナリストは「このようなコスト削減は、半導体およびインフラの効率性改善、モデル設計の革新、チップ稼働率の向上、推論特化型半導体の拡大、エッジデバイスの適用拡大などにより可能だ」と説明した。

ガートナーは今回の展望で、▲フロンティア(Frontier)シナリオ ▲レガシーブレンド(Legacy blend)シナリオの二つの半導体ベースのシナリオを通じてコスト構造を分析した。レガシーブレンドシナリオは性能の限界により、フロンティアシナリオに比べてコストが高いことが示された。

ただしガートナーは、トークン単価の下落が企業のAIコスト削減に直結するわけではないと分析した。

AIエージェントの拡散により、作業当たりのトークン使用量が従来比で5〜30倍増加し、全体のコスト構造が再編されているためである。これにより、トークン単価は下がっても、実際に企業が負担する総推論コストはむしろ増加する可能性が大きいという説明だ。

ウィル・ソマーガートナーアナリストは「汎用トークン価格の下落を高度な推論能力の大衆化と誤解してはならない」とし、「基本的なAI機能は事実上ゼロコストに近づいているが、高度な推論のためのコンピューティング資源とシステムは依然として限定的だ」と述べた。続けて「安価なトークンコストでアーキテクチャの非効率を覆い隠す企業は、今後のエージェント型AI拡張段階で限界に直面する可能性がある」と付け加えた。

またガートナーは、今後のAI競争力は単一モデルではなく『マルチモデル・オーケストレーション』戦略にかかっていると強調した。

反復的で単純な業務は小型モデルやドメイン特化モデルで処理し、コストの高い高性能モデルは複雑な高付加価値作業にのみ選択的に活用する構造が必要だという説明である。

これにより企業はコスト効率性と性能を同時に確保できると見込まれる。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。