Anthropicのロゴ画像。

Anthropicが、これまで公開を先送りしてきた最上位級「ミトス」水準の人工知能(AI)モデルを一般に公開した。懸念が続いてきたサイバーセキュリティーなど敏感分野での悪用を防ぐため、安全装置を導入した。

9日(現地時間)Anthropicによると、同社はミトス級モデルを一般向けに安全に調整したAIモデル「Claude フェイブル5」と、セキュリティー特化モデル「Claude ミトス5」を発売すると明らかにした。Anthropicは「フェイブル」の語源はラテン語のファブラ(fabula)で、神話を意味する「ミトス」と類似の意味だと紹介した。両モデルは事実上同一のモデルだが、フェイブル5は悪用リスクが大きい分野に安全装置を施した点が特徴である。

フェイブル5は、悪意あるハッカーによる悪用が懸念されるサイバーセキュリティー分野の質疑(プロンプト)が入ると、当該応答を直下位モデルであり最近まで最上位モデルだった「オーパス4.8」が代わりに処理し、利用者にその事実を知らせる。

Anthropicは「モデルを安全かつ迅速に公開するため、こうした安全装置を保守的に調整した」とし「このため無害な要求が遮断される場合もあるが、平均的には全体セッションの5%未満でのみ発動する」と述べた。

このような安全装置はサイバーセキュリティー以外にも、生物兵器などに悪用され得る生物学・化学関連の質疑や、競合AIモデルの機能を抽出する、いわゆる無断「蒸留」と疑われる質疑にも適用される。

制限のないミトス5は、セキュリティー協議体「プロジェクト・グラスウィング」を通じ検証された機関にのみ選別的に提供される。これにより韓国では、同プロジェクトに参加しているとされるサムスン電子やSKハイニックス、SKテレコム、韓国インターネット振興院(KISA)などがアクセス権を得る見通しだ。

Anthropicは、フェイブル・ミトスモデルで発生するデータを30日間保存し、新たな攻撃を防御したり誤検知を識別する作業に用いる新たなデータ方針を整えた。

Anthropicの新モデルは、2カ月前に公開した「ミトス・プレビュー」よりもさらに優れた性能指標(ベンチマーク)を記録した。サイバーセキュリティー関連能力を測定する「ExploitBench」評価でミトス5は78%のスコアを取り、34%にとどまったOpenAIのGPT-5.5や40%水準の自社オーパス4.8はもとより、ミトス・プレビュー(69%)よりも高い性能を示した。

分野別に博士級の知能を測る「人類の最後の試験」(HLE)でも59%(ツール未使用基準)を記録し、初めて50%の壁を越えたミトス・プレビュー(56.8%)を上回った。ターミナル環境でのコーディング作業能力を見る「Terminal-Bench 2.1」でも88%を記録し、GPT-5.5(83.4%)を凌駕した。

フェイブル5では安全装置が適用され、こうした性能を体感できない。ただし一般的なコーディング能力を測定する「SWE-Bench Pro」の性能は80.3%で、GPT-5.5(58.6%)やグーグルGemini 3.1 Pro(54.2%)より高かった。知識業務能力を評価する「GDPval-AA」でも1932点で、GPT-5.5(1769点)・Gemini 3.1 Pro(1314点)より高いスコアを示した.

フェイブル5はこの日から使用可能で、22日までは現行の有料購読者に追加費用なしで提供されるが、その後は別途料金を支払ってのみ利用できる。Anthropicはサーバー容量が十分に確保されれば、フェイブル5を再び既存の購読に含める計画だと案内した。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。