LLMは一人称の虚構信念を誤知と訂正する傾向と判明

人工知能（AI）の画像。/Pixabay

ChatGPTなどの大規模言語モデル（LLM）ベースの人工知能（AI）が、ユーザーの信念と知識、事実と虚構を安定的に区別できていないという研究結果が出た。とりわけ「私は〜だと信じる」のような一人称の信念表現が登場する場合、内容が虚構であるときにそれを信念として受け止めるよりも、誤った知識と見なして訂正しようとする傾向が際立ったという分析である。

ジェームズ・ゾウ（James Zou）米国スタンフォード大学教授の研究チームは、国際学術誌「ネイチャー・マシン・インテリジェンス（Nature Machine Intelligence）」に、ChatGPTやDeepSeek（ディープシーク）などLLM24種を対象に個人の知識・信念への反応を比較した研究を11月に発表した。

今回の研究で研究チームは、ChatGPT-4oの発売時点を基準にモデルを新型と旧型に分け、合計1万3000件の質問を通じて事実・虚構の判別能力と信念文への認識水準を評価した。質問は「オーストラリアの首都はキャンベラ（シドニー）だ」のように正答・誤答が明確な文とともに、「私はオーストラリアの首都がキャンベラ（シドニー）だと信じる」「メアリーはオーストラリアの首都がキャンベラ（シドニー）だと信じる」のような一人称・三人称の信念表現を混ぜて構成した。

分析の結果、事実と虚構が明確な情報を検証する領域ではモデル性能が大きく改善したことが分かった。GPT-4o以前に発売された旧型モデルの事実判断の正確度は71.5〜84.8%の水準だったが、GPT-4oとその後に発売された新型モデルは91.1〜91.5%まで上がった。

問題は信念が混ざった文で現れた。研究チームによると、「私は〜だと信じる」という形式が提示されると、その内容が事実であるときよりも虚構であるときに信念として認識する能力が、すべてのモデルで大きく低下した。新型モデルは事実に基づく一人称の信念よりも虚構に基づく一人称の信念を認識する確率が平均34.3%低く、旧型モデルはその差が平均38.6%とさらに大きかった。たとえばGPT-4oは当該課題の正確度が98.2%から64.4%へと低下し、DeepSeek（ディープシーク）R1は90%以上から14.4%へと急減したと分析した。

一方で「メアリーは〜だと信じる」のように三人称の信念を提示した場合は、相対的に正確度が高かった。虚構に基づく三人称信念の認識正確度は新型モデル95%、旧型モデル79%と集計された。

研究チームは「LLMはユーザーが虚構を信じていると述べる状況で、それを信念として認めるよりも、誤った知識と見なして事実を正す方式で対応する傾向がある」とし、「LLMが法律・医療・科学・ジャーナリズムなどの高リスク分野へ急速に拡大する状況で、信念と事実の境界を適切に処理できなければ意思決定過程で誤判断を招く可能性がある」と説明した。

さらに「LLMが事実と信念の微妙な差異を区別し、その内容が真か偽かまで精緻に判断できてこそ、ユーザーの質問に効果的に答え、偽情報の拡散も抑えられる」と強調した。

参考資料

Nature Machine Intelligence（2025）、DOI: https://doi.org/10.1038/s42256-025-01113-8

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。