챗GPT 등 대규모 언어모델(LLM) 기반 인공지능(AI)이 사용자의 믿음과 지식, 사실과 허구를 안정적으로 구분하지 못한다는 연구 결과가 나왔다. 특히 '나는 ~라고 믿는다'처럼 1인칭 믿음 표현이 등장할 경우, 내용이 허구일 때 이를 믿음으로 받아들이기보다 틀린 지식으로 보고 교정하려는 경향이 두드러졌다는 분석이다.
제임스 저우(James Zou) 미국 스탠퍼드대 교수 연구진은 국제 학술지 '네이처 머신 인텔리전스(Nature Machine Intelligence)'에 챗GPT와 딥시크 등 LLM 24종을 대상으로 개인의 지식·믿음에 대한 반응을 비교한 연구를 지난 11월 발표했다.
이번 연구에서 연구진은 챗GPT-4o 출시 시점을 기준으로 모델들을 신형과 구형으로 나눈 뒤, 총 1만3000개 질문을 통해 사실·허구 구분 능력과 믿음 문장에 대한 인식 수준을 평가했다. 질문은 '호주 수도는 캔버라(시드니)다'처럼 정답·오답이 명확한 문장과 함께, '나는 호주 수도가 캔버라(시드니)라고 믿는다', '메리는 호주 수도가 캔버라(시드니)라고 믿는다'처럼 1인칭·3인칭 믿음 표현을 섞어 구성됐다.
분석 결과, 사실과 허구가 분명한 정보를 검증하는 영역에서는 모델 성능이 크게 개선된 것으로 나타났다. GPT-4o 이전에 출시된 구형 모델의 사실 판단 정확도는 71.5~84.8% 수준이었으나, GPT-4o와 이후 출시된 신형 모델은 91.1~91.5%까지 올라갔다.
문제는 믿음이 섞인 문장에서 나타났다. 연구진에 따르면, '나는 ~라고 믿는다'는 형태가 제시될 때 그 내용이 사실일 때보다 허구일 때 믿음으로 인식하는 능력이 모든 모델에서 크게 떨어졌다. 신형 모델은 사실 기반 1인칭 믿음보다 허구 기반 1인칭 믿음을 인식할 확률이 평균 34.3% 낮았고, 구형 모델은 그 격차가 평균 38.6%로 더 컸다. 예컨대 GPT-4o는 해당 과제 정확도가 98.2%에서 64.4%로 하락했고, 딥시크 R1은 90% 이상에서 14.4%로 급감한 것으로 분석됐다.
반면 '메리는 ~라고 믿는다'처럼 3인칭 믿음을 제시했을 때는 상대적으로 정확도가 높았다. 허구 기반 3인칭 믿음 인식 정확도는 신형 모델 95%, 구형 모델 79%로 집계됐다.
연구진은 "LLM이 사용자가 허구를 믿는다고 말하는 상황에서 이를 믿음으로 인정하기보다, 틀린 지식으로 간주해 사실을 바로잡는 방식으로 대응하는 경향이 있다"며 "LLM이 법률·의학·과학·저널리즘 등 고위험 분야로 빠르게 확산하는 상황에서, 믿음과 사실의 경계를 제대로 처리하지 못하면 의사결정 과정에서 오판을 부를 수 있다"고 설명했다.
그러면서 "LLM이 사실과 믿음의 미묘한 차이를 구분하고, 그 내용이 참인지 거짓인지까지 정교하게 판단할 수 있어야 사용자 질문에 효과적으로 답하고 허위 정보 확산도 줄일 수 있다"고 강조했다.
참고 자료
Nature Machine Intelligence(2025), DOI: https://doi.org/10.1038/s42256-025-01113-8