오픈AI의 대규모 언어 모델(LLM)이 인간을 압도하는 승률로 ‘튜링 테스트’를 통과했다는 연구 결과가 나왔다. 인공지능(AI)의 아버지로도 불리는 영국의 수학자 앨런 튜링이 1950년 논문으로 제안한 튜링 테스트는 AI가 실제 사람과 얼마나 비슷하게 대화할 수 있는지 평가하는 것이다. 실험 참가자는 상대방이 AI인지 인간인지 모르는 상태에서 문자로 대화를 하고, 이후 어느 쪽이 인간인지 알아맞히는 식으로 진행된다. AI가 실제 인간으로 지목되는 경우가 50%가 넘으면 튜링 테스트를 통과했다고 본다.
◇“가상의 인격 부여한 AI가 인간을 압도”
미국 샌디에이고 캘리포니아대(UCSD) 연구진은 LLM 4종을 대상으로 튜링 테스트를 진행한 결과, 오픈AI의 GPT4.5에 가상의 인격(페르소나)을 부여했을 때 실험 참가자들이 실제 사람으로 오인한 승률이 73%에 달했다고 지난달 31일 사전 논문 게재 사이트 ‘아카이브(arXiv)’에 발표했다. GPT4.5는 GPT4 터보를 뜻한다. 아직 동료 평가를 거친 논문은 아니지만, 연구진은 “실험 참가자가 AI와 사람을 상대로 동시에 채팅을 진행한 뒤 누가 실제 인간인지 알아맞히는, 이른바 3자 튜링 테스트를 처음으로 통과한 연구 결과”라고 했다.
연구진은 오픈AI의 GPT 4.5와 GPT4o, 메타의 라마 3.1, 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 ‘엘리자(ELIZA)’ 등을 대상으로 튜링 테스트를 진행했다. GPT 4.5와 라마의 경우에는 ‘인터넷 문화와 비디오 게임을 좋아하는 10대 후반의 내향적인 젊은이’라는 페르소나를 부여한 경우와, 그렇지 않은 경우를 구분해 테스트했다.
실험 참가자의 컴퓨터 화면은 양쪽으로 분할됐는데, 한쪽은 AI였고 다른 한쪽은 실제 사람이었다. 참가자는 5분 동안 양쪽 창을 넘나들며 대화를 한 뒤 누가 실제 인간인지 선택하는 식으로 실험을 했다.
실험 결과 GPT 4.5 인격형의 경우, 평균 73%의 비율로 ‘사람이다’는 평가를 받았다. 실험 참가자들이 10번 중 7번 이상을 AI가 인간이라고 선택한 것이다. 특히 실험 참가자가 연구진 소속 대학생이 아닌, 온라인의 일반 성인이었을 땐 AI의 승률이 75.5%에 달했다. 인간 답변자를 알아맞힌 경우(24.5%)의 3배에 달하는 것이다.
메타의 라마 3.1은 인격형의 경우 56%가 ‘사람 같다’는 평을 받아 인간 답변자(44%)와 아주 큰 차이를 보이지는 않았다. 반면 몰인격형 AI의 경우에는 GPT 4.5와 라마 모두 각각 36%, 38%로 승률이 크게 떨어졌다. 기준 모델로서 비인격형으로만 테스트한 GPT 4o와 엘리자는 각각 21%와 23%의 낮은 승률을 보였다.
◇인간적 경험 물었을 땐 거의 구별 불가
실험 참가자들은 어느 쪽이 인간인지 밝혀내기 위해 다양한 질문을 했는데, 가장 유효했던 것은 갑작스럽게 이상한 말을 해서 반응을 살폈을 때 등이었다. 이런 질문을 던졌을 때 AI와 인간 답변자가 가장 큰 차이를 보인 것이다. 반면 인간적인 경험에 대해 물어봤을 때는 AI의 답변을 인간 답변자와 구별하기 어려운 것으로 나타났다.
AI가 튜링 테스트를 통과한 것이 처음은 아니다. 연구진이 지난해 AI, 인간과 동시 채팅이 아닌 별도의 일대일 방식으로 진행한 테스트에서 GPT4가 승률 54%를 기록했다고 밝혔다.
연구진은 “이전에도 다른 AI 모델을 대상으로 튜링 테스트를 지속적으로 진행해왔으나 AI가 ‘우연히’ 도달할 수 있는 승률 50%를 크게 넘겨 인간을 월등히 앞선 것은 이번이 처음”이라고 밝혔다. 다만 “튜링 테스트는 AI의 지능이 아니라 인간과 얼마나 비슷하게 대화할 수 있는지 평가하는 실험”이라며 지나친 의미 부여는 경계했다.
☞튜링 테스트
영국의 수학자 앨런 튜링이 1950년 논문을 통해 제안한 고전적인 인공지능(AI) 성능 판별법. 예컨대 상대방이 AI인지 인간인지 모르는 상태로 실험에 참가한 이가 양쪽과 문자로 대화한 후 어느 쪽이 진짜 인간인지 알아맞히는 식으로 테스트한다. AI가 인간으로 지목되는 경우가 50%가 넘으면 튜링 테스트를 통과했다고 본다.