구글 딥마인드의 인공지능(AI) 챗봇 '제미나이 딥 싱크' 고급 버전이 국제수학올림피아드(IMO)에서 인간 참가자와 동일한 조건으로 시험을 치른 결과 금메달 점수에 해당하는 35점을 받아, AI가 IMO에서 사실상 인간 수준의 수학 문제 해결 능력을 입증했다. IMO 채점진은 이 AI의 서술형 풀이가 명확하고 정밀하며 이해하기 쉬웠다고 평가했다.
딥마인드는 21일 블로그를 통해 제미나이 딥 싱크가 올해 IMO 문제를 인간 참가자와 동일한 조건과 기준으로 채점받았으며, 총 42점 만점 중 35점을 획득했다고 밝혔다. 이 점수는 실제 금메달 커트라인과 동일하다.
올해 IMO는 호주 선샤인코스트에서 열렸으며, 110개국에서 630명의 수학 영재들이 참가했다. 이 가운데 67명이 금메달, 103명이 은메달, 145명이 동메달을 수상했다. 금·은·동메달 커트라인은 각각 35점, 28점, 19점이었다.
IMO 위원장인 그레고르 돌리나르 류블라냐대 교수는 AI가 작성한 서술형 답안에 대해 "여러 면에서 놀라웠다"며 "대부분의 풀이가 따라가기 쉬웠고 전개도 명확하고 정밀했다"고 평가했다. 실제 공개된 답안에서는 AI가 문제마다 스스로 보조정리와 정리를 도출하며 논리적으로 체계적인 풀이를 제시한 것으로 나타났다.
제미나이 딥 싱크는 IMO 참가자와 마찬가지로 4시간30분씩 이틀간 시험을 치렀고, 6문제 중 5문제를 완전히 해결했다. 이는 지난해 구글의 다른 AI 모델인 '알파지오메트리2'와 '알파프루프'가 IMO 문제를 푸는 데 이틀 이상이 걸렸던 것과 비교하면 획기적인 진전이다. 당시 모델들은 인간 언어가 아닌 특수 프로그래밍 언어로 문제를 해석하고 풀이했으며, 최종 답안도 사람의 손을 거쳐 다시 번역돼야 했다.
이번에 사용된 제미나이 딥 싱크 고급 버전은 아직 일반에 공개되지 않았았다. 구글은 향후 신뢰할 수 있는 수학자 등에게 테스트 기회를 제공한 뒤, 월 249.99달러에 제공되는 '구글 AI 울트라' 구독자 대상 서비스에 포함시킬 계획이다.
한편, 오픈AI 측도 자사 AI 모델을 같은 조건으로 IMO 문제에 적용해 금메달 수준 점수를 기록했다고 밝혔다. 다만 이는 오픈AI가 자체적으로 시행한 내부 평가 결과다.