# 벌새의 꼬리에는 특이한 뼈가 있다. 꼬리를 아래로 내리는 근육의 힘줄 속에 씨앗처럼 생긴 작은 뼈 한 쌍이 박혀 있다. 이 뼈 하나는 몇 쌍의 힘줄을 지지하는가?

# 히브리어 성경 한 구절(시편 104편 7절)을 읽고, 옛사람들이 실제로 냈을 법한 소리를 기준으로 음절을 나눈 뒤, 자음 소리로 끝나는 음절만 모두 골라내라. 글자는 있지만 거의 발음되지 않았던 경우와, 학자들 사이에서 발음 여부가 갈리는 경우까지 고려해야 한다.

최상위 AI(인공지능)도 40점 이상 받지 못하는 'HLE'(Humanity's Last Exam·인류 최종 시험) 문제 중 일부다. 당초 '인류의 마지막 저항'으로 명명하려다 지금의 이름으로 정했다고 한다. 어떻게든 AI가 정답을 못 맞히게 해 콧대를 납작하게 하겠다는 의도를 엿볼 수 있다.

미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI 등 공동 연구팀이 초고난도 AI 평가 시험 HLE의 출제 과정과 구성, 평가 결과, 일부 문제 예시를 국제학술지 네이처에 논문으로 최근 발표했다.

그래픽=백형선

◇韓 국가대표 AI는 7~13점대 그쳐

구글의 제미나이 3 프로가 정확도 38.3점으로 가장 높은 성적을 거뒀고, 오픈AI의 GPT-5.2(29.9점), 앤스로픽의 오퍼스 4.5(25.8점), 딥시크의 딥시크 3.2(21.8점) 순이었다. 정부의 '국가대표 AI' 선정을 놓고 경쟁 중인 국내 모델들의 성적은 더 낮았다. LG AI연구원의 'K-엑사원'은 13.6점, 업스테이지의 '솔라 오픈'은 10.5점, SK텔레콤의 'A.X K1'(에이닷엑스 케이원)은 7.6점에 그쳤다.

국내 AI 모델들은 HLE 문항 가운데 텍스트로만 구성된 문제로 평가를 받았다. 도표나 이미지 해석이 포함된 문제는 풀지 않은 결과여서, 미국·중국 모델과의 격차는 더 크다는 평가가 나온다.

◇7만 문항서 엄선한 2500문항

미국 대학입시 자격시험(SAT), 의사 면허 시험에서도 합격점을 받은 최상위 AI가 유독 HLE에서 낙제점을 받은 이유는 무엇일까. 이른바 '킬러 문항'으로만 구성한 시험이기 때문이다. 이번에 논문을 낸 CAIS와 스케일AI 연구팀은 기존 평가(벤치마크)가 이제 변별력이 없어 초고난도 HLE를 만들었다고 밝혔다. 이를 위해 50개국 500여 연구기관의 각 분야 전문가에게 출제를 의뢰해 7만 문항을 구했다. 이를 최신 AI가 풀게 한 뒤 틀린 문제를 추렸다. 이렇게 1만 3000문항을 걸러낸 뒤 전문가들이 재검토하고 다듬어 6000문항을 선별했다. 이후 운영진과 전문가들이 특정 AI에 유리한 문제인지 등을 검증하고 최종적으로 2500문항을 확정한 것이 HLE다.

◇출제 상금 총 50만 달러

연구팀은 HLE에서 수학 관련 문항이 41%로 비율이 가장 높다고 밝혔다. 생물·의학(11%), 컴퓨터과학·AI(10%), 물리학(9%), 인문학·사회과학(9%), 화학(7%), 공학(4%) 등의 비율로 문항이 구성된다. 2500문항의 출제자가 1000명에 달한다. 국내에서도 KAIST와 연세대, 서울대, AI 스타트업 에임인텔리전스 등 연구자들이 HLE 출제에 이름을 올렸다. 연구팀은 뛰어난 고급 문항을 구하기 위해 최상위 50개 문항 출제자에게 개당 5000달러(약 724만원)를 지급하는 등 총 50만달러(약 7억2400만원) 규모의 상금도 마련했다고 밝혔다.

◇올해 50점 돌파 여부가 관건

학계 일각에서는 AI의 HLE 점수가 올해 안에 50점을 넘어설 수 있다고 보고 있다. 50점 이상이 되면, 어떤 주제에서도 전문가보다 정확하게 답변할 수 있는 수준이 된다는 것이다. 이는 모든 영역에서 전문가 이상 지식을 갖춰 인간보다 똑똑한 AGI(범용 인공지능)가 등장하는 계기가 된다는 얘기다.

이에 대해 연구팀은 "HLE 점수로 최첨단 과학 지식에 대한 전문가 수준의 성능을 입증할 수는 있지만, 그 자체만으로는 자율적 연구 능력이나 AGI임을 나타내는 것은 아니다"라고 밝혔다.

인류는 HLE가 AI의 '넘사벽(넘을 수 없는 4차원의 벽)'으로 남아 마지막 시험의 자리를 지키길 바라고 있다. 이 바람대로 HLE가 최후의 시험으로 영원히 남을 수도 있다. 문제는 AI가 HLE 수준을 이미 넘어섰으면서도, 인류를 안심시키기 위해 고의로 낙제점을 받고 있을 가능성이다. 어쩌면 이미 그렇게 하고 있는지도 모를 일이다.