"최첨단 인공지능(AI) 모델의 성능은 추론(inference)에 투입하는 연산 자원과 시간이 늘어날수록 개선되는 흐름을 보이고 있습니다."
노엄 브라운 오픈AI 리서치 부문 부사장은 현재 인공지능(AI) 모델을 평가하는 방식이 실제 모델의 성능과 안전성을 제대로 반영하지 못한다고 주장했다. AI 산업의 무게중심이 모델 학습에서 추론으로 옮겨가고 있는 가운데, 주요 안전성 평가와 AI 벤치마크(성능 지표)는 모델이 추론 과정에서 얼마나 많은 시간·비용·토큰 수를 투입했는지를 측정하지 않아 최첨단 모델의 역량과 위험성을 측정할 수 없다는 의미다.
브라운 부사장은 3일 서울 강남구 웨스틴 서울 파르나스에서 열린 '글로벌 AI 프론티어 심포지엄 2026'의 기조연설에서 "추론의 비중이 커진 시대에 맞춰 AI 모델 평가 방식을 바꿔야 한다"면서 이같이 말했다. 그는 최신 AI 모델은 이용자의 질문에 답을 내놓기 전에 논리적으로 생각하는 과정(추론)에서 사용하는 연산 자원과 시간인 '테스트 타임 컴퓨트(Test-Time Compute)'가 늘어날수록 문제 해결 능력도 함께 개선되지만, 현존하는 벤치마크와 안전성 평가는 이런 흐름을 따라잡지 못한다고 지적했다.
그는 "오픈AI가 4월에 GPT-5.5 모델을 출시했을 때 분명 (이전 모델보다) 성능이 좋아졌지만, 주요 벤치마크 기준으로는 크게 발전한 것처럼 보이진 않았다"라며 "오히려 이용자들이 모델을 여러 작업에 사용해 본 뒤 성능이 얼마나 개선됐는지 체감했는데, 첨단 모델은 추론 과정에 투입하는 시간과 연산량이 증가하면 성능이 향상되기 때문이다"라고 말했다.
실제 영국 AI 안전 연구소가 진행한 사이버 보안 평가에 따르면, 오픈AI의 GPT-5.5나 앤트로픽의 '미토스' 같은 첨단 모델은 1억개의 토큰(token·AI 모델이 정보를 처리하고 답변을 생성하는 데 사용하는 기본 단위)을 출력할 때까지도 성능이 계속 개선됐다. 이마저도 두 모델의 성능이 한계에 도달한 게 아니라, AI 안전 연구소의 예산과 인프라가 부족해 실험을 중단해 토큰 1억개를 출력할 때까지만 성능 평가가 이뤄졌다.
브라운 부사장은 "GPT-4의 경우 연산 자원을 아무리 늘려도 성능이 일정 수준에서 정체됐지만, 최신 모델은 성능이 정체되는 지점이 멀어 기존 평가 방식으로는 실제 역량을 파악하기 어렵다"고 설명했다.
그러면서 앞으로 추론 비용과 시간, 모델이 답을 내기 위해 생성한 토큰 수 등에 따른 성능 변화를 AI 모델 평가에 반영해야 한다고 주장했다. 브라운 부사장은 "이를 통해 고비용 환경에서 모델의 잠재 역량을 예측해야 한다"고 강조했다. 특히 수많은 AI 에이전트가 장기간 협력하는 시대를 대비해 이런 모델의 위험성과 성능을 가늠할 수 있는 평가 체계를 마련하는 게 중요해졌다고 진단했다.
브라운 부사장은 "AI 발전 속도가 빨라 새로운 모델이 출시되는 주기가 2~3개월로 짧아졌다"며 "문제는 지금과 같은 평가 체계로는 다음 모델이 나오기 전까지 현재 AI 모델의 능력이 언제 한계점에 다다르는지 파악하지 못할 가능성이 높다는 것"이라고 진단했다.
현재 오픈AI에서 주력하고 있는 과제를 묻는 질문에는 "장기간에 걸쳐 활동하고 서로 협력하는 AI 에이전트의 시대를 여는 것"이라고 답했다. 브라운 부사장은 "우주 탐사나 AI 등의 기술은 인간이 지난 1만 년 동안 생물학적으로 훨씬 더 똑똑해졌기 때문에 가능해진 게 아니라 수십억 명의 사람들이 수천 년 동안 서로의 지식을 이어받고, 협력하고, 새로운 지식을 축적해 온 결과"라며 "앞으로 수년 내로 수십억 개의 AI 에이전트가 서로의 지식을 공유하고 서로의 성과를 바탕으로 학습하면서 인간의 전문성을 보완하고 인류의 주요 과제를 해결하는 시대가 올 것으로 전망한다"고 했다.
이날 과학기술정보통신부와 정보통신기획평가원이 공동 주최한 '글로벌 AI 프론티어 심포지엄 2026'에는 국내외 AI 산학연 관계자가 대거 참석했다. 레슬리 팩 캘블링 미국 매사추세츠공대(MIT) 파나소닉 석좌교수가 '합리적 로봇'을 주제로, 노엄 브라운 오픈AI 리서치 부문 부사장이 '대규모 추론 연산의 시사점'을 주제로 각각 기조연설을 했다.
이어진 전문 트랙에서는 임우형 LG AI연구원장, 모리타 준 퍼플렉시티 아시아 대표, 김명주 인공지능안전연구소장 등이 발제자로 나섰다. 이 밖에 포스코, LG전자, 오픈AI, 앤트로픽, 퍼플렉시티 등 주요 기업 관계자와 프랑스 프레리 연구소, 캐나다 벡터 연구소 등 해외 연구 기관도 참여했다.