일러스트=GPT 달리

구글이 6일(현지시각) 공개한 차세대 초거대언어모델(LLM) ‘제미나이’(Gemini)가 오픈AI GPT-4의 성능을 넘어선 비결은 CoT(Chain-of-thought, 연속 추론) 기술 덕분인 것으로 확인됐다. 구글 제미나이에 자극을 받은 오픈AI가 GPT-4의 업그레이드 버전인 GPT-4.5를 올 연말 공개할 가능성도 제기되고 있다.

7일 구글 딥마인드가 제미나이를 발표한 후 공개한 기술보고서 ‘제미나이 고성능 멀티모달 제품(Gemini: A Family of Highly Capable Multimodal Models)’에 따르면 제미나이는 ‘CoT@32′ 방식을 결합해 GPT-4를 앞섰다.

제미나이는 텍스트 뿐 아니라 이미지를 인식하고 음성으로 말하거나 들을 수 있으며 코딩 능력까지 갖춘 멀티모달 인공지능(AI)이다. 수학 문제를 풀거나 데이터를 분석하는 추론 능력도 갖췄다. 멀티모달은 시각, 청각 등을 활용해 텍스트 뿐만 아니라 이미지, 음성, 영상 등으로 상호작용하는 것이다.

구글에 따르면 제미나이는 57개 과목에 걸친 지식을 측정하는 종합적인 시험 벤치마크인 MMLU(대규모 다중작업 언어 이해)에서 90%의 점수를 얻어, 전문가(인간) 점수인 89.8%를 넘은 첫 AI다. 같은 테스트에서 오픈AI GPT-4의 점수는 86.4%를 기록했다.

구글은 지난해 5월 연구 논문을 통해 CoT 이론을 처음 발표한 바 있다. 구글이 제미나이 최상위 버전인 ‘제미나이 울트라’에 적용한 CoT@32는 AI가 단계별로 추론을 하면서 문제를 풀고, 같은 문제 풀이를 32번 반복한 뒤 답을 내놓는다.

기존 LLM은 산술 문제나 상식을 추론하는 능력이 떨어지는 경우 잘못된 오류에 도달할 수 있는데, 최종 답변을 제공하기 전에 관련 추론 단계로 풀이 과정을 추가 요청해 문제에 대해 더 생각할 수 있도록 한 것이다.

그래픽=손민균

일례로 ‘여행에 필요한 총 연료비를 계산하려고 한다. 출발지와 목적지 사이의 거리는 500마일이고 자동차의 평균 연비는 갤런당 30마일이다. 현재 연료 가격은 갤런당 3.50달러다. 여행에 필요한 예상 총 연료비를 계산해달라’라는 질문을 한다고 가정해 보자.

그러면 제미나이는 ▲총 연료 비용을 계산하려면 여행에 필요한 총 연료 갤런 수를 결정해야 합니다 ▲먼저 전체 거리를 주행하는 데 몇 갤런의 연료가 필요한지 계산해 보겠습니다. 총 거리 500마일을 자동차의 평균 연비(갤런당 30마일)로 나눕니다. 즉, 갤런당 500마일/30마일=16.67갤런입니다 ▲갤런은 분수를 가질 수 없으므로 가장 가까운 정수로 반올림해야 합니다. 따라서 자동차는 전체 여행 동안 약 17갤런의 연료를 필요로 합니다 ▲다음으로 총 연료 비용(17갤런*갤런당 $3.50 = $59.50)을 찾기 위해 총 갤런 수(17)에 갤런당 가격($3.50)을 곱합니다. ▲따라서 자동차 여행에 소요되는 예상 총 연료비는 $59.50입니다’라고 답을 내놓는 방식이다.

GPT-4에 사용된 5-shot은 특정 질문을 하면 비슷한 문제 예시 5개를 기반으로 문제를 풀어나가는 방식이다. 특정 질문과 비슷한 다른 문제와 그 해답을 제공하면 이 예시들을 분석해 문제를 해결하는 데 필요한 방법이나 논리적 접근법을 학습, 새로운 문제에 대해 해답을 찾는 것이다.

구글 딥마인드는 “제미나이에 5-shot을 적용했을 때는 GPT-4와 큰 차이가 없지만, CoT를 적용할 시 GPT-4 성능을 추월했다”고 설명했다.

오픈AI도 구글 제미나이의 반격에 맞서 차세대 GPT 모델 개발을 서두를 것으로 전망된다. GPT-4 출시일을 정확히 맞히며 오픈AI 내부자로 알려진 팁스터(정보 유출자) 지미 애플스는 구글이 제미나이를 공개한 직후 자신의 X(옛 트위터)에 “곧 출시될 일부 오픈 소스 (LLM) 모델이 더 기대된다”며 “하지만 12월 말 출시될 가능성이 있는 GPT-4.5와 앤스로픽의 새로운 멀티모달에 주목해달라”라고 전했다.