MS·구글 ‘AI 장군멍군’... GPT-4, 새 프롬프트로 ‘제미나이’ 성능 다시 앞서

일러스트=GPT 달리

마이크로소프트(MS)가 오픈AI 초거대언어모델(LLM) GPT-4에 새로운 프롬프트 엔지니어링을 적용, 구글이 최근 공개한 LLM ‘제미나이’의 성능을 다시 앞섰다. 프롬프트 엔지니어링은 LLM이나 생성형 인공지능(AI) 시스템 성능을 개선하는 기술이다. 구글이 지난 7일 제미나이에 대해 “인간 전문가뿐 아니라 GPT-4 추론 능력을 뛰어넘는 모델”이라고 발표한지 일주일만에 MS가 반격에 나선 것이다.

MS는 지난 13일 MS 공식 홈페이지에 ‘경계에서의 조종: 프롬프트 힘의 확장’이란 글을 게시하고 GPT-4 모델이 ‘메드프롬프트+’를 통해 MMLU(대규모 다중 작업 언어 이해) 테스트에서 구글 ‘제미나이 울트라’를 앞섰다고 밝혔다.

메드프롬프트+는 MS의 새로운 프롬프트 엔지니어링 기술이다. MS는 세계 최대 개발자 커뮤니티 ‘깃허브’를 통해 GPT-4에 메드프롬프트+를 적용하는 방법을 공유했다.

MS에 따르면 GPT-4 모델에 메드프롬프트+를 적용하면 현존하는 AI 중 MMLU에서 최고 점수를 얻을 수 있다. MMLU는 AI 지식을 측정하는 대표 벤치마크로, 다양한 전문 지식을 전문가 수준으로 알고 있는지 57개의 주제에 대해 다지선다 문제를 푸는 테스트다. MMLU는 메타(구 페이스북) AI 연구팀이 지난 2021년 처음 개발했는데 인간 전문가 평균 정답률은 89.8%다.

MS에 따르면 메드프롬프트+를 적용한 GPT-4는 MMLU에서 90.10%의 정답률로 제미나이 울트라(90.04%)를 근소한 차이로 앞섰다. MS는 “구글 제미나이 팀도 MMLU에서 기록적인 점수를 달성하기 위해 메드프롬프트+와 유사한 프롬프트 기술을 사용했다”고 설명했다.

다만, MS는 “체계적 프롬프트 엔지니어링으로 AI의 최대 성능을 끌어낼 수 있지만, 간단한 프롬프트 만으로 GPT-4의 기본 성능을 향상 시킬 수 있는 방법을 찾고 있다”고 했다.

메드프롬프트+를 적용한 GPT-4가 MMLU에서 90.10%의 점수로 제미나이 울트라(90.04%)를 근소한 차이로 앞섰다./마이크로소프트(MS)

앞서 구글은 지난주 제미나이를 공개하면서 최상위 버전인 제미나이 울트라에 ‘CoT@32′ 프롬프트 엔지니어링 방식을 적용, GPT-4 성능을 앞섰다고 발표한 바 있다. CoT@32는 AI가 단계별로 추론을 하면서 문제를 풀고, 같은 문제 풀이를 32번 반복한 뒤 답을 내놓는다. 당시 GPT-4의 MMLU 점수률은 86.4%였다.

순다르 피차이 구글 최고경영자(CEO)는 제미나이를 발표하면서 “업계에 보급된 AI 성능 평가 지표에서 가장 앞섰다”며 “그전까지 성능이 가장 우수한 AI 모델로 평가되는 GPT-4보다 뛰어나다”고 강조했다.

피차이 구글 CEO의 발언으로 오픈AI의 최대주주로서 AI 선도 기업으로 자리매김한 MS의 자존심은 타격을 받았다. MS는 오픈AI에 최근 수년간 총 100억달러(약 12조원)를 투자하고, GPT를 윈도, 빙, 오피스 등 자사 주력 제품에 탑재했다.

한편 오픈AI가 MS와 별개로 올 연말 GPT-4의 업그레이드 버전인 GPT-4.5를 공개할 가능성도 제기된다. GPT-4 출시일을 정확히 맞히며 오픈AI 내부자로 알려진 팁스터(정보 유출자) 지미 애플스는 구글이 제미나이를 공개한 직후 자신의 X(옛 트위터)에 “12월 말 출시될 가능성이 있는 GPT-4.5의 새로운 멀티모달에 주목해달라”라고 전했다.