미국 오픈AI가 지난 13일(현지 시각) 최신 인공지능(AI) 모델 ‘GPT-4o(포오)’를 공개했다. 챗GPT, GPT-4를 이을 차세대 거대언어모델(LLM)로, 언어 외에도 사진이나 음성을 함께 처리할 수 있다. 다양한 데이터를 처리할 수 있다는 멀티 모달을 넘어서 모든 데이터를 다룬다는 의미의 ‘옴니(Omni) 모델’이라는 의미를 이름에 담았다. 과학기술계에서는 이번 발표를 두고 “이제는 범용 AI(AGI) 실현 가능 여부에 대한 논의가 필요 없어졌다”는 평가가 나온다.
범용 AI는 정의가 명확하게 내려져 있지는 않으나 일반적으로는 사람처럼 모든 종류의 사고가 가능한 기술을 말한다. 챗GPT가 문자 데이터만 처리할 수 있는 것과 달리 사람은 시각, 음성을 비롯해 다양한 정보를 바탕으로 판단을 내린다. 인공지능도 여러 종류의 데이터에서 정보를 종합해 평가를 내릴 수 있으면 인간이 해결할 수 있는 모든 문제를 다룰 수 있다는 점에서 범용 AI는 궁극적인 목표이다.
한 때 범용 AI 기술의 실현이 불가능하다는 우려도 있었다. 그러나 최근 기술이 빠르게 발전하며 이제는 가능 여부가 아닌 기술 수준을 얼마나 끌어 올릴 수 있을지에 관심이 모이고 있다. GPT-4o 출시는 본격적인 범용 AI 시대를 여는 시작점이라는 평가도 나온다.
김수현 한국과학기술연구원(KIST) 책임연구원은 “연구자에 따라 GPT-4 출시부터 범용 A 시대가 왔다고 보기도 한다”며 “그러나 해결되지 않았던 AI와 실제 세상 사이의 상호작용이 가능해진 것은 GPT-4o가 시작”이라고 말했다.
GPT-4o는 문자를 기반으로 작동했던 기존 모델과 달리 음성을 이용해 사용자와 대화를 주고받는다. 상황에 맞는 자연스러운 말투를 사용하는 것은 물론, 때때로 농담을 섞어 실제 사람과 대화하는 느낌을 준다는 평가를 받는다.
샘 올트먼 오픈AI 최고경영자(CEO)는 자신의 엑스(X·옛 트위터)를 통해 음성 AI가 등장하는 영화인 ‘허(HER)’를 언급하며 “새로운 음성과 영상 모드는 지금까지 사용해본 최고의 컴퓨터 인터페이스”라며 “영화에 나오는 AI 같은 느낌”이라고 말했다.
음성·영상 데이터의 인식과 생성 성능이 급격히 높아졌다는 점에서도 의미가 깊다. 언어 데이터와 달리 음성과 영상 데이터는 더 높은 수준의 AI 기술이 요구되는 분야다. 김 책임연구원은 “음성 인식과 합성 수준이 높아지면서 사람과 대화를 나누는 데 있어서 훨씬 자연스러워졌다”며 “카메라를 통해 주변을 인식하는 성능도 범용 AI 수준에 올랐다”고 말했다.
GPT-4o는 기존 모델과 비교해 음성 데이터 처리 성능뿐 아니라 모든 종류의 데이터 처리 성능이 개선됐다. 오픈AI에 따르면 GPT-4o는 수학·물리학·법학·윤리학 등 57개 과목을 시험하는 다중언어작업이해(MMLU)에서 88.7%의 점수를 받았다. 기존 모델인 GPT-4터보와 구글 제미나이 울트라가 각각 받은 86.5%, 83.7%를 넘어선 수치다.
성능은 개선하면서도 연산에 드는 비용은 오히려 줄었다. 개발자를 대상으로 판매하는 GPT-4o의 API 가격은 100만 토큰 당 입력과 출력에서 각각 5달러(약 6800원)와 15달러(약 2만원)다. 전작인 GPT-4터보가 같은 조건에서 각각 10달러와 30달러의 비용을 요구했던 것을 고려하면 절반 수준으로 떨어진 것이다.
김 책임연구원은 “오픈AI가 가격을 인하했다는 것은 운영 비용을 그만큼 절감했다는 것”이라며 “방법을 공개하지 않는 이상 구체적인 기술은 알 수 없으나 AI 연구에서는 의미가 크다”고 말했다. 이어 “모델 자체를 경량화하거나 최적화하는 방식이 있다”며 “학습 데이터가 많지 않더라도 데이터의 품질을 높이는 방식으로도 비용 절감이 가능하다”고 말했다.
생성형 AI 모델이 학습하는 데이터의 양이 많아지면서 데이터를 보관·관리하기 위한 비용과 온실가스 배출량도 연일 증가하고 있다. GPT-4o에서 획기적인 비용 절감이 이뤄진 만큼 지속가능한 AI 모델과 데이터 연구에 대한 해법을 찾았을 것이라는 분석도 나왔다.
생성형 AI 기술이 급속도로 발전하면서 과학계도 연구에 적극 활용하고 있다. 예를 들어 다른 연구자의 논문 내용을 요약하거나, 자신이 출판하는 논문의 이해를 도울 이미지 자료를 생성형 AI로 만들 수 있다. GPT-4o는 이미지 생성 성능도 비약적으로 발전해 과학 일러스트를 만드는 데에도 활용도가 클 것으로 기대된다.
원병묵 성균관대 신소재공학과 교수는 “최근 발표한 논문이 학술지 표지로 선정되면서 관련 이미지를 만드는 데 제미나이의 도움을 받았다”며 “편집 과정에서 출처를 정확히 밝히고 도움을 받는 수준으로 절차에 맞춰 진행했다”고 말했다.
다만 GPT-4o의 출시로 생성형 AI에 대한 접근성이 좋아지면서 무분별한 사용에 대한 우려도 나온다. 원 교수는 “네이처를 비롯해 학술지 출판사들이 올해 8월까지 생성형 AI에 대한 학술 용도 사용 가이드를 만드는 것으로 알고 있다”며 “AI에서 나온 결과물을 연구에 어떻게 활용할 지에 대한 지침 마련이 시급해진 시점”이라고 말했다.