챗GPT 개발사 오픈AI가 사람처럼 보고 듣고 말하는 ‘옴니모델’ 인공지능(AI) ‘GPT-4o’를 공개했다.
13일(현지 시간) 오픈AI는 온라인 신제품 발표행사를 통해 최신 거대언어모델(LLM) GPT-4o를 공개했다. 새 모델의 ‘o’는 모든 것이라는 ‘옴니’(omni)를 의미한다.
‘GPT-4o’는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있다. 음성의 ‘말투’도 다양하다.
GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초로, 인간의 응답시간과 비슷하다고 오픈AI는 설명했다. 이전 모델인 GPT-3.5의 응답 시간은 평균 2.8초, GPT-4는 5.4초였다.
이날 시연에서 휴대전화로 ‘잠을 잘 자지 못하는 친구를 위해 잠자리 이야기를 들려달라’고 하자, 이 모델은 다양한 목소리와 감정, 톤으로 바꿔가며 이야기를 들려줬다. 또 종이에 적힌 수학 문제(3x+1=4)를 보여주고 답을 말하지 말고 풀어달라고 하자, 시각 기능을 이용해 단계별 과정을 제공했다.
오픈AI는 수학·물리학·법학·윤리학 등 57개 과목을 테스트하는 다중언어작업이해(MMLU)에서 GPT-4o가 88.7%를 기록했다고 밝혔다. GPT-4 터보의 86.5%와 구글 제미나이 울트라의 83.7%를 넘어서는 수준이다.
GPT-4o는 AI비서와 남성이 사랑에 빠지는 영화 ‘HER’을 연상케 한다. 샘 올트먼 최고경영자(CEO)는 지난 10일 자신의 엑스(X·옛 트위터)에 이날 발표를 예고하며 ‘her’라고 적기도 했다. ‘GPT-4o’가 영화를 현실로 만들어주고 있다는 것을 의미하는 것으로 보인다.
오픈AI의 이날 발표는 구글의 연례 개발자 회의(I/O)를 하루 앞두고 나왔다. 구글이 어떤 내용을 발표할 것인지는 알려지지 않았지만, AI 모델인 제미나이의 업그레이드 관련 내용이 담겨 있을 것으로 전망된다.