구글 개발자회의 직전 ‘GPT-4o’ 공개한 오픈AI… “빅테크 마케팅 경쟁 과열”

미라 무라티 오픈AI 최고기술책임자(CTO)가 13일(현지시각) 생중계를 통해 GPT-4o를 공개하고 있다./오픈AI 라이브 스트림 캡처

오픈AI가 사람처럼 보고 듣고 말할 수 있는 인공지능(AI) 모델 ‘GPT-4o’를 구글 연례 개발자회의 ‘I/O’ 전날 발표하면서, 빅테크 기업 간 마케팅 경쟁이 과열됐다는 지적이 나온다.

오픈AI는 13일(현지시각) 온라인 행사 ‘스프링 업데이트’를 통해 GPT-4o를 시연했다. 새 AI 모델의 ‘o’는 모든 것이라는 라틴어 ‘옴니’(omni)를 뜻한다. 텍스트는 물론, 청각과 시각 정보로 추론하고 답을 말할 수 있다는 뜻을 담은 것이다. 50개국 언어를 실시간으로 통역할 수도 있고, 목소리도 로봇 같은 소리부터 교사가 아이들에게 이야기를 들려주는 듯한 목소리까지 다양하게 시연할 수 있다.

미라 무라티 오픈AI 최고기술책임자(CTO)는 “GPT-4o는 GPT-4 터보 대비 2배 빠른 API(애플리케이션 프로그래밍 인터페이스)를 제공한다”고 밝혔다. 기존 GPT4 터보에 비해 2배 빠르고 50% 저렴한 것이 특징이다. GPT-4o의 평균 응답 시간은 232밀리초인데 인간은 평균 320밀리초로 대답해 비슷한 수준이다. GPT-3.5는 응답 시간이 평균 2.8초, GPT-4는 5.4초에 불과하다.

오픈AI는 GPT-4o를 구글 I/O 직전에 발표했다. 앞서 구글이 생성형 AI 챗봇 공개 일정을 공지했을 때에는 오픈AI에 투자한 마이크로소프트(MS)가 하루 전날 자체 행사를 열고 검색엔진 ‘빙’과 생성형 AI 결합을 공개한 적도 있다. 경쟁사의 잔칫날에 방해를 한 셈이다.

업계에서는 구글도 I/O에서 ‘제미나이(Gemini)’가 지원하는 픽셀 전용 가상 비서 ‘픽시(Pixie)’를 공개할 것으로 전망하고 있다. 오픈AI의 GPT-4o 다중 모드처럼 사용자가 텍스트나 음성 입력에 국한되지 않고 픽시와 이미지를 공유할 수 있는 것으로 알려졌다. 제미나이의 업그레이드 관련 내용도 발표할 전망이다.

김명주 서울여대 정보보호학부 교수(바른AI연구센터장)는 “오픈AI는 동영상 제작 AI인 소라나 보이스엔진 등을 발표할 때 구글의 중요 이벤트 전날 공개했다”며 “기술에 대한 희망을 주는 건 좋지만 마케팅 전략에 있어서는 지나친 경쟁이 벌어지고 있는 것”이라고 말했다.

AI의 할루시네이션(환각) 현상에 대한 지적도 나왔다. 김 교수는 “음성 중심의 AI가 개인 비서나 친구 등 사적인 영역으로 들어오면 AI에 대한 의인화 현상이 심해질 것”이라며 “AI 중독·남용 현상이 일어날 수도 있다. 이용자들은 AI의 단점을 명확하고 충분하게 인지한 상태에서 AI를 활용해야 한다”고 말했다.

김진형 카이스트 전산학부 명예교수는 “AI 챗봇들이 마치 사람처럼 대답할 수 있도록 데이터에 의미를 부여하고 해석하게 하려고 하다 보니 방법론적인 측면에서 할루시네이션 현상이 생길 수밖에 없다”며 “스탠퍼드대 논문에 따르면 AI 챗봇이 틀리게 답할 확률이 20%가 넘어 상당히 높은 편”이라고 했다. 그러면서 “생성형 AI가 창작 분야에서는 잘 활용될 수 있어도 정보 검색 등에 사용하려면 유의해야 한다”고 덧붙였다.

오픈AI와 구글에 이어 애플도 다음 달 10일 세계개발자회의(WWDC)에서 AI 전략을 발표할 예정이다. 애플은 자사의 음성 비서인 ‘시리’에 생성형 AI 기능을 탑재할 것으로 전해졌다. 현재 시리는 이용자와 대화는 불가능한 수준이고 정확도가 떨어지는데, 차세대 시리는 이용자와 소통이 잘 되고 더 많은 요청을 이해하는 등 생성형 AI에 의해 작동될 것이라는 게 뉴욕타임스(NYT) 등 외신들의 보도다.