"지난 27년간 축적한 검색 인프라와 노하우, 블로그·카페 등 방대한 콘텐츠, 쇼핑·플레이스 등 다양한 서비스 자산은 네이버만의 경쟁력입니다. 이를 인공지능(AI) 기술로 연결해, 검색부터 실행까지 이어주는 경험을 AI 검색에 구현했습니다."

한승균 네이버 AI 검색 서비스 리더가 지난 2일 네이버 D2SF 강남에서 열린 간담회에서 발언하고 있다. /네이버 제공

한승균 네이버 AI 검색 서비스 리더는 지난 2일 네이버 D2SF 강남에서 열린 간담회에서 이렇게 말했다. 네이버는 지난달 25일 AI 기반 대화형 검색 서비스 'AI탭'을 정식 출시했다. 이용자와 대화하며 의도와 맥락을 파악해 최적의 결과를 찾아주는 서비스다. 네이버는 이날 AI탭에 적용된 핵심 기술 3가지를 소개했다. ▲AI 검색을 위해 개발한 프로덕트 네이티브 대규모언어모델(LLM) ▲AI를 효율적으로 운영하도록 하는 하네스 엔지니어링 ▲AI의 시각적 이해를 확장하는 멀티모달 기술이다.

◇ 응답 속도와 효율 높인 프로덕트 네이티브 LLM

네이버의 AI탭에는 프로덕트 네이티브 LLM이 적용됐다. 하이퍼클로바X를 기반으로 경량화한 모델이다. 이기창 네이버클라우드 하이퍼스케일 AI 모델 이사는 "프로덕트 네이티브 LLM의 지향은 모든 벤치마크에서 1등을 하는 것이 아니라, 네이버 사용자가 검색·구매·예약을 할 때 가장 좋은 성능을 내는 것"이라면서 "학습 데이터 구축부터 모델 설계, 강화 학습까지 전 과정을 네이버 서비스에 맞춰 최적화했다"고 소개했다.

이기창 네이버클라우드 하이퍼스케일 AI 모델 이사가 지난 2일 네이버 D2SF 강남에서 열린 간담회에서 발언하고 있다. /네이버 제공

네이버는 프로덕트 네이티브 LLM의 효율성을 극대화하기 위해 데이터, 아키텍처, 트레이닝 3대 축을 중심으로 개발했다고 소개했다. 데이터 측면에서는 학습 데이터의 품질을 높였고, 아키텍처 측면에서는 일부 매개변수만 선택해 대규모 서비스 환경에 최적화한 전문가 혼합(MoE·Mixture of Experts) 구조를 도입했다. 기존 하이퍼클로바X 대비 응답 속도를 높이고 처리량을 늘렸다. 트레이닝 단계에서는 강화 학습에 투입하는 컴퓨팅 자원을 기존 하이퍼클로바X 대비 2배 이상 확대했다. 또 AI가 추가 질문을 통해 사용자의 의도를 명확하게 확인하도록 하는 명료성 강화 학습(Clarify RL) 기술을 도입, 할루시네이션(환각)을 줄였다.

◇ LLM에만 의존 않고 SLM 조합

AI 서비스에는 모델의 성능도 중요하지만, 모델이 실제로 일을 잘하게 작업 환경을 설계하는 것도 중요하다. AI의 작업 환경을 마련하는 것을 '하네스 엔지니어링'이라고 부른다. 한 리더는 하네스 엔지니어링을 AI의 '일머리'에 비유하며, "AI 에이전트를 만들기 위해서는 LLM 모델뿐만 아니라 비용 효율성과 안정성을 설계하는 하네스 엔지니어링이 필수"라고 설명했다.

네이버가 AI탭에 적용한 하네스 엔지니어링은 분업형 소규모 언어 모델(SLM) 구조가 특징이다. LLM에 모든 작업을 맡기는 대신, 역할별로 특화한 SLM을 조합하는 방식이다. 이를 통해 장비 운영 비용을 기존 대비 최대 3배 절감하고, 응답 속도는 2배 이상 개선하는 성과를 거뒀다고 네이버는 밝혔다. 또 분업형 SLM 구조는 새로운 SLM이 개발되면 해당 부분만 플러그인 형태로 교체할 수 있어, 서비스를 중단하지 않고 개선할 수 있다고 덧붙였다.

◇ AI 검색의 다음 단계는 '사진으로 의도 읽고 행동'

네이버는 멀티모달 기술을 고도화해 다양한 영역에서 멀티모달 검색을 선보이겠다는 계획을 소개했다. 멀티모달은 이미지를 AI가 이해할 수 있는 표현(임베딩)으로 변환해 텍스트뿐 아니라 이미지와 영상 등 다양한 형태의 정보를 함께 이해하고 활용할 수 있도록 하는 기술을 뜻한다.

윤상두 네이버 퓨처 AI 센터 리더가 지난 2일 네이버 D2SF 강남에서 열린 간담회에서 발언하고 있다. /네이버 제공

네이버는 2017년 스마트렌즈를 출시하며 이미지 검색 서비스를 선보인 이후, 기술 고도화를 통해 멀티모달 검색 역량을 축적했다. 네이버는 그동안 스마트렌즈를 통해 상품을 인식하고 구매하는 사용자 경험 구현에 집중해 왔는데, 앞으로는 탐색, 질의, 예약 등 실행까지 이어지는 연속적인 멀티모달 검색으로 확장할 계획이다. 윤상두 네이버 퓨처 AI 센터 리더는 "향후 네이버의 AI 에이전트 서비스는 텍스트뿐 아니라 이미지를 통해서도 사용자의 의도를 이해하고 실제 행동까지 연결하는 방향으로 진화할 것"이라고 말했다. 네이버는 하나의 이미지와 실제 대화 패턴을 함께 학습해 문맥까지 이해하는 멀티모달 임베딩 기술 MuCo(Multi-turn Contrastive Learning)가 글로벌 최고 권위 컴퓨터 비전 학회 CVPR에서 성과를 인정받았다고 덧붙였다.