초개인화 AI 반도체를 시연하는 장면/KAIST

KAIST 연구팀이 사용자의 말투와 취향, 감정까지 익혀 반응하는 초개인화 인공지능(AI) 반도체를 개발했다. 클라우드(가상 서버)를 거치지 않고 스마트폰 같은 기기 내부에서 학습과 추론을 동시에 처리하는 구조여서, 개인 정보 유출 우려를 줄이면서도 응답 속도를 크게 높인 것이 특징이다. 거대언어모델(LLM)이 '범용 AI'에서 '나만의 AI 비서'로 진화하는 데 필요한 핵심 기술이라는 평가가 나온다.

KAIST는 인공지능반도체대학원 유회준 교수 연구팀이 개인 맞춤형 LLM 가속기 '소울메이트(SoulMate)'를 개발했다고 17일 밝혔다. 연구팀은 과거 대화 이력을 불러와 맞춤형 답변을 만드는 검색증강생성(RAG)과, 사용자 피드백을 받아 모델을 조금씩 바꾸는 로우랭크 미세조정(LoRA)을 반도체 안에 직접 구현했다. 사용자의 기억과 경험을 반영해 답하고, 대화 도중 받은 반응까지 곧바로 학습하는 구조다.

기존 챗GPT 같은 LLM은 일반 지식에는 강하지만 특정 사용자만의 말투, 취향, 대화 맥락을 오래 기억하며 맞춤형으로 반응하는 데는 한계가 있었다. 특히 모바일 기기에서는 연산량과 메모리 부담 때문에 외부 클라우드에 의존할 수밖에 없었다. 이 경우 사적인 대화가 서버로 가게 되고, 네트워크 상태에 따라 답변이 늦어지는 문제도 생긴다.

소울메이트는 이런 한계를 온디바이스 방식으로 풀었다. 모든 연산과 학습을 기기 안에서 처리해 외부 서버로 개인 정보를 보내지 않는다. 응답 속도도 빠르다. 연구팀에 따르면 첫 답변까지 걸리는 시간은 216.4밀리초(ms) 수준이다. 기존 온디바이스 시스템 대비 첫 응답 지연을 최대 82.5% 줄였고, 사용자 적응 학습에 필요한 에너지도 최대 76.2% 절감했다. 소비 전력은 9.8~180.5밀리와트(mW) 수준으로, 스마트폰·웨어러블 기기 탑재를 염두에 둔 초저전력 설계다.

이 같은 효율을 내기 위해 중요한 토큰에만 더 많은 연산을 배분하는 '혼합 랭크 토큰 처리' 구조를 적용했다. 또 비슷한 문장에 대한 중복 계산을 줄이는 '유사도 기반 시퀀스 처리' 구조를 도입했다. 여기에 전력 소모가 큰 텐서 연산을 더 효율적으로 수행하는 연산 코어를 더했다. 모든 정보를 같은 비중으로 처리하는 대신, 중요한 것만 골라 빠르게 계산하는 방식이다.

연구팀은 이번 기술이 스마트폰은 물론이고 스마트워치, 차량용 AI, 반려 로봇 같은 개인형 AI 기기로 확장될 수 있을 것으로 보고 있다. 단순히 질문에 답하는 AI를 넘어, 사용자를 오래 기억하고 취향에 맞게 진화하는 'AI 동반자' 시대를 여는 기반 기술이라는 것이다.

이번 연구는 지난달 미국 샌프란시스코에서 열린 국제고체회로설계학회(ISSCC)에서 하이라이트 논문으로 선정됐다. 연구팀은 교원 창업 기업 '온뉴로AI'를 통해 2027년 제품화를 추진할 계획이다.

유회준 교수는 "사람들이 서로 우정을 쌓아가는 과정을 모방해 AI가 사용자의 진정한 동반자로 발전할 수 있는 기술적 기반을 마련했다"며 "미래 AI는 프라이버시를 지키면서도 언제 어디서나 나를 가장 잘 이해하는 '베프(Best Friend)'와 같은 존재가 될 것"이라고 했다.