구글 리서치 블로그
"터보퀀트는 구글판 딥시크다."
매튜 프린스 클라우드플레어 최고경영자(CEO)

구글이 인공지능(AI) 모델의 메모리 사용량을 획기적으로 줄이는 신기술 '터보퀀트(TurboQuant)'를 공개한 뒤 글로벌 반도체 시장이 요동치고 있습니다. 언젠가 터보퀀트 기술이 상용화되면 메모리 반도체 수요가 크게 감소할 수 있다는 우려에 삼성전자, SK하이닉스, 마이크론 등 주요 반도체 기업의 주가가 약세를 보였습니다. 시장은 구글 터보퀀트의 파급력을 지난해 저비용·고성능 AI 모델로 AI 산업을 충격에 몰아넣은 중국 '딥시크 쇼크'에 비유하고 있습니다.

아직 논문 단계인 이 기술이 향후 AI 인프라 시장에 어떤 영향을 미칠지 업계 관심이 쏠리고 있습니다.

구글 리서치는 지난 24일(현지시각) 자사 블로그에 양자화 알고리즘인 터보퀀트를 소개하면서 "극단적 압축으로 AI 효율을 재정의했다"고 설명했습니다. 구글에 따르면 터보퀀트는 성능이나 정확도 저하 없이 AI 모델 크기를 줄이는 압축 기법으로 거대언어모델(LLM)의 메모리 사용량을 현재의 6분의 1 수준으로 줄였고, 연산 속도는 8배 높이는 기술입니다.

챗GPT나 제미나이, 클로드 등 AI 챗봇에서 사용자가 질문(프롬프트)을 입력하면 AI는 다음과 같은 추론 과정을 거쳐 답변을 내놓습니다. 먼저 사용자가 쓴 문장을 단어·글자 단위인 '토큰'으로 잘게 나눈 뒤, 토큰을 숫자들의 배열인 '벡터' 형태로 변환합니다. 이후 단어 간 관계와 중요도를 계산하는 '맥락(문맥) 이해'를 거쳐 다음에 올 단어를 확률적으로 예측하고, 이 과정을 반복하면서 한 단어씩 이어 붙여 최종 답변을 생성합니다.

AI는 사용자와의 대화가 길어지면 이전 대화 기록 등 맥락 정보를 참고해 답변을 제공합니다. 이때 앞서 처리한 맥락 정보를 다음 답변에 빠르게 활용하기 위해 KV(Key·Value) 캐시라는 '임시 저장소'에 저장해 둡니다. 문제는 대화가 길어질수록 KV 캐시에 저장해야 하는 정보가 늘어나면서 메모리 사용량이 증가하고 응답 속도도 느려지는 병목 현상이 나타납니다.

터보퀀트 기술은 이 KV 캐시를 압축해 메모리 사용량을 줄이는 동시에 성능은 유지하는 데 중점을 두고 있습니다. 압축은 맥락 정보의 크기를 줄이는 기술인 '극좌표양자화'(폴라퀀트)', 성능 유지는 오차를 줄여주는 기술인 'QJL'(양자화 존슨-린덴스트라우스 변환) 알고리즘을 활용해 달성합니다.

먼저 폴라퀀트 기술은 AI가 다루는 데이터를 무작위로 회전시켜 구조를 압축하기 쉬운 단순한 형태로 만들어 줍니다. 데이터 구조를 직교좌표계에서 극좌표계로 바꿔가며 크기를 줄이는 원리입니다. 일례로 '동쪽으로 3칸, 북쪽으로 4칸 가라'는 식의 지시를 '37도 각도로 5칸 가라'는 식으로 바꾸는 식입니다. 압축 과정에서 발생할 수 있는 오차는 QJL 알고리즘으로 보완합니다. 단 1비트만을 소모하는 이 기술은 메모리를 거의 사용하지 않고도 작은 오차를 없애주는 역할을 합니다.

구글 리서치는 터보퀀트를 미스트랄 등의 AI 모델에 적용해 실험했습니다. 장문의 글에서 작고 사소한 정보를 찾아내는 '건초더미에서 바늘 찾기(needle-in-haystack)' 실험에 터보퀀트를 적용한 결과, 필요한 정보를 정확하게 찾아내면서도 KV 캐시의 메모리 사용량을 기존 모델의 6분의 1 수준으로 줄이는 데 성공했습니다. 일반적으로 KV 캐시는 32비트나 16비트로 저장되는데, 구글은 터보퀀트를 통해 정확도 훼손 없이 KV 캐시를 3비트 수준으로 압축할 수 있다고 설명했습니다. 적은 자원으로 복잡하고 긴 문맥을 처리할 수 있다는 설명입니다.

또 엔비디아의 H100 그래픽처리장치(GPU)를 기준으로 연산 속도는 최대 8배까지 빨라졌다고 덧붙였습니다.

구글이 터보퀀트 같은 신기술을 꾸준히 연구하고 선보이는 이유는 회사의 주력 사업인 검색과 신성장 동력인 AI의 효율을 높이기 위함입니다. 검색 광고는 구글 연간 매출의 절반 이상을 차지하는 핵심 수익원입니다. 그러나 AI의 등장으로 구글의 '검색 왕국' 아성이 위협을 받으면서, 구글도 검색에 AI를 접목하는 방식으로 변화에 대응하고 있습니다.

검색은 속도와 정확성이 생명인데, 검색이 AI와 결합한 형태로 바뀌면서 추론과 연산 수요가 기하급수적으로 늘고 메모리 사용량도 불어나는 추세입니다. 구글은 AI 기반 검색과 자사 AI 모델 '제미나이'의 속도 및 성능이 저해될 가능성을 낮추고, 메모리 사용 증가에 따른 비용 부담을 줄이기 위한 해결책을 찾는 데 집중하고 있습니다.

아직 논문 수준의 연구이지만, 구글은 해당 기술이 상용화될 경우 "제미나이의 KV 캐시 병목 문제를 해결하는 데 응용될 수 있다"고 평가했습니다. 구글은 블로그에서 "오늘날의 검색은 단순히 입력한 단어와 일치하는 정보를 찾아주는 데 그치지 않고 사용자의 검색 의도와 문맥적 의미를 파악하는 의미 기반 검색(semantic search)으로 발전하고 있다"며 "이를 위해서는 '벡터 검색', 즉 수십억 개의 벡터 데이터 속에서 의미적으로 가장 비슷한 결과를 찾아주는 능력이 필요한데, 터보퀀트는 이런 목표를 달성하는 데 핵심 역할을 한다"고 설명했습니다.

그러면서 "AI가 LLM부터 의미 기반 검색에 이르기까지 모든 제품에 점점 더 깊이 통합됨에 따라 이런 연구의 중요성은 앞으로 더 커질 것"이라고 덧붙였습니다.

앞서 구글 리서치는 터보퀀트 관련 내용이 담긴 보고서를 지난해 4월 '아카이브'에 게재했었고, 이번 주 자사 블로그에 올린 관련 글이 갑자기 시장의 주목을 받으면서 반도체 시장을 뒤흔들었습니다. 구글은 오는 4월 열리는 AI 국제학술대회 'ICLR 2026′에서 해당 연구를 정식 발표하고, 구체적인 성능과 적용 범위에 대한 추가 검증 결과도 공개할 예정입니다.