고대역폭메모리(HBM)의 기본 구조를 창안해 'HBM의 아버지'로 불리는 김정호 카이스트 전기·전자공학부 교수는 3일 서울 광화문 프레스센터에서 열린 기술 설명회에서 이같이 말하며 HBF(고대역폭플래시) 로드맵을 공식 제시했다. 김 교수는 "AI가 가는 방향이 이대로라면 HBF는 선택이 아니라 필연"이라고 강조했다. D램을 적층한 HBM이 연산에 필요한 고속 메모리를 맡는다면, HBF는 낸드플래시를 기반으로 한 대용량 메모리로 AI가 지속적으로 불러 쓰는 '기억 저장소' 역할을 한다는 설명이다.

김 교수가 HBF를 꺼내든 배경에는 AI의 진화가 있다. AI는 학습에서 추론으로, 다시 에이전트 AI로 발전하고 있다. 질문 하나에 답하고 끝나는 단계를 넘어, 에이전트 AI는 이메일을 읽고 문서를 정리하며 외부 자료를 찾아 판단까지 수행하는 연속적 작업을 수행한다. 여기에 텍스트뿐 아니라 이미지·영상·음성을 동시에 처리하는 멀티모달 AI가 결합되면서, AI가 다뤄야 할 데이터의 양과 메모리 요구는 이전과는 다른 수준으로 커지고 있다.

3일 김정호 카이스트 교수가 서울 광화문 프레스센터에서 고대역폭플래시(HBF) 로드맵을 발표하고 있다./최효정 기자

메모리가 중요해지는 것도 이 때문이다. 김 교수는 현재 AI 모델의 기본 구조인 트랜스포머 모델을 설명하며 "AI가 입력을 이해하는 과정에서 만들어지는 KV 캐시는 단순한 데이터가 아니라, 단어와 개념 간 관계를 담은 일종의 암호북"이라며 "나는 이걸 AI가 쓰는 신의 언어라고 부른다"고 말했다. 이 KV 캐시는 단어를 하나씩 생성하는 과정에서 계속 참조되며, 문맥이 길어지고 멀티모달로 갈수록 그 규모가 수백기가바이트(GB)에서 테라바이트(TB), 경우에 따라 수십TB까지 커진다.

문제는 이처럼 커지는 막대한 기억을 기존 HBM만으로는 감당할 수 없다는 점이다. 김 교수는 "HBM은 아무리 쌓아도 200GB 안팎"이라며 "KV 캐시가 수백GB, TB로 커지는 순간 HBM만으로는 구조적으로 안 된다"고 말했다. 그는 "AI가 첫 단어를 늦게 내놓고 전체 생성 속도가 떨어지는 이유도 결국 메모리 한계 때문"이라고 설명했다.

김 교수가 제시한 해법이 바로 HBF다. HBF는 대용량 낸드플래시를 기반으로 한 메모리로, HBM보다 속도는 느리지만 SSD보다 훨씬 빠르고, 무엇보다 메모리 용량을 크게 확장할 수 있다. 김 교수는 이를 도서관에 비유했다. 그는 "HBM이 책상 위에 올려둔 참고서라면, HBF는 바로 옆에 있는 서가다. 오픈북 시험에서 책상만으로는 안 되고, 결국 서가에서 책을 꺼내와야 한다"고 말했다. 에이전트·멀티모달 AI로 갈수록 이 '서가형 메모리'가 필수라는 설명이다.

실제 엔비디아는 차세대 아키텍처 '베라 루빈(Vera Rubin)'에 AI의 대화 맥락을 저장하는 전용 플랫폼인 '인퍼런스 컨텍스트 메모리 스토리지(Inference Context Memory Storage)'를 도입하겠다고 밝혔다. 젠슨 황 CEO는 'CES 2026′에서 "이 플랫폼이 전 세계 AI의 작업 메모리를 담당하는 거대한 스토리지 시장으로 성장할 것"이라고 말했다. 업계에서는 이 신규 플랫폼의 핵심 메모리로 HBF가 채택될 가능성이 크다고 보고 있다. 그래픽처리장치(GPU)의 핵심 메모리가 HBM으로 자리 잡았듯, HBF가 AI 추론용 스토리지의 표준 메모리로 부상할 수 있다는 분석이다.

이날 김 교수는 HBF를 포함한 메모리 아키텍처 로드맵도 함께 공개했다. 초기에는 추론 중심 환경에서 HBF가 먼저 적용된다. 대규모 KV 캐시와 긴 문맥 데이터는 HBF가 맡고, 고대역폭 연산과 모델 파라미터 처리는 HBM이 담당하는 방식이다. 즉, 속도가 필요한 영역은 HBM이, 용량이 필요한 영역은 HBF가 나눠 맡는 구조다. 김 교수는 AI 워크로드가 확대될수록 메모리 시스템 내에서 HBF의 역할과 비중이 계속 커질 것이라고 설명했다.

김 교수는 이 같은 흐름을 AI 시대의 메모리 주도권 경쟁으로 설명했다. 과거 PC 시대에는 CPU, 스마트폰 시대에는 애플리케이션 프로세서(AP)가 컴퓨터 구조를 규정했지만, AI 시대에는 메모리 구조가 성능과 확장성을 좌우하는 핵심 요소로 떠올랐다는 것이다. 특히 그는 "HBM과 HBF를 동시에 할 수 있는 나라는 사실상 한국뿐"이라고 말하며 삼성전자와 SK하이닉스를 직접 언급했다. HBM과 낸드플래시를 모두 보유한 기업이 제한적인 만큼, 양사 모두 경쟁력을 갖고 있다는 설명이다.

김 교수는 GPU 성능 향상과 메모리 구조 변화는 분리될 수 없는 문제라고 강조했다. AI 연산을 담당하는 GPU가 아무리 빨라져도, 이를 뒷받침할 메모리 계층이 따라오지 못하면 성능과 확장성 모두 한계에 부딪힐 수밖에 없다는 것이다. 그는 이 때문에 글로벌 GPU 기업들이 한국 메모리 기업과의 협력을 더욱 강화하게 될 것이라고 내다봤다.

김 교수는 "지금의 컴퓨터 구조와 AI 모델이 유지되는 한, AI는 계속 메모리를 더 많이 쓸 수밖에 없다. 2038년에는 HBF 수요가 HBM을 넘을 것"이라며 "AI 성능 경쟁이 연산 중심에서 메모리 구조 경쟁으로 이동하고 있고, HBM과 HBF를 아우르는 메모리 계층을 누가 먼저 설계·주도하느냐가 산업의 방향을 가를 것"이라고 했다.