엔비디아가 차세대 GPU '블랙웰(Blackwell)' 플랫폼을 통해 AI 추론 비용을 최대 10배 절감하며 '토크노믹스(Tokenomics, 토큰 경제)' 대중화에 나섰다고 20일 밝혔다.
엔비디아에 따르면 베이스텐(Baseten), 투게더 AI(Together AI) 등 주요 추론 서비스 제공업체들은 블랙웰 도입 후 기존 '호퍼(Hopper)' 대비 토큰당 비용을 최대 90%까지 줄이는 데 성공했다. 이는 고도화된 하드웨어 설계와 텐서RT-LLM 등 최적화 소프트웨어 스택의 공동 설계 덕분이다.
산업별로는 의료 AI 기업 '설리.ai(Sully.ai)'가 블랙웰 기반 오픈소스 모델을 배포해 추론 비용을 기존 폐쇄형 모델 대비 10배 절감하고 응답 시간을 65% 개선했다. 게이밍 분야의 '래티튜드(Latitude)'는 블랙웰의 NVFP4 저정밀 형식을 활용해 토큰당 비용을 4배 낮췄으며, 고객 서비스 기업 '데카곤(Decagon)'은 음성 AI 상호작용 비용을 6배 줄이면서도 400ms 미만의 빠른 응답 속도를 확보했다.
엔비디아는 이러한 비용 하락 추세가 차세대 '루빈(Rubin)' 플랫폼에서 더욱 가속화될 것으로 전망했다. 루빈 플랫폼은 블랙웰 대비 10배의 성능 향상과 10배의 추가 비용 절감을 목표로 하고 있어, 기업들의 AI 서비스 확장 문턱이 더욱 낮아질 것으로 보인다.
엔비디아 관계자는 "인프라와 알고리즘 효율성 향상을 통해 최첨단 AI의 추론 비용이 연간 최대 10배씩 감소하고 있다"며 "블랙웰은 전 산업 분야에서 기업들이 지능형 에이전트를 경제적으로 배포할 수 있도록 돕는 핵심 인프라가 될 것"이라고 밝혔다.