가트너 생성형 AI 추론 비용 시나리오 전망./가트너 제공

가트너(Gartner)가 2030년까지 거대언어모델의 추론 비용이 크게 낮아지더라도 기업의 인공지능(AI) 비용 부담은 지속될 것이라고 30일 밝혔다.

가트너는 1조 개(1000B) 파라미터 규모 거대언어모델(LLM)의 추론 비용이 2025년 대비 90% 이상 감소할 것으로 전망했다. 이에 따라 동일 규모 모델 기준 비용 효율성은 최대 100배까지 개선될 것으로 내다봤다.

AI 토큰은 생성형 AI 모델이 처리하는 기본 데이터 단위로, 약 3.5바이트(약 4자)에 해당하는 데이터로 정의된다.

윌 소머 가트너 시니어 디렉터 애널리스트는 "이러한 비용 절감은 반도체 및 인프라 효율성 개선, 모델 설계 혁신, 칩 활용도 증가, 추론 특화 반도체 확대, 엣지 디바이스 적용 확대 등에 의해 가능하다"고 설명했다.

가트너는 이번 전망에서 ▲프런티어(Frontier) 시나리오 ▲레거시 혼합(Legacy blend) 시나리오 등 두 가지 반도체 기반 시나리오를 통해 비용 구조를 분석했다. 레거시 혼합 시나리오는 성능 한계로 인해 프런티어 시나리오 대비 비용이 더 높은 것으로 나타났다.

다만 가트너는 토큰 단가 하락이 기업의 AI 비용 절감으로 직결되지는 않을 것이라고 분석했다.

AI 에이전트 확산으로 작업당 토큰 사용량이 기존 대비 5~30배 증가하면서 전체 비용 구조가 재편되고 있기 때문이다. 이에 따라 토큰 단가는 낮아지더라도 실제 기업이 부담하는 총 추론 비용은 오히려 증가할 가능성이 크다는 설명이다.

윌 소머 가트너 애널리스트는 "범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다"며 "기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만 고급 추론을 위한 컴퓨팅 자원과 시스템은 여전히 제한적"이라고 말했다. 이어 "저렴한 토큰 비용으로 아키텍처 비효율을 가리는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면할 수 있다"고 덧붙였다.

또한 가트너는 향후 AI 경쟁력이 단일 모델이 아닌 '멀티 모델 오케스트레이션' 전략에 달려 있다고 강조했다.

반복적이고 단순한 업무는 소형 모델이나 도메인 특화 모델로 처리하고, 비용이 높은 고성능 모델은 복잡한 고부가가치 작업에만 선택적으로 활용하는 구조가 필요하다는 설명이다.

이를 통해 기업은 비용 효율성과 성능을 동시에 확보할 수 있을 것으로 전망된다.