아마존웹서비스(AWS)의 트레이니엄을 소개하는 맷 가먼 AWS CEO./AWS

구글이 최근 텐서처리장치(TPU)를 공개한 데 이어 세계 최대 클라우드 기업인 아마존웹서비스(AWS)도 자체 맞춤형 인공지능(AI) 칩 '트레이니엄3'를 공개했다. 엔비디아의 그래픽처리장치(GPU) 의존도를 낮추고 자체 하드웨어 비중을 늘리겠다는 의도다. 다만 자체 개발한 TPU의 성능 수치를 객관적으로 제시한 구글과 달리 AWS는 핵심 정보를 모두 감췄고, 성능의 절대적 지표와 생태계 호환성 측면에서 여전히 GPU에 미치지 못한다는 평가다.

AWS는 2일(현지시각) 미국 라스베이거스에서 개최한 연례 클라우드컴퓨팅 콘퍼런스 '리인벤트(re:Invent) 2025'에서 컴퓨팅 성능은 높고 전력 소모는 줄인 자체 칩 트레이니엄3를 출시한다고 밝혔다. AWS는 해당 제품이 전작인 '트레이니엄2′와 견줘 컴퓨팅 성능은 4배 이상으로 끌어올린 반면 에너지 소비량은 40%가량 낮췄다고 강조했다.

다만 AWS는 해당 칩의 구체적 플롭스(FLOPS/floating point operations per second) 수치와 대규모언어모델(LLM) 벤치마크, 엔비디아의 주력 GPU 제품군(H100/H200/GB200)과의 비교 수치는 공개하지 않아 '반쪽짜리' 발표라는 평가다. 구글이 최근 TPU를 공개하며 해당 제품으로 학습시킨 LLM으로 성능, 전력 대비 효율, 속도 등을 구체적으로 밝힌 것과 대비된다.

AWS는 이번 제품이 이전 세대 트레이니엄2와 비교해 4배 빠르며 운영 비용을 최대 50% 절감할 수 있다고 밝혔으나, 자사 제품과의 비교이기 때문에 현재 AI 칩 시장에서 경쟁력을 가질 수 있는지는 불명확하다. 게다가 이전 세대 제품 역시 GPU와 비교해 성능 측면에서 크게 열세였다는 점을 감안하면 이번 제품도 GPU를 대체하긴 어렵다는 분석이다.

가장 큰 난관은 대규모 AI 학습에 필수적인 칩 클러스터를 하나로 묶는 동기화, 데이터 통신 기술이 가능한지 여부다. AWS는 이번 행사에서 트레이니엄3가 최대 10만개 규모의 칩 클러스터를 구성 가능하다고 밝혔지만, 이 같은 대규모 칩 클러스터에서 발생하는 병목 현상 해결에 대한 대책은 밝히지 않았다. 또 AWS가 공개한 전성비 수치도 이전 세대 대비 개선됐다고 밝혔지만 엔비디아 GPU, 구글 TPU와 비교한 수치는 공개하지 않아 절대적 성능 측면에선 여전히 물음표가 붙었다.

학습 성능과 추론 성능, 지연 속도 개선 등에 대한 핵심 포인트도 AWS는 객관적 수치를 감췄다. 최근 구글 TPU가 구체적인 칩 성능을 공개한 것과 달리 AWS는 LLM 추론 성능, 레이턴시 등은 공개하지 않았다. AWS가 강조한 전력 효율성 개선도 구체적으로 GPU와 TPU 대비 어느 정도에 위치하는 지 지표나 데이터센터 운영 비용에서 큰 비중을 차지하는 발열 관리(thermal throttling) 실전 데이터도 없었다.

자사 서비스에 대한 최적화 측면에서 구글이 내놓은 TPU보다 떨어진다는 지적도 나온다. GPU 대신 AWS 자체 칩을 적용할 경우 대규모학습모델에서 AI 서비스 품질 저하로 이어질 가능성도 있다는 얘기다. 구글 TPU가 자사 자체 AI 모델인 제미나이에 최적화돼 학습 성능이 업계 최고 수준을 달성한 것과 달리 AWS의 트레이니엄 시리즈는 가격이 저렴한 대신 학습 속도가 크게 떨어지는 것으로 알려졌다.

클라우드업계 관계자는 "이번에 AWS가 공개한 트레이니엄3의 연산 능력은 엔비디아의 이전 세대 제품인 H100보다 낮은 것으로 추정되며 학습 속도의 경우 클라우드에 특화한 설계로 비교적 높은 수준이지만 엔비디아 블랙웰에 비교하면 크게 떨어진다"며 "해당 제품이 일부 데이터센터에서 GPU를 대체하는 효과를 발휘할 수 있지만 어디까지나 비용 절감 측면이며 고성능이 필요한 영역에선 여전히 GPU를 대체하긴 어려울 것"이라고 설명했다.