구글, AI 학습·추론 성능 끌어올린 8세대 TPU 공개…“달러당 전력효율 80%↑"

구글의 추론 특화 8세대 AI 칩 'TPU 8i'. /연합뉴스

구글이 인공지능(AI) 학습과 추론에 특화한 8세대 텐서 프로세서 유닛(TPU)을 공개했다. 업계에서 엔비디아 그래픽처리장치(GPU)의 대항마로 주목 받아온 구글 TPU는 이번 8세대 제품에서 기존보다 학습 속도를 3배, 초저지연 추론 성능을 구현했다.

구글은 22일(현지시각) 미국 라스베이거스 만달레이베이 컨벤션센터에서 열린 '구글 클라우드 넥스트' 행사에서 학습, 추론에 최적화한 'TPU 8t'와 'TPU 8i'를 선보였다.

TPU는 구글이 지속적으로 개발하고 있는 자체 AI 서비스에 특화한 주문형 반도체(ASIC)다. 전력 공급 구조를 최적화해 엔비디아 GPU보다 전력 효율이 높다는 평가를 받는다. 지난 2015년 초 구글 클라우드 데이터센터에 처음 배치된 이후 엔비디아의 GPU에 대한 의존도를 줄이는 데 핵심 역할을 하고 있다.

우선 TPU 8t는 높은 연산 처리량과 공유 고대역폭메모리(HBM) 등을 활용해 전작인 7세대 '아이언우드'와 비교해 학습 성능을 3배로 끌어올렸다. 또 칩 간 연결(ICI) 기술을 활용해 칩을 최대 9600개까지, HBM 용량을 최대 2PB(페타바이트)까지 확장했다. 구글에 따르면 해당 TPU로 최첨단 AI 모델 개발에 소요되는 시간을 몇 개월에서 몇 주로 단축할 수 있다.

추론에 최적화한 TPU 8i는 HBM 288GB에 속도가 빠른 S램 384MB를 함께 탑재한 데다 칩 간 데이터 이동 경로를 절반 이상 단축했다. AI 서비스 응답 속도를 더 빠르게 지원한다는 의미다. 일반적인 AI 챗봇의 응답을 비롯해 로봇이나 에이전트를 구동할 때 작업의 병목이 발생하는 것을 막을 수 있다는 설명이다. 전력 효율도 크게 끌어올려 이전 세대 제품보다 달러당 성능을 80% 높였다.

토머스 쿠리안 구글 클라우드 CEO는 AI 칩을 두 종류로 나눈 이유에 대해 "생성 AI가 폭넓게 확산했을 때 사람들이 학습에 최적화한 시스템과 추론에 맞춘 시스템을 각각 원할 것으로 판단했다"며 "AI 인프라 확장에서 전력이 제약 요인이 될 것을 예상하고 설계 단계부터 에너지 효율을 극대화하는 데 중점을 뒀다"고 밝혔다.

구글, AI 학습·추론 성능 끌어올린 8세대 TPU 공개…"달러당 전력효율 80%↑"