클라우드

구글 8세대 TPU 공개...에이전트 AI 시대 맞춰 특화 설계

2026년 5월 3일
2분
구글이 클라우드 넥스트 2026에서 학습과 추론 최적화한 TPU 8t, 8i 공개했다.
[한국정보기술신문] 구글이 최신 8세대 텐서 프로세싱 유닛(TPU) 8t와 8i를 발표했다. 10년 이상 칩 개발을 진행한 결과물로, 에이전트형 인공지능이 요구하는 지속적 추론과 다단계 실행 능력을 갖췄다. 구글 클라우드 넥스트에서 공개된 이번 칩은 AI 인프라 경쟁에서 구글의 입지를 강화할 전망이다.
image.png
구글 제공

학습 최적화된 TPU 8t

image.png
구글 제공
TPU 8t는 대규모 언어 모델(LLM) 개발에 최적화된 학습용 칩이다. 이전 세대 대비 약 3배 높은 연산 성능을 제공한다. 최대 9600개 칩을 연결해 121 엑사플롭스의 막대한 연산 능력을 구현한다.
메모리 구성도 획기적이다. 2페타바이트의 고대역폭 메모리를 칩 간에 공유하며, 칩 간 대역폭을 이전 세대 대비 2배 늘렸다. 이로써 대형 모델 학습 사이클을 수개월에서 수주일로 단축할 수 있다.
안정성도 개선됐다. 고급 신뢰성 기능으로 97% 이상의 실제 처리량을 보장한다. 투명한 액체 냉각 기술을 적용해 전력 효율을 높였다.

추론 최적화된 TPU 8i

image.png
구글 제공
TPU 8i는 지연 시간을 최소화해야 하는 추론 서빙에 특화됐다. 에이전트형 AI 시스템의 협력적 작동을 지원할 수 있도록 설계됐다.
메모리 용량은 288기가바이트의 고대역폭 메모리를 탑재했고, 온칩 메모리는 384메가바이트로 이전 세대 대비 3배 증가했다. 혼합 전문가(MoE) 모델을 위한 상호 연결 대역폭은 19.2 테라비트/초에 달한다.
image.png
TPU 8i hierarchical Boardfly topology building up from a building block of four fully connected chips into a fully connected group of eight boards, with 36 of such groups fully connected into a TPU 8i pod | 구글 제공
구글은 보드플라이 토폴로지를 도입해 네트워크 직경을 50% 이상 줄였다. 성능 대비 가격 효율은 80% 향상됐다. CPU 호스트는 커스텀 액시온 암 기반 프로세서 2개를 탑재했다.

개발자 친화적 설계

두 칩 모두 구글 액시온 암 기반 CPU 호스트를 통합했다. 개발자들이 이미 사용하는 프레임워크를 지원한다. JAX, 맥스텍스트, 파이토치, SGLang, vLLM 등이 그것이다.
성능 대비 전력 효율도 2배 향상됐다. 이는 데이터센터 운영 비용 절감으로 이어진다. 협동 설계 방식으로 구글의 AI 하이퍼컴퓨터 플랫폼과 완벽하게 호환된다.
image.png
Google Cloud’s fourth generation cooling distribution unit | 구글 제공

출시 일정

일반 공급 시작은 2026년 하반기로 예정돼 있다. 구글의 AI 하이퍼컴퓨터 플랫폼을 통해 접근 가능하다. 업계 전문가들은 이번 신칩이 엔터프라이즈급 AI 수요에 효과적으로 대응할 것으로 평가하고 있다.
한국정보기술신문 클라우드분과 이준호 기자 news@kitpa.org