구글 클라우드, AI 추론 시대 이끌 7세대 TPU ‘아이언우드’ 정식 출시 및 새로운 액시온 VM 공개

뉴스 제공

2025-11-07 10:58

서울--(뉴스와이어)--구글 클라우드(Google Cloud)가 6일(현지시간) AI 추론(Inference) 시대를 이끌 핵심 컴퓨팅 솔루션인 7세대 TPU ‘아이언우드(Ironwood)’의 정식 출시(GA)와 새로운 Arm® 기반 악시온(Axion) 가상 머신(VM) 인스턴스의 프리뷰 버전을 발표했다. 구글 클라우드는 이를 통해 기업 고객에게 AI 추론과 범용 컴퓨팅 워크로드 전반에서 압도적인 성능과 효율성 혁신을 제공할 예정이다.

아이언우드(Ironwood): 모델 학습에서 강력한 추론으로 가는 지름길

구글 클라우드는 지난 4월 구글 클라우드 넥스트 2025(Next 2025) 행사에서 프리뷰 버전으로 공개한 7세대 TPU(Tensor Processing Unit) 아이언우드가 몇 주 내에 정식 출시된다고 밝혔다. 아이언우드는 대규모 모델 학습, 복잡한 강화학습(RL), 대용량·저지연 AI 추론 등 가장 까다로운 AI 워크로드를 처리하도록 특별히 설계됐다. TPU v5p 대비 최대 10배 향상된 성능과 트릴리움(TPU v6e) 대비 칩당 최대 4배 향상된 학습 및 추론 작업 성능을 제공하며, 현존하는 구글의 TPU 중 가장 강력한 성능 및 에너지 효율성을 자랑한다.

아이언우드는 구글 클라우드의 통합 AI 슈퍼컴퓨팅 시스템 ‘AI 하이퍼컴퓨터(Hypercomputer)’의 핵심 구성 요소로, 컴퓨팅·네트워킹·스토리지·소프트웨어를 통합해 시스템 전반의 성능과 효율성을 극대화한다. IDC의 최근 보고서*에 따르면, AI 하이퍼컴퓨터를 활용한 기업 고객은 3년간 평균 353%의 ROI와 28%의 IT 비용 절감 효과를 경험했으며 IT 팀의 효율성을 55% 향상한 것으로 나타났다.

아이언우드는 최대 9216개의 칩으로 구성된 슈퍼포드(superpod)로 확장할 수 있으며, 초고속 인터칩 인터커넥트(ICI) 네트워킹 기술로 연결돼 9.6Tb/s의 혁신적인 속도를 구현한다. 이를 통해 1.77 페타바이트(PB)의 공유 고대역폭 메모리(HBM)에 액세스해 복잡한 AI 모델에서 발생하는 데이터 병목 현상을 최소화한다.

이 외에도 아이언우드는 광회로 스위칭(Optical Circuit Switching, OCS) 기술을 적용해 네트워크 장애가 발생해도 실시간으로 경로를 재구성해 서비스 중단 없이 워크로드를 복구할 수 있다. 성능 향상이 필요한 경우에는 수십만 개의 TPU를 클러스터로 확장할 수 있어 압도적 수준의 추론 성능을 구현한다.

이미 수많은 글로벌 AI 선도 기업 및 스타트업이 아이언우드를 활용해 모델 학습 및 서비스 효율을 극대화하고 있다. 앤트로픽(Anthropic)은 아이언우드의 뛰어난 가격 대비 성능을 바탕으로 대규모 클로드(Claude) 모델 학습부터 수백만 명의 사용자에게 서비스를 제공하기 위한 환경 구축을 가속화하고 있다. 앤트로픽은 향후 최대 100만 개의 TPU 사용을 계획하고 있다고 밝혔다.

액시온(Axion): 범용 컴퓨팅의 새로운 기준

모델 아키텍처, 소프트웨어, 기술이 끊임없이 변화하는 시대에 기업이 성공하기 위해서는 모델 학습 및 서비스에 특화된 AI 가속기와 일상적인 워크로드에 최적화된 효율적인 범용 CPU 조합이 필요하다. 구글 클라우드는 이번 발표를 통해 ARM 네오버스(Arm Neoverse®) 기반 맞춤형 CPU인 ‘액시온’ 제품군을 확장했다. 액시온은 일상 워크로드에 뛰어난 성능, 비용 및 에너지 효율성을 제공한다. 아이언우드가 모델 서비스의 복잡한 작업을 처리하는 동안, 액시온은 고용량 데이터 준비, 수집, 지능형 애플리케이션 호스팅과 같은 운영상의 백본(backbone) 역할을 수행한다.

이번에 프리뷰 버전으로 공개된 N4A는 구글 클라우드의 두 번째 범용 악시온 VM이다. N 시리즈 중 가장 비용 효율적인 VM으로 현세대 동급 x86 기반 VM 대비 최대 2배 우수한 가격 대비 성능을 제공한다. 마이크로서비스, 컨테이너화된 애플리케이션, 오픈소스 데이터베이스, 데이터 분석 및 웹 서비스 작업 등에 이상적이다.

또한 구글 클라우드의 첫 Arm 기반 베어메탈 인스턴스(bare-metal instance)인 C4A 메탈(C4A metal)이 조만간 프리뷰 버전으로 출시될 예정이다. C4A 메탈은 안드로이드 개발, 차량 내 시스템, 엄격한 라이선스가 필요한 소프트웨어, 복잡한 시뮬레이션 실행과 같은 전문화된 워크로드를 위한 전용 물리 서버를 제공한다.

구글 클라우드는 액시온 포트폴리오에 N4A, C4A, C4A 메탈을 포함한 세 가지 옵션을 제공함으로써, 고객이 원하는 성능과 워크로드별 요구사항에 부응하면서도 비즈니스 운영의 총비용을 낮출 수 있도록 지원할 계획이다.

AI 하이퍼컴퓨터: 더 빠르고 효율적인 하드웨어-소프트웨어 공동 설계

구글 클라우드는 아이언우드의 처리 능력과 메모리를 극대화할 수 있도록, 하드웨어 개발 단계부터 그 위에서 실행될 소프트웨어를 함께 설계할 뿐만 아니라 최적화에도 주력하고 있다. 이는 칩, 모델, 운영 시스템, 개발 프레임워크까지 수직적으로 최적화된 아키텍처를 통합 설계함으로써, 고객에게 AI 라이프사이클 전반에 걸쳐 최고 수준의 성능을 제공하는 것을 의미한다.

TPU 고객은 이제 구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)에서 클러스터 디렉터(Cluster Director) 기능을 사용할 수 있으며, 오픈소스 LLM 프레임워크인 맥스텍스트(MaxText)에는 최신 학습과 강화 학습을 용이하게 하는 새로운 기능들이 추가됐다. 또한 vLLM에서 TPU 지원이 강화돼 개발자가 GPU와 TPU를 쉽게 전환하거나 함께 실행할 수 있으며, GKE 추론 게이트웨이(GKE Inference Gateway)는 TPU 서버 간 로드 밸런싱을 통해 TTFT(Time-to-First-Token, 최초 토큰 생성 시간)를 최대 96% 감소하고, 서비스 비용을 최대 30% 절감한다.

마크 로메이어(Mark Lohmeyer) 구글 클라우드 AI 및 컴퓨팅 인프라 부문 부사장 겸 총괄 매니저는 “에이전트 워크플로와 컴퓨팅 수요의 기하급수적인 증가는 오늘날 추론의 시대를 새롭게 정의하고 있다. 구글 클라우드는 10년 전 처음 선보인 TPU를 비롯해 이러한 전환을 이미 오래전부터 대비해 왔다”고 설명하며 “하드웨어부터 소프트웨어, 관리형 서비스까지 긴밀히 통합된 풀 스택 AI 하이퍼컴퓨터를 바탕으로, 구글 클라우드 고객은 아이언우드와 액시온을 비롯한 다양한 컴퓨팅 옵션을 조합해 가장 까다로운 워크로드에도 최적의 유연성과 성능을 확보할 수 있을 것”이라고 말했다.

* IDC Business Value Snapshot, Sponsored by Google Cloud, The Business Value of Google Cloud AI Hypercomputer, US53855425, October 2025

웹사이트: https://cloud.google.com/?hl=ko