AI 기반 작업 처리에 있어 Google Cloud는 2024년 말 획기적인 인프라 업데이트를 발표하며 AI 컴퓨팅의 새로운 시대를 열었습니다. 이번 글에서는 NVIDIA H200 GPU로 구동되는 A3 Ultra VM, Trillium TPU, Hypercompute Cluster 등 Google Cloud의 주요 AI 인프라 혁신을 탐구합니다.
AI Hypercomputer: 성능과 유연성의 융합
AI Hypercomputer는 Google Cloud의 최신 AI 인프라 구성 요소를 바탕으로 설계된 시스템 수준의 접근 방식입니다. 이 접근법은 성능 최적화 하드웨어, 오픈소스 소프트웨어, 그리고 유연한 소비 모델을 통합하여 사용자가 특정 워크로드에 가장 적합한 솔루션을 선택할 수 있도록 합니다.
NVIDIA H200 GPU를 탑재한 A3 Ultra VM
A3 Ultra VM은 NVIDIA H200 GPU를 사용하는 Google Cloud의 최신 가상 머신으로, A3 Mega VM 대비 두 배의 GPU 간 네트워크 대역폭과 고대역폭 메모리를 제공합니다. 특히 AI 워크로드를 위해 설계된 이 장치는 초당 3.2Tbps에 달하는 무중단 GPU 간 통신을 제공합니다.
- Google Kubernetes Engine(GKE)을 통해 손쉽게 클러스터 생성 가능
- 새로운 Titanium ML 네트워크 어댑터 및 NVIDIA ConnectX-7 NIC 탑재
- RDMA over Converged Ethernet(RoCE) 활용으로 높은 보안성과 성능 제공
Hypercompute Cluster: 슈퍼컴퓨팅의 혁신
하이퍼컴퓨트 클러스터는 AI Hypercompute 기반 슈퍼컴퓨팅 서비스로, 대규모 AI 훈련 및 고성능 컴퓨팅(HPC) 작업을 보다 효율적으로 처리할 수 있도록 돕습니다. 단일 API 호출만으로 자원을 배치하고, 초저지연 네트워크와 클러스터 수준의 가시성을 제공합니다.
LG AI Research의 사례
LG AI Research는 Exaone 3.0이라는 대규모 언어 모델을 구축하는 과정에서 A3 Ultra VM과 Hypercompute Cluster를 사용하여 혁신적인 성과를 달성했습니다. 클러스터 세팅 시간을 기존 10일에서 단 하루로 단축하며 높은 성능 향상을 경험했다고 밝혔습니다.
TPU 기반 추론 처리 간소화
Trillium TPU는 고급 AI 모델의 복잡한 연산 요구를 처리하기 위한 개선된 추론 처리 성능을 제공합니다. 이전 TPU v5e 대비 최대 3배 증가된 처리량을 통해 다양한 AI 사용 사례에서 놀라운 성능 향상을 제공합니다.
TPU 관련 기능 소개
- JetStream: 대규모 언어 모델(LLM) 최적화
- Hugging Face 연동으로 TPU 사용 간소화
- 새롭게 지원되는 PyTorch/XLA 2.5 기반 TPU 활용
Trillium TPU 활용법
Vertex AI와 같은 관리형 플랫폼을 활용하거나 GKE, Compute Engine과 같은 낮은 스택에서 TPU를 직접 통합 가능합니다. Google Colab에서는 TPU v5e를 바로 사용해볼 수 있는 환경도 제공합니다.
마무리하며
AI Hypercomputer는 Google Cloud가 제공하는 최신 인프라 혁신의 중심에 있습니다. A3 Ultra VM, Trillium TPU, 그리고 Hypercompute Cluster와 같은 도구들은 사용자에게 놀라운 성능과 효율성을 제공합니다. 이번 업데이트를 통해 더 복잡한 AI 문제를 해결하고, 더 높은 성과를 달성해보면 좋을 것 같습니다.
'AI 소식' 카테고리의 다른 글
OpenAI와 뉴스 기관의 저작권 소송 (0) | 2025.01.17 |
---|---|
K-콘텐츠와 AI 플랫폼의 조화를 위한 LargeAct의 미래 비전 (0) | 2025.01.17 |
OpenAI와 Axios의 협업: 지역 뉴스 활성화를 위한 AI와 미디어의 미래 (0) | 2025.01.16 |
글로벌 AI 기술과 정책들의 주요 이슈 정리 (0) | 2025.01.16 |
AI가 만들어가는 '슈퍼워커 시대' (0) | 2025.01.15 |