Azure Maia 200 공개, Copilot AI 비용 절감 가속기
요약
Microsoft가 공개한 Azure 전용 AI 가속기 ‘Maia 200’은 FP8/FP4 기반 추론 성능과 메모리·네트워크 구조를 강화해 대규모 모델의 토큰 생성 비용과 지연 시간을 낮추는 데 초점을 맞췄습니다. 회사는 기존 자사 하드웨어 대비 달러당 성능이 약 30% 향상됐다고 밝혔으며, 이는 Copilot과 Azure AI 서비스의 운영비 절감, 더 높은 동시성, 그리고 기업 AI 확장성 개선에 중요한 의미를 가집니다.
Introduction: why this matters
AI 도입은 점점 더 추론 비용과 용량에 의해 제약을 받고 있으며—특히 어시스턴트, copilots, 도메인 특화 에이전트를 확장하는 조직에서 그렇습니다. Microsoft의 새로운 Maia 200 가속기는 토큰 생성 경제성을 개선함으로써 이 병목을 직접적으로 겨냥하며, 이는 더 나은 지연 시간, 더 높은 동시성, 그리고 Azure 및 Copilot 같은 Microsoft 관리형 경험을 통해 제공되는 AI 서비스의 실행 비용 잠재적 절감으로 이어질 수 있습니다.
What’s new with Maia 200
Purpose-built for inference
Maia 200은 최신 대규모 모델에서 추론 처리량과 활용도를 극대화하도록 특별히 설계되었습니다:
- Advanced process and low-precision compute: TSMC 3nm 기반이며 native FP8/FP4 tensor cores를 탑재했습니다. Microsoft에 따르면 각 칩은 750W SoC TDP 범위 내에서 >10 petaFLOPS FP4 및 >5 petaFLOPS FP8를 제공한다고 합니다.
- High-bandwidth memory and on-chip SRAM: 재설계된 메모리 시스템은 7 TB/s의 216GB HBM3e와 272MB on-chip SRAM을 포함하며, 대규모 모델에 데이터를 효율적으로 공급하기 위한 데이터 이동 엔진도 함께 제공합니다.
- Scale-out design using standard Ethernet: 2계층 scale-up 네트워크는 커스텀 전송 계층과 통합 NIC를 갖춘 standard Ethernet을 사용합니다. 이를 통해 2.8 TB/s bidirectional dedicated scale-up bandwidth를 노출하고, 6,144 accelerators까지의 클러스터 전반에서 예측 가능한 collective를 지원합니다.
Microsoft’s performance and efficiency claims
Microsoft는 Maia 200을 자사 역대 가장 높은 성능의 자체 실리콘으로 포지셔닝하며, 다음을 언급합니다:
- Microsoft가 현재 보유한 최신 세대 하드웨어 대비 ~30% better performance per dollar
- Microsoft의 공개 비교에 따르면 FP4 성능은 Amazon Trainium (3rd gen) 대비 3x, FP8 성능은 Google TPU v7를 상회한다고 주장
Azure integration and Maia SDK preview
Maia 200은 칩 및 랙 수준에서 security, telemetry, diagnostics, and management를 위해 Azure의 control plane에 통합되도록 설계되었습니다. 또한 Microsoft는 다음을 포함하는 Maia SDK를 previewing하고 있습니다:
- PyTorch integration
- Triton compiler 및 최적화된 커널 라이브러리
- 저수준 프로그래밍 언어(NPL) 접근
- 조기 최적화를 위한 Simulator and cost calculator
Impact for IT admins and platform teams
- For Microsoft 365 Copilot users: Maia 200은 OpenAI의 최신 GPT-5.2 모델을 포함한 여러 모델을 제공하는 데 사용될 예정이며, 용량이 확장됨에 따라 부하 상황에서의 응답성과 확장성을 개선할 수 있습니다.
- For Azure AI builders: 특히 FP8/FP4에 최적화된 추론 중심 앱에서 더 나은 가격/성능을 제공할 수 있는 Maia 기반 SKU/서비스 세트가 확대될 것으로 예상됩니다.
- For governance and operations: Azure control plane에 네이티브로 통합된다는 점은 Maia 배포가 기존 운영 패턴(모니터링, 안정성, 보안 제어)과 정렬될 가능성이 크며, 맞춤형 AI 인프라 대비 마찰을 줄일 수 있음을 시사합니다.
Deployment details
- Available region (initial): US Central (near Des Moines, Iowa)
- Next region: US West 3 (near Phoenix, Arizona)
- 시간이 지나면서 더 많은 지역이 계획되어 있습니다.
Action items / next steps
- 워크로드에 관련된 Maia 기반 추론 옵션(SKU, 지역, 할당량)을 위해 Azure service updates를 추적하세요.
- 비용/성능 최적화를 위해 모델 정밀도 준비 상태(FP8/FP4 호환성과 정확도 요구 사항)를 평가하세요.
- 커스텀 추론 스택을 구축하고 이기종 가속기 전반의 포팅/최적화 경로를 평가하려면 Maia SDK preview에 참여하세요.
- 지역별 용량을 계획하세요: AI 앱이 지연 시간에 민감하다면, US Central/US West 3 가용성이 사용자 기반 및 데이터 상주(레지던시) 요구 사항과 어떻게 매핑되는지 고려하세요.
Microsoft 기술 최신 정보 받기