Azure Maia 200発表、Copilot/Foundry向け推論コスト最適化
概要
Microsoftは、CopilotやAzure AI Foundryなどの推論処理向けに最適化した新AIアクセラレータ「Azure Maia 200」を発表しました。高帯域メモリやFP4/FP8対応により、性能あたりコストを約30%改善できるとし、AIサービスのレイテンシ低減、同時実行性向上、運用コスト圧縮につながる点が重要です。
Introduction: why this matters
AIの導入は、推論コストとキャパシティによってますます制約を受けています。特に、アシスタント、copilot、ドメイン特化エージェントをスケールさせる組織では顕著です。Microsoftの新しいMaia 200アクセラレータは、トークン生成の経済性を改善することでこのボトルネックに正面から取り組みます。これは、AzureおよびCopilotのようなMicrosoft管理のエクスペリエンス経由で提供されるAIサービスにおいて、レイテンシの改善、同時実行性の向上、さらには実行コストの低減につながる可能性があります。
What’s new with Maia 200
Purpose-built for inference
Maia 200は、最新の大規模モデルに対して推論スループットと利用率を最大化するよう、推論向けに特化して設計されています。
- Advanced process and low-precision compute: TSMC 3nmで製造され、native FP8/FP4 tensor coresを搭載。Microsoftによれば、各チップは750WのSoC TDP枠内で、>10 petaFLOPS FP4および**>5 petaFLOPS FP8**を提供します。
- High-bandwidth memory and on-chip SRAM: 再設計されたメモリシステムは、216GB HBM3e(7 TB/s)に加え、272MB on-chip SRAMを搭載。さらに、大規模モデルへのデータ供給を効率化することを狙ったデータ移動エンジンも含まれます。
- Scale-out design using standard Ethernet: 2層のスケールアップネットワークは、カスタムトランスポート層と統合NICを備えたstandard Ethernetを採用。2.8 TB/s bidirectional dedicated scale-up bandwidthを公開し、最大6,144 acceleratorsのクラスターにわたって予測可能なcollectivesをサポートします。
Microsoft’s performance and efficiency claims
MicrosoftはMaia 200を、これまでで最も高性能な自社製シリコンと位置付け、次の点を挙げています。
- Microsoftの保有フリートにある現行の最新世代ハードウェアと比べて、~30% better performance per dollar
- Microsoftが公表した比較によれば、FP4性能はAmazon Trainium (3rd gen)の3x、FP8性能はGoogle TPU v7を上回ると主張
Azure integration and Maia SDK preview
Maia 200は、チップおよびラックレベルでのsecurity, telemetry, diagnostics, and managementのために、Azureのcontrol planeへ統合されるよう設計されています。Microsoftはまた、以下を含むMaia SDKのプレビューも提供しています。
- PyTorch integration
- Triton compiler と最適化カーネルライブラリ
- 低レベルプログラミング言語(NPL)へのアクセス
- 早期最適化のための Simulator and cost calculator
Impact for IT admins and platform teams
- For Microsoft 365 Copilot users: Maia 200は複数のモデルに対応する想定で、OpenAIの最新 GPT-5.2 モデルも含まれます。キャパシティ拡大に伴い、負荷時の応答性やスケーリングが改善される可能性があります。
- For Azure AI builders: FP8/FP4向けに最適化された推論負荷の高いアプリでは、より良い価格/性能を提供し得るMaiaバックのSKU/サービスが今後増えることが見込まれます。
- For governance and operations: Azure control planeへのネイティブ統合により、Maiaの展開は既存の運用パターン(監視、信頼性、セキュリティ制御)に沿いやすくなり、特注のAIインフラと比べて摩擦を低減できることが示唆されます。
Deployment details
- Available region (initial): US Central(アイオワ州デモイン近郊)
- Next region: US West 3(アリゾナ州フェニックス近郊)
- 追加リージョンは段階的に計画。
Action items / next steps
- ワークロードに関連するMaiaバックの推論オプション(SKU、リージョン、クォータ)について、Azure service updatesを継続的に追跡する。
- コスト/性能最適化に向けて、モデルの精度要件と対応状況(FP8/FP4の互換性、精度要件)を評価する。
- カスタム推論スタックを構築している場合は、異種アクセラレータ間での移植/最適化パスを評価するため、Maia SDK previewへの参加を検討する。
- Plan for regional capacity: AIアプリがレイテンシに敏感な場合、US Central/US West 3の提供状況がユーザーベースおよびデータ所在地要件にどう対応するかを考慮する。
Microsoftテクノロジーの最新情報を入手