Azure Maia 200発表、Copilot/Foundry向け推論コスト最適化

January 26, 20263分で読める

概要

Microsoftは、CopilotやAzure AI Foundryなどの推論処理向けに最適化した新AIアクセラレータ「Azure Maia 200」を発表しました。高帯域メモリやFP4/FP8対応により、性能あたりコストを約30％改善できるとし、AIサービスのレイテンシ低減、同時実行性向上、運用コスト圧縮につながる点が重要です。

Introduction: why this matters

AIの導入は、推論コストとキャパシティによってますます制約を受けています。特に、アシスタント、copilot、ドメイン特化エージェントをスケールさせる組織では顕著です。Microsoftの新しいMaia 200アクセラレータは、トークン生成の経済性を改善することでこのボトルネックに正面から取り組みます。これは、AzureおよびCopilotのようなMicrosoft管理のエクスペリエンス経由で提供されるAIサービスにおいて、レイテンシの改善、同時実行性の向上、さらには実行コストの低減につながる可能性があります。

What’s new with Maia 200

Purpose-built for inference

Maia 200は、最新の大規模モデルに対して推論スループットと利用率を最大化するよう、推論向けに特化して設計されています。

Advanced process and low-precision compute: TSMC 3nmで製造され、native FP8/FP4 tensor coresを搭載。Microsoftによれば、各チップは750WのSoC TDP枠内で、>10 petaFLOPS FP4および**>5 petaFLOPS FP8**を提供します。
High-bandwidth memory and on-chip SRAM: 再設計されたメモリシステムは、216GB HBM3e（7 TB/s）に加え、272MB on-chip SRAMを搭載。さらに、大規模モデルへのデータ供給を効率化することを狙ったデータ移動エンジンも含まれます。
Scale-out design using standard Ethernet: 2層のスケールアップネットワークは、カスタムトランスポート層と統合NICを備えたstandard Ethernetを採用。2.8 TB/s bidirectional dedicated scale-up bandwidthを公開し、最大6,144 acceleratorsのクラスターにわたって予測可能なcollectivesをサポートします。

Microsoft’s performance and efficiency claims

MicrosoftはMaia 200を、これまでで最も高性能な自社製シリコンと位置付け、次の点を挙げています。

Microsoftの保有フリートにある現行の最新世代ハードウェアと比べて、~30% better performance per dollar
Microsoftが公表した比較によれば、FP4性能はAmazon Trainium (3rd gen)の3x、FP8性能はGoogle TPU v7を上回ると主張

Azure integration and Maia SDK preview

Maia 200は、チップおよびラックレベルでのsecurity, telemetry, diagnostics, and managementのために、Azureのcontrol planeへ統合されるよう設計されています。Microsoftはまた、以下を含むMaia SDKのプレビューも提供しています。

PyTorch integration
Triton compiler と最適化カーネルライブラリ
低レベルプログラミング言語（NPL）へのアクセス
早期最適化のための Simulator and cost calculator

Impact for IT admins and platform teams

For Microsoft 365 Copilot users: Maia 200は複数のモデルに対応する想定で、OpenAIの最新 GPT-5.2 モデルも含まれます。キャパシティ拡大に伴い、負荷時の応答性やスケーリングが改善される可能性があります。
For Azure AI builders: FP8/FP4向けに最適化された推論負荷の高いアプリでは、より良い価格/性能を提供し得るMaiaバックのSKU/サービスが今後増えることが見込まれます。
For governance and operations: Azure control planeへのネイティブ統合により、Maiaの展開は既存の運用パターン（監視、信頼性、セキュリティ制御）に沿いやすくなり、特注のAIインフラと比べて摩擦を低減できることが示唆されます。

Deployment details

Available region (initial): US Central（アイオワ州デモイン近郊）
Next region: US West 3（アリゾナ州フェニックス近郊）
追加リージョンは段階的に計画。

Action items / next steps

ワークロードに関連するMaiaバックの推論オプション（SKU、リージョン、クォータ）について、Azure service updatesを継続的に追跡する。
コスト/性能最適化に向けて、モデルの精度要件と対応状況（FP8/FP4の互換性、精度要件）を評価する。
カスタム推論スタックを構築している場合は、異種アクセラレータ間での移植/最適化パスを評価するため、Maia SDK previewへの参加を検討する。
Plan for regional capacity: AIアプリがレイテンシに敏感な場合、US Central/US West 3の提供状況がユーザーベースおよびデータ所在地要件にどう対応するかを考慮する。

Azure Maia 200発表、Copilot/Foundry向け推論コスト最適化

Introduction: why this matters

What’s new with Maia 200

Purpose-built for inference

Microsoft’s performance and efficiency claims

Azure integration and Maia SDK preview

Impact for IT admins and platform teams

Deployment details

Action items / next steps

Azureでお困りですか？

関連記事

Agentic AI 課題を探る Microsoft The Shift Podcast

Azure agentic AIで規制業界のモダナイゼーションを加速

Fireworks AIをMicrosoft FoundryでAzure推論に活用

Azure Copilot 移行エージェントでアプリ最新化を加速

Azure IaaS Resource Center：レジリエントな基盤設計ガイド

Microsoft Foundry ROI調査：企業AIで327%の成果