Azure Maia 200 发布:微软推理芯片降低 Copilot AI 成本
摘要
微软发布面向大模型推理的 Azure Maia 200 芯片,主打以更低成本提供更高吞吐、并发和更低延迟,目标是缓解 Copilot、AI 助手和行业代理大规模落地时最关键的推理成本与容量瓶颈。对企业和开发者而言,这意味着未来 Azure 与 Microsoft 365 Copilot 有望获得更好的价格/性能、更快响应以及更顺畅的运维集成,从而加速生成式 AI 在生产环境中的应用。
引言:为什么这很重要
AI 的采用正越来越多地受到推理成本与容量的制约——尤其是对正在规模化部署助手、copilot 和特定领域 agent 的组织而言。Microsoft 新推出的 Maia 200 加速器直接瞄准这一瓶颈,通过改善 token 生成的经济性,带来更低延迟、更高并发,并有望降低通过 Azure 以及 Copilot 等 Microsoft 托管体验交付 AI 服务的运行成本。
Maia 200 有哪些新变化
为推理量身打造
Maia 200 专为最大化现代大模型的推理吞吐与利用率而设计:
- 先进制程与低精度计算:采用 TSMC 3nm 工艺,配备 原生 FP8/FP4 tensor cores。Microsoft 表示,每颗芯片在 750W SoC TDP 功耗包络内可提供 >10 petaFLOPS FP4 与 >5 petaFLOPS FP8。
- 高带宽内存与片上 SRAM:重新设计的内存系统包含 216GB HBM3e(带宽 7 TB/s)与 272MB 片上 SRAM,并配备数据搬运引擎,以更高效率为大模型持续供给数据。
- 使用标准 Ethernet 的横向扩展设计:两层 scale-up 网络采用 标准 Ethernet,结合自定义传输层与集成 NIC,提供 2.8 TB/s 双向专用 scale-up 带宽,并支持在最多 6,144 个加速器的集群中实现可预测的 collectives。
Microsoft 的性能与效率主张
Microsoft 将 Maia 200 定位为其迄今性能最强的第一方芯片,并指出:
- 相比 Microsoft 现有机群中最新一代硬件,每美元性能提升约 30%
- 根据 Microsoft 公布的对比数据,其 FP4 性能宣称达到 **Amazon Trainium(第 3 代)**的 3 倍,FP8 性能宣称高于 Google TPU v7
Azure 集成与 Maia SDK 预览
Maia 200 设计为可集成到 Azure 控制平面中,在芯片与机架层面提供 安全、遥测、诊断与管理能力。Microsoft 同时还在 预览 Maia SDK,包括:
- PyTorch 集成
- Triton compiler 与优化 kernel 库
- 访问一种低级编程语言(NPL)
- 用于更早期优化的 Simulator 与成本计算器
对 IT 管理员与平台团队的影响
- 对 Microsoft 365 Copilot 用户:Maia 200 旨在承载多种模型,包括来自 OpenAI 的最新 GPT-5.2 模型;随着容量扩展,这可能提升响应速度并改善高负载下的扩展能力。
- 对 Azure AI 构建者:预计将出现越来越多基于 Maia 的 SKU/服务,为推理密集型应用提供更好的价格/性能,尤其适用于对 FP8/FP4 进行优化的工作负载。
- 对治理与运维:原生 Azure 控制平面集成意味着 Maia 部署应能对齐既有运维模式(监控、可靠性与安全控制),相较于定制化 AI 基础设施可降低落地摩擦。
部署细节
- 可用区域(初期):US Central(爱荷华州得梅因附近)
- 下一个区域:US West 3(亚利桑那州菲尼克斯附近)
- 未来将逐步扩展到更多区域。
行动项 / 下一步
- 关注 Azure 服务更新:跟踪与 Maia 推理选项相关的服务信息(SKU、区域、配额),并评估其与自身工作负载的适配性。
- 评估模型精度就绪度:检查 FP8/FP4 兼容性与精度要求,以进行成本/性能优化。
- 加入 Maia SDK 预览:若你在构建自定义推理栈并希望评估在异构加速器间的移植/优化路径,可考虑参与。
- 规划区域容量:若 AI 应用对延迟敏感,应结合 US Central/US West 3 的可用性,评估其与用户分布及数据驻留要求的匹配度。
获取微软技术最新资讯