Azure Maia 200: чип Microsoft для ИИ-инференса

January 26, 20263 мин. чтения

Кратко

Microsoft представила Azure Maia 200 — ИИ-ускоритель, специально оптимизированный для инференса больших моделей, с упором на высокую пропускную способность, энергоэффективность и снижение стоимости генерации токенов. Это важно, потому что именно инференс сегодня становится главным узким местом для масштабирования Copilot, ассистентов и корпоративных ИИ-сервисов в Azure, а новый чип может помочь снизить задержки, повысить параллельность и улучшить экономику эксплуатации.

Введение: почему это важно

Внедрение ИИ все чаще ограничивается стоимостью и емкостью инференса — особенно для организаций, которые масштабируют ассистентов, copilots и специализированных агентов. Новый ускоритель Maia 200 от Microsoft нацелен напрямую на этот узкий участок, улучшая экономику генерации токенов, что может дать меньшую задержку, более высокую параллельность и потенциально более низкие затраты на выполнение для ИИ-сервисов, предоставляемых через Azure и управляемых Microsoft сценариев вроде Copilot.

Что нового в Maia 200

Спроектирован специально для инференса

Maia 200 разработан для максимизации пропускной способности и утилизации при инференсе современных больших моделей:

Передовой техпроцесс и низкая точность вычислений: Выполнен на TSMC 3nm с native FP8/FP4 tensor cores. Microsoft заявляет, что каждый чип обеспечивает >10 petaFLOPS FP4 и >5 petaFLOPS FP8 в рамках 750W SoC TDP.
Высокопропускная память и on-chip SRAM: Переработанная подсистема памяти включает 216GB HBM3e со скоростью 7 TB/s плюс 272MB on-chip SRAM, а также механизмы перемещения данных, призванные эффективно «подпитывать» большие модели.
Scale-out дизайн на стандартном Ethernet: Двухуровневая сеть scale-up использует standard Ethernet с кастомным транспортным уровнем и интегрированным NIC, обеспечивая 2.8 TB/s bidirectional dedicated scale-up bandwidth и поддерживая предсказуемые collectives в кластерах до 6,144 accelerators.

Заявления Microsoft о производительности и эффективности

Microsoft позиционирует Maia 200 как свой самый производительный собственный чип на текущий момент и отмечает:

~30% лучше performance per dollar, чем аппаратное обеспечение последнего поколения, используемое сейчас в инфраструктуре Microsoft
Заявленная производительность FP4 — в 3 раза выше, чем у Amazon Trainium (3rd gen), а FP8 — выше Google TPU v7 (по опубликованным сравнениям Microsoft)

Интеграция с Azure и превью Maia SDK

Maia 200 спроектирован для интеграции с control plane Azure для security, telemetry, diagnostics, and management на уровне чипов и стоек. Microsoft также выпускает в preview Maia SDK, включая:

PyTorch integration
Triton compiler и оптимизированную библиотеку kernels
Доступ к низкоуровневому языку программирования (NPL)
Simulator and cost calculator для более ранней оптимизации

Влияние для IT-администраторов и платформенных команд

Для пользователей Microsoft 365 Copilot: Maia 200 предполагается использовать для нескольких моделей, включая новейшие модели GPT-5.2 от OpenAI, что может улучшить отзывчивость и масштабирование под нагрузкой по мере роста емкости.
Для разработчиков Azure AI: Ожидайте расширения набора SKUs/сервисов на базе Maia, которые могут дать лучший показатель цена/производительность для inference-насыщенных приложений, особенно оптимизированных под FP8/FP4.
Для governance и операций: Нативная интеграция с control plane Azure подразумевает, что развертывания Maia должны укладываться в существующие операционные практики (мониторинг, надежность и контроли безопасности), снижая трение по сравнению с кастомной ИИ-инфраструктурой.

Детали развертывания

Доступный регион (первый): US Central (рядом с Des Moines, Iowa)
Следующий регион: US West 3 (рядом с Phoenix, Arizona)
Со временем планируются дополнительные регионы.

Azure Maia 200: чип Microsoft для ИИ-инференса

Введение: почему это важно

Что нового в Maia 200

Спроектирован специально для инференса

Заявления Microsoft о производительности и эффективности

Интеграция с Azure и превью Maia SDK

Влияние для IT-администраторов и платформенных команд

Детали развертывания

Рекомендации / дальнейшие шаги

Нужна помощь с Azure?

Похожие статьи

Подкаст Microsoft The Shift об agentic AI и Azure

Azure и agentic AI для модернизации в регулируемых отраслях

Fireworks AI в Microsoft Foundry для инференса в Azure

Azure Copilot для миграции и модернизации приложений

Azure IaaS Resource Center для устойчивой инфраструктуры

Microsoft Foundry и ROI 327%: платформа AI для Azure