Azure Maia 200: чип Microsoft для ИИ-инференса
Кратко
Microsoft представила Azure Maia 200 — ИИ-ускоритель, специально оптимизированный для инференса больших моделей, с упором на высокую пропускную способность, энергоэффективность и снижение стоимости генерации токенов. Это важно, потому что именно инференс сегодня становится главным узким местом для масштабирования Copilot, ассистентов и корпоративных ИИ-сервисов в Azure, а новый чип может помочь снизить задержки, повысить параллельность и улучшить экономику эксплуатации.
Введение: почему это важно
Внедрение ИИ все чаще ограничивается стоимостью и емкостью инференса — особенно для организаций, которые масштабируют ассистентов, copilots и специализированных агентов. Новый ускоритель Maia 200 от Microsoft нацелен напрямую на этот узкий участок, улучшая экономику генерации токенов, что может дать меньшую задержку, более высокую параллельность и потенциально более низкие затраты на выполнение для ИИ-сервисов, предоставляемых через Azure и управляемых Microsoft сценариев вроде Copilot.
Что нового в Maia 200
Спроектирован специально для инференса
Maia 200 разработан для максимизации пропускной способности и утилизации при инференсе современных больших моделей:
- Передовой техпроцесс и низкая точность вычислений: Выполнен на TSMC 3nm с native FP8/FP4 tensor cores. Microsoft заявляет, что каждый чип обеспечивает >10 petaFLOPS FP4 и >5 petaFLOPS FP8 в рамках 750W SoC TDP.
- Высокопропускная память и on-chip SRAM: Переработанная подсистема памяти включает 216GB HBM3e со скоростью 7 TB/s плюс 272MB on-chip SRAM, а также механизмы перемещения данных, призванные эффективно «подпитывать» большие модели.
- Scale-out дизайн на стандартном Ethernet: Двухуровневая сеть scale-up использует standard Ethernet с кастомным транспортным уровнем и интегрированным NIC, обеспечивая 2.8 TB/s bidirectional dedicated scale-up bandwidth и поддерживая предсказуемые collectives в кластерах до 6,144 accelerators.
Заявления Microsoft о производительности и эффективности
Microsoft позиционирует Maia 200 как свой самый производительный собственный чип на текущий момент и отмечает:
- ~30% лучше performance per dollar, чем аппаратное обеспечение последнего поколения, используемое сейчас в инфраструктуре Microsoft
- Заявленная производительность FP4 — в 3 раза выше, чем у Amazon Trainium (3rd gen), а FP8 — выше Google TPU v7 (по опубликованным сравнениям Microsoft)
Интеграция с Azure и превью Maia SDK
Maia 200 спроектирован для интеграции с control plane Azure для security, telemetry, diagnostics, and management на уровне чипов и стоек. Microsoft также выпускает в preview Maia SDK, включая:
- PyTorch integration
- Triton compiler и оптимизированную библиотеку kernels
- Доступ к низкоуровневому языку программирования (NPL)
- Simulator and cost calculator для более ранней оптимизации
Влияние для IT-администраторов и платформенных команд
- Для пользователей Microsoft 365 Copilot: Maia 200 предполагается использовать для нескольких моделей, включая новейшие модели GPT-5.2 от OpenAI, что может улучшить отзывчивость и масштабирование под нагрузкой по мере роста емкости.
- Для разработчиков Azure AI: Ожидайте расширения набора SKUs/сервисов на базе Maia, которые могут дать лучший показатель цена/производительность для inference-насыщенных приложений, особенно оптимизированных под FP8/FP4.
- Для governance и операций: Нативная интеграция с control plane Azure подразумевает, что развертывания Maia должны укладываться в существующие операционные практики (мониторинг, надежность и контроли безопасности), снижая трение по сравнению с кастомной ИИ-инфраструктурой.
Детали развертывания
- Доступный регион (первый): US Central (рядом с Des Moines, Iowa)
- Следующий регион: US West 3 (рядом с Phoenix, Arizona)
- Со временем планируются дополнительные регионы.
Рекомендации / дальнейшие шаги
- Отслеживайте обновления сервисов Azure для вариантов инференса на базе Maia (SKUs, регионы, квоты), релевантных вашим нагрузкам.
- Оцените готовность к низкой точности (совместимость FP8/FP4 и требования к точности) для оптимизации стоимости/производительности.
- Присоединяйтесь к preview Maia SDK, если вы строите собственные inference-стеки и хотите оценить пути переноса/оптимизации на гетерогенных ускорителях.
- Планируйте региональную емкость: если ваши ИИ-приложения чувствительны к задержке, оцените, как доступность US Central/US West 3 соотносится с вашей базой пользователей и требованиями к резидентности данных.
Нужна помощь с Azure?
Наши эксперты помогут вам внедрить и оптимизировать решения Microsoft.
Поговорить с экспертомБудьте в курсе технологий Microsoft