Azure Maia 200: chip de IA da Microsoft para inferência

January 26, 20263 min de leitura

Resumo

O Azure Maia 200 é o novo chip de IA da Microsoft, concebido especificamente para inferência, com foco em aumentar o throughput, reduzir latência e melhorar a eficiência de custos na geração de tokens para modelos de grande escala. Isto importa porque pode ampliar a capacidade do Azure e de serviços como o Copilot, permitindo executar cargas de IA mais exigentes com melhor desempenho e potencialmente menor custo operacional.

Introdução: porque isto importa

A adoção de IA está cada vez mais limitada por custo e capacidade de inferência — especialmente para organizações que estão a escalar assistentes, copilots e agentes específicos por domínio. O novo acelerador Maia 200 da Microsoft visa diretamente este estrangulamento ao melhorar a economia da geração de tokens, o que pode traduzir-se em melhor latência, maior concorrência e potencialmente menores custos de execução para serviços de IA entregues via Azure e experiências geridas pela Microsoft como o Copilot.

O que há de novo com o Maia 200

Concebido especificamente para inferência

O Maia 200 foi projetado especificamente para maximizar o throughput e a utilização em inferência para modelos modernos de grande escala:

Processo avançado e computação de baixa precisão: Construído em TSMC 3nm com tensor cores FP8/FP4 nativos. A Microsoft afirma que cada chip oferece >10 petaFLOPS FP4 e >5 petaFLOPS FP8 dentro de um envelope de TDP de SoC de 750W.
Memória de alta largura de banda e SRAM on-chip: Um sistema de memória redesenhado inclui 216GB HBM3e a 7 TB/s mais 272MB de SRAM on-chip, juntamente com motores de movimentação de dados destinados a manter modelos grandes alimentados de forma eficiente.
Design scale-out com Ethernet padrão: Uma rede de scale-up em dois níveis usa Ethernet padrão com uma camada de transporte personalizada e NIC integrada, expondo 2.8 TB/s de largura de banda dedicada bidirecional de scale-up e suportando coletivos previsíveis em clusters até 6.144 aceleradores.

Alegações de performance e eficiência da Microsoft

A Microsoft posiciona o Maia 200 como o seu silício próprio mais performante até à data e destaca:

~30% melhor performance por dólar do que o hardware de última geração atualmente na frota da Microsoft
Performance FP4 alegada como 3x a do Amazon Trainium (3rd gen) e performance FP8 alegada acima do Google TPU v7 (com base nas comparações publicadas pela Microsoft)

Integração com Azure e pré-visualização do Maia SDK

O Maia 200 foi concebido para integrar-se no control plane do Azure para segurança, telemetria, diagnósticos e gestão ao nível do chip e do rack. A Microsoft também está a disponibilizar em pré-visualização o Maia SDK, incluindo:

Integração com PyTorch
Compilador Triton e biblioteca de kernels otimizados
Acesso a uma linguagem de programação de baixo nível (NPL)
Simulator e calculadora de custos para otimização antecipada

Impacto para admins de IT e equipas de plataforma

Para utilizadores do Microsoft 365 Copilot: O Maia 200 destina-se a servir múltiplos modelos, incluindo os modelos mais recentes GPT-5.2 da OpenAI, o que pode melhorar a capacidade de resposta e o scale sob carga à medida que a capacidade aumenta.
Para construtores de Azure AI: Espera-se um conjunto crescente de SKUs/serviços suportados por Maia que poderão oferecer melhor preço/performance para apps intensivas em inferência, especialmente as otimizadas para FP8/FP4.
Para governance e operações: A integração nativa no control plane do Azure sugere que as implementações de Maia deverão alinhar-se com padrões operacionais existentes (monitorização, fiabilidade e controlos de segurança), reduzindo fricção face a infraestruturas de IA customizadas.

Detalhes de implementação

Região disponível (inicial): US Central (perto de Des Moines, Iowa)
Próxima região: US West 3 (perto de Phoenix, Arizona)
Mais regiões planeadas ao longo do tempo.

Ações / próximos passos

Acompanhar atualizações de serviços do Azure para opções de inferência suportadas por Maia (SKUs, regiões, quotas) relevantes para os seus workloads.
Avaliar a prontidão de precisão do modelo (compatibilidade FP8/FP4 e requisitos de precisão) para otimização de custo/performance.
Aderir à pré-visualização do Maia SDK se desenvolver stacks de inferência personalizados e quiser avaliar caminhos de portabilidade/otimização entre aceleradores heterogéneos.
Planear a capacidade regional: se as suas apps de IA são sensíveis à latência, considere como a disponibilidade em US Central/US West 3 se mapeia para a sua base de utilizadores e necessidades de residência de dados.

Azure Maia 200: chip de IA da Microsoft para inferência

Introdução: porque isto importa

O que há de novo com o Maia 200

Concebido especificamente para inferência

Alegações de performance e eficiência da Microsoft

Integração com Azure e pré-visualização do Maia SDK

Impacto para admins de IT e equipas de plataforma

Detalhes de implementação

Ações / próximos passos

Precisa de ajuda com Azure?

Posts relacionados

Microsoft The Shift Podcast on Agentic AI Challenges

Azure Agentic AI for Regulated Industry Modernization

Fireworks AI on Microsoft Foundry for Azure Inference

Azure Copilot Migration Agent for App Modernization

Azure IaaS Resource Center for Resilient Infrastructure

Microsoft Foundry ROI Study Shows 327% Enterprise AI Gains