Azure Maia 200: chip de IA da Microsoft para inferência
Resumo
O Azure Maia 200 é o novo chip de IA da Microsoft, concebido especificamente para inferência, com foco em aumentar o throughput, reduzir latência e melhorar a eficiência de custos na geração de tokens para modelos de grande escala. Isto importa porque pode ampliar a capacidade do Azure e de serviços como o Copilot, permitindo executar cargas de IA mais exigentes com melhor desempenho e potencialmente menor custo operacional.
Introdução: porque isto importa
A adoção de IA está cada vez mais limitada por custo e capacidade de inferência — especialmente para organizações que estão a escalar assistentes, copilots e agentes específicos por domínio. O novo acelerador Maia 200 da Microsoft visa diretamente este estrangulamento ao melhorar a economia da geração de tokens, o que pode traduzir-se em melhor latência, maior concorrência e potencialmente menores custos de execução para serviços de IA entregues via Azure e experiências geridas pela Microsoft como o Copilot.
O que há de novo com o Maia 200
Concebido especificamente para inferência
O Maia 200 foi projetado especificamente para maximizar o throughput e a utilização em inferência para modelos modernos de grande escala:
- Processo avançado e computação de baixa precisão: Construído em TSMC 3nm com tensor cores FP8/FP4 nativos. A Microsoft afirma que cada chip oferece >10 petaFLOPS FP4 e >5 petaFLOPS FP8 dentro de um envelope de TDP de SoC de 750W.
- Memória de alta largura de banda e SRAM on-chip: Um sistema de memória redesenhado inclui 216GB HBM3e a 7 TB/s mais 272MB de SRAM on-chip, juntamente com motores de movimentação de dados destinados a manter modelos grandes alimentados de forma eficiente.
- Design scale-out com Ethernet padrão: Uma rede de scale-up em dois níveis usa Ethernet padrão com uma camada de transporte personalizada e NIC integrada, expondo 2.8 TB/s de largura de banda dedicada bidirecional de scale-up e suportando coletivos previsíveis em clusters até 6.144 aceleradores.
Alegações de performance e eficiência da Microsoft
A Microsoft posiciona o Maia 200 como o seu silício próprio mais performante até à data e destaca:
- ~30% melhor performance por dólar do que o hardware de última geração atualmente na frota da Microsoft
- Performance FP4 alegada como 3x a do Amazon Trainium (3rd gen) e performance FP8 alegada acima do Google TPU v7 (com base nas comparações publicadas pela Microsoft)
Integração com Azure e pré-visualização do Maia SDK
O Maia 200 foi concebido para integrar-se no control plane do Azure para segurança, telemetria, diagnósticos e gestão ao nível do chip e do rack. A Microsoft também está a disponibilizar em pré-visualização o Maia SDK, incluindo:
- Integração com PyTorch
- Compilador Triton e biblioteca de kernels otimizados
- Acesso a uma linguagem de programação de baixo nível (NPL)
- Simulator e calculadora de custos para otimização antecipada
Impacto para admins de IT e equipas de plataforma
- Para utilizadores do Microsoft 365 Copilot: O Maia 200 destina-se a servir múltiplos modelos, incluindo os modelos mais recentes GPT-5.2 da OpenAI, o que pode melhorar a capacidade de resposta e o scale sob carga à medida que a capacidade aumenta.
- Para construtores de Azure AI: Espera-se um conjunto crescente de SKUs/serviços suportados por Maia que poderão oferecer melhor preço/performance para apps intensivas em inferência, especialmente as otimizadas para FP8/FP4.
- Para governance e operações: A integração nativa no control plane do Azure sugere que as implementações de Maia deverão alinhar-se com padrões operacionais existentes (monitorização, fiabilidade e controlos de segurança), reduzindo fricção face a infraestruturas de IA customizadas.
Detalhes de implementação
- Região disponível (inicial): US Central (perto de Des Moines, Iowa)
- Próxima região: US West 3 (perto de Phoenix, Arizona)
- Mais regiões planeadas ao longo do tempo.
Ações / próximos passos
- Acompanhar atualizações de serviços do Azure para opções de inferência suportadas por Maia (SKUs, regiões, quotas) relevantes para os seus workloads.
- Avaliar a prontidão de precisão do modelo (compatibilidade FP8/FP4 e requisitos de precisão) para otimização de custo/performance.
- Aderir à pré-visualização do Maia SDK se desenvolver stacks de inferência personalizados e quiser avaliar caminhos de portabilidade/otimização entre aceleradores heterogéneos.
- Planear a capacidade regional: se as suas apps de IA são sensíveis à latência, considere como a disponibilidade em US Central/US West 3 se mapeia para a sua base de utilizadores e necessidades de residência de dados.
Precisa de ajuda com Azure?
Nossos especialistas podem ajudá-lo a implementar e otimizar suas soluções Microsoft.
Fale com um especialistaFique atualizado sobre as tecnologias Microsoft