Azure

Azure Maia 200: chip de IA da Microsoft para inferência

3 min de leitura

Resumo

O Azure Maia 200 é o novo chip de IA da Microsoft, concebido especificamente para inferência, com foco em aumentar o throughput, reduzir latência e melhorar a eficiência de custos na geração de tokens para modelos de grande escala. Isto importa porque pode ampliar a capacidade do Azure e de serviços como o Copilot, permitindo executar cargas de IA mais exigentes com melhor desempenho e potencialmente menor custo operacional.

Precisa de ajuda com Azure?Fale com um especialista

Introdução: porque isto importa

A adoção de IA está cada vez mais limitada por custo e capacidade de inferência — especialmente para organizações que estão a escalar assistentes, copilots e agentes específicos por domínio. O novo acelerador Maia 200 da Microsoft visa diretamente este estrangulamento ao melhorar a economia da geração de tokens, o que pode traduzir-se em melhor latência, maior concorrência e potencialmente menores custos de execução para serviços de IA entregues via Azure e experiências geridas pela Microsoft como o Copilot.

O que há de novo com o Maia 200

Concebido especificamente para inferência

O Maia 200 foi projetado especificamente para maximizar o throughput e a utilização em inferência para modelos modernos de grande escala:

  • Processo avançado e computação de baixa precisão: Construído em TSMC 3nm com tensor cores FP8/FP4 nativos. A Microsoft afirma que cada chip oferece >10 petaFLOPS FP4 e >5 petaFLOPS FP8 dentro de um envelope de TDP de SoC de 750W.
  • Memória de alta largura de banda e SRAM on-chip: Um sistema de memória redesenhado inclui 216GB HBM3e a 7 TB/s mais 272MB de SRAM on-chip, juntamente com motores de movimentação de dados destinados a manter modelos grandes alimentados de forma eficiente.
  • Design scale-out com Ethernet padrão: Uma rede de scale-up em dois níveis usa Ethernet padrão com uma camada de transporte personalizada e NIC integrada, expondo 2.8 TB/s de largura de banda dedicada bidirecional de scale-up e suportando coletivos previsíveis em clusters até 6.144 aceleradores.

Alegações de performance e eficiência da Microsoft

A Microsoft posiciona o Maia 200 como o seu silício próprio mais performante até à data e destaca:

  • ~30% melhor performance por dólar do que o hardware de última geração atualmente na frota da Microsoft
  • Performance FP4 alegada como 3x a do Amazon Trainium (3rd gen) e performance FP8 alegada acima do Google TPU v7 (com base nas comparações publicadas pela Microsoft)

Integração com Azure e pré-visualização do Maia SDK

O Maia 200 foi concebido para integrar-se no control plane do Azure para segurança, telemetria, diagnósticos e gestão ao nível do chip e do rack. A Microsoft também está a disponibilizar em pré-visualização o Maia SDK, incluindo:

  • Integração com PyTorch
  • Compilador Triton e biblioteca de kernels otimizados
  • Acesso a uma linguagem de programação de baixo nível (NPL)
  • Simulator e calculadora de custos para otimização antecipada

Impacto para admins de IT e equipas de plataforma

  • Para utilizadores do Microsoft 365 Copilot: O Maia 200 destina-se a servir múltiplos modelos, incluindo os modelos mais recentes GPT-5.2 da OpenAI, o que pode melhorar a capacidade de resposta e o scale sob carga à medida que a capacidade aumenta.
  • Para construtores de Azure AI: Espera-se um conjunto crescente de SKUs/serviços suportados por Maia que poderão oferecer melhor preço/performance para apps intensivas em inferência, especialmente as otimizadas para FP8/FP4.
  • Para governance e operações: A integração nativa no control plane do Azure sugere que as implementações de Maia deverão alinhar-se com padrões operacionais existentes (monitorização, fiabilidade e controlos de segurança), reduzindo fricção face a infraestruturas de IA customizadas.

Detalhes de implementação

  • Região disponível (inicial): US Central (perto de Des Moines, Iowa)
  • Próxima região: US West 3 (perto de Phoenix, Arizona)
  • Mais regiões planeadas ao longo do tempo.

Ações / próximos passos

  1. Acompanhar atualizações de serviços do Azure para opções de inferência suportadas por Maia (SKUs, regiões, quotas) relevantes para os seus workloads.
  2. Avaliar a prontidão de precisão do modelo (compatibilidade FP8/FP4 e requisitos de precisão) para otimização de custo/performance.
  3. Aderir à pré-visualização do Maia SDK se desenvolver stacks de inferência personalizados e quiser avaliar caminhos de portabilidade/otimização entre aceleradores heterogéneos.
  4. Planear a capacidade regional: se as suas apps de IA são sensíveis à latência, considere como a disponibilidade em US Central/US West 3 se mapeia para a sua base de utilizadores e necessidades de residência de dados.

Precisa de ajuda com Azure?

Nossos especialistas podem ajudá-lo a implementar e otimizar suas soluções Microsoft.

Fale com um especialista

Fique atualizado sobre as tecnologias Microsoft

AzureAI inferenceMaia 200Microsoft Copilotaccelerator hardware

Posts relacionados

Azure

Microsoft The Shift Podcast on Agentic AI Challenges

Microsoft has launched a new season of The Shift podcast focused on agentic AI, with eight weekly episodes exploring how AI agents use data, coordinate with each other, and depend on platforms like Postgres, Microsoft Fabric, and OneLake. The series matters because it highlights that deploying agents in enterprises is not just about models—it requires rethinking architecture, governance, security, and IT workflows across the full Azure and data stack.

Azure

Azure Agentic AI for Regulated Industry Modernization

Microsoft says Azure combined with agentic AI can help regulated industries modernize legacy systems faster by automating workload assessment, migration, and ongoing operations while maintaining compliance. The update matters because it positions cloud migration as more than a cost-saving exercise: for sectors like healthcare and other highly regulated industries, it is increasingly essential for resilience, governance, and readiness to deploy AI at scale.

Azure

Fireworks AI on Microsoft Foundry for Azure Inference

Microsoft has launched a public preview of Fireworks AI on Microsoft Foundry, bringing high-throughput, low-latency open-model inference to Azure through a single managed endpoint. It matters because enterprises can now access models like DeepSeek V3.2, gpt-oss-120b, Kimi K2.5, and MiniMax M2.5 with Azure’s governance, serverless or provisioned deployment options, and bring-your-own-weights support—making it easier to move open-model AI from experimentation into production.

Azure

Azure Copilot Migration Agent for App Modernization

Microsoft has introduced new public preview modernization agents in Azure Copilot and GitHub Copilot to help organizations automate migration and application transformation across discovery, assessment, planning, deployment, and code upgrades. The announcement matters because it aims to turn complex, fragmented modernization work into a coordinated AI-assisted workflow, helping enterprises move legacy infrastructure and applications to Azure faster and with clearer cost, dependency, and prioritization insights.

Azure

Azure IaaS Resource Center for Resilient Infrastructure

Microsoft has introduced the Azure IaaS Resource Center, a centralized hub for infrastructure teams to find design guidance, demos, architecture resources, and best practices for compute, storage, and networking. The launch matters because it reinforces Azure IaaS as a unified platform for building resilient, high-performance, and cost-optimized infrastructure, helping organizations better support everything from traditional business apps to AI workloads.

Azure

Microsoft Foundry ROI Study Shows 327% Enterprise AI Gains

A Forrester Total Economic Impact study commissioned around Microsoft Foundry found that a modeled enterprise could achieve 327% ROI over three years, break even in about six months, and realize $49.5 million in benefits from productivity and infrastructure savings. The results matter because they highlight how much enterprise AI costs are driven by developer time and fragmented tooling, suggesting that a unified platform like Foundry can help IT teams accelerate AI delivery while improving governance and efficiency.