Azure

Azure Maia 200: billigere AI-inferens for Copilot

3 min lesing

Sammendrag

Microsoft har introdusert Azure Maia 200, en ny AI-akselerator bygget spesielt for inferens, med fokus på lavere kostnad per token, høyere gjennomstrømming og bedre skalering for store språkmodeller og Copilot-lignende tjenester. Dette er viktig fordi billigere og mer effektiv inferens kan gjøre det enklere for virksomheter å rulle ut AI-assistenter i stor skala, samtidig som Azure styrker sin konkurranseevne mot andre skyplattformer på AI-infrastruktur.

Trenger du hjelp med Azure?Snakk med en ekspert

Introduksjon: hvorfor dette betyr noe

AI-adopsjon begrenses i økende grad av inferenskostnad og kapasitet—særlig for organisasjoner som skalerer assistenter, copilots og domene-spesifikke agenter. Microsofts nye Maia 200-akselerator retter seg direkte mot denne flaskehalsen ved å forbedre økonomien i token-generering, noe som kan gi bedre latenstid, høyere samtidighet og potensielt lavere driftskostnader for AI-tjenester levert via Azure og Microsoft-administrerte opplevelser som Copilot.

Hva er nytt med Maia 200

Formålsbygget for inferens

Maia 200 er utviklet spesifikt for å maksimere inferens-gjennomstrømming og utnyttelsesgrad for moderne store modeller:

  • Avansert prosess og lavpresisjonsberegning: Bygget på TSMC 3nm med native FP8/FP4 tensor cores. Microsoft hevder at hver brikke leverer >10 petaFLOPS FP4 og >5 petaFLOPS FP8 innenfor en 750W SoC TDP-ramme.
  • Høybåndbredde-minne og on-chip SRAM: Et redesignet minnesystem inkluderer 216GB HBM3e ved 7 TB/s pluss 272MB on-chip SRAM, sammen med dataflyttemotorer som skal holde store modeller effektivt matet.
  • Scale-out-design med standard Ethernet: Et to-lags scale-up-nettverk bruker standard Ethernet med et tilpasset transportlag og integrert NIC, og eksponerer 2.8 TB/s toveis dedikert scale-up-båndbredde og støtter forutsigbare collectives på tvers av klynger på opptil 6,144 akseleratorer.

Microsofts påstander om ytelse og effektivitet

Microsoft posisjonerer Maia 200 som sitt mest høyytende egenutviklede silikon til nå og bemerker:

  • ~30% bedre ytelse per dollar enn nyeste generasjon maskinvare som i dag finnes i Microsofts flåte
  • FP4-ytelse hevdes å være 3x den til Amazon Trainium (3rd gen), og FP8-ytelse hevdes å ligge over Google TPU v7 (ifølge Microsofts publiserte sammenligninger)

Azure-integrasjon og forhåndsvisning av Maia SDK

Maia 200 er laget for å integreres i Azures control plane for sikkerhet, telemetri, diagnostikk og administrasjon på brikke- og rack-nivå. Microsoft forhåndsviser også Maia SDK, inkludert:

  • PyTorch-integrasjon
  • Triton compiler og optimert kernel-bibliotek
  • Tilgang til et lavnivå programmeringsspråk (NPL)
  • Simulator og kostnadskalkulator for tidligere optimalisering

Konsekvenser for IT-administratorer og plattformteam

  • For Microsoft 365 Copilot-brukere: Maia 200 er ment å betjene flere modeller, inkludert de nyeste GPT-5.2-modellene fra OpenAI, noe som kan forbedre respons og skalering under belastning etter hvert som kapasiteten øker.
  • For Azure AI-byggere: Forvent et voksende sett med Maia-baserte SKU-er/tjenester som kan gi bedre pris/ytelse for inferens-tunge apper, særlig de som er optimalisert for FP8/FP4.
  • For styring og drift: Native integrasjon med Azure control plane tilsier at Maia-utrullinger bør passe inn i eksisterende driftsmønstre (overvåking, pålitelighet og sikkerhetskontroller), og redusere friksjon sammenlignet med skreddersydd AI-infrastruktur.

Utrullingsdetaljer

  • Tilgjengelig region (initialt): US Central (nær Des Moines, Iowa)
  • Neste region: US West 3 (nær Phoenix, Arizona)
  • Flere regioner planlegges over tid.

Tiltak / neste steg

  1. Følg med på Azure service updates for Maia-baserte inferensalternativer (SKU-er, regioner, kvoter) som er relevante for arbeidsbelastningene dine.
  2. Vurder modellens presisjonsberedskap (FP8/FP4-kompatibilitet og krav til nøyaktighet) for kost-/ytelsesoptimalisering.
  3. Bli med i Maia SDK preview hvis du bygger tilpassede inferens-stakker og vil evaluere porterings-/optimaliseringsløp på tvers av heterogene akseleratorer.
  4. Planlegg for regional kapasitet: Hvis AI-appene dine er latency-sensitive, vurder hvordan tilgjengelighet i US Central/US West 3 samsvarer med brukerbasen din og behov for dataresidens.

Trenger du hjelp med Azure?

Våre eksperter kan hjelpe deg med å implementere og optimalisere dine Microsoft-løsninger.

Snakk med en ekspert

Hold deg oppdatert om Microsoft-teknologier

AzureAI inferenceMaia 200Microsoft Copilotaccelerator hardware

Relaterte innlegg

Azure

Microsoft The Shift Podcast on Agentic AI Challenges

Microsoft has launched a new season of The Shift podcast focused on agentic AI, with eight weekly episodes exploring how AI agents use data, coordinate with each other, and depend on platforms like Postgres, Microsoft Fabric, and OneLake. The series matters because it highlights that deploying agents in enterprises is not just about models—it requires rethinking architecture, governance, security, and IT workflows across the full Azure and data stack.

Azure

Azure Agentic AI for Regulated Industry Modernization

Microsoft says Azure combined with agentic AI can help regulated industries modernize legacy systems faster by automating workload assessment, migration, and ongoing operations while maintaining compliance. The update matters because it positions cloud migration as more than a cost-saving exercise: for sectors like healthcare and other highly regulated industries, it is increasingly essential for resilience, governance, and readiness to deploy AI at scale.

Azure

Fireworks AI on Microsoft Foundry for Azure Inference

Microsoft has launched a public preview of Fireworks AI on Microsoft Foundry, bringing high-throughput, low-latency open-model inference to Azure through a single managed endpoint. It matters because enterprises can now access models like DeepSeek V3.2, gpt-oss-120b, Kimi K2.5, and MiniMax M2.5 with Azure’s governance, serverless or provisioned deployment options, and bring-your-own-weights support—making it easier to move open-model AI from experimentation into production.

Azure

Azure Copilot Migration Agent for App Modernization

Microsoft has introduced new public preview modernization agents in Azure Copilot and GitHub Copilot to help organizations automate migration and application transformation across discovery, assessment, planning, deployment, and code upgrades. The announcement matters because it aims to turn complex, fragmented modernization work into a coordinated AI-assisted workflow, helping enterprises move legacy infrastructure and applications to Azure faster and with clearer cost, dependency, and prioritization insights.

Azure

Azure IaaS Resource Center for Resilient Infrastructure

Microsoft has introduced the Azure IaaS Resource Center, a centralized hub for infrastructure teams to find design guidance, demos, architecture resources, and best practices for compute, storage, and networking. The launch matters because it reinforces Azure IaaS as a unified platform for building resilient, high-performance, and cost-optimized infrastructure, helping organizations better support everything from traditional business apps to AI workloads.

Azure

Microsoft Foundry ROI Study Shows 327% Enterprise AI Gains

A Forrester Total Economic Impact study commissioned around Microsoft Foundry found that a modeled enterprise could achieve 327% ROI over three years, break even in about six months, and realize $49.5 million in benefits from productivity and infrastructure savings. The results matter because they highlight how much enterprise AI costs are driven by developer time and fragmented tooling, suggesting that a unified platform like Foundry can help IT teams accelerate AI delivery while improving governance and efficiency.