Azure Maia 200: billigere AI-inferens for Copilot

January 26, 20263 min lesing

Sammendrag

Microsoft har introdusert Azure Maia 200, en ny AI-akselerator bygget spesielt for inferens, med fokus på lavere kostnad per token, høyere gjennomstrømming og bedre skalering for store språkmodeller og Copilot-lignende tjenester. Dette er viktig fordi billigere og mer effektiv inferens kan gjøre det enklere for virksomheter å rulle ut AI-assistenter i stor skala, samtidig som Azure styrker sin konkurranseevne mot andre skyplattformer på AI-infrastruktur.

Introduksjon: hvorfor dette betyr noe

AI-adopsjon begrenses i økende grad av inferenskostnad og kapasitet—særlig for organisasjoner som skalerer assistenter, copilots og domene-spesifikke agenter. Microsofts nye Maia 200-akselerator retter seg direkte mot denne flaskehalsen ved å forbedre økonomien i token-generering, noe som kan gi bedre latenstid, høyere samtidighet og potensielt lavere driftskostnader for AI-tjenester levert via Azure og Microsoft-administrerte opplevelser som Copilot.

Hva er nytt med Maia 200

Formålsbygget for inferens

Maia 200 er utviklet spesifikt for å maksimere inferens-gjennomstrømming og utnyttelsesgrad for moderne store modeller:

Avansert prosess og lavpresisjonsberegning: Bygget på TSMC 3nm med native FP8/FP4 tensor cores. Microsoft hevder at hver brikke leverer >10 petaFLOPS FP4 og >5 petaFLOPS FP8 innenfor en 750W SoC TDP-ramme.
Høybåndbredde-minne og on-chip SRAM: Et redesignet minnesystem inkluderer 216GB HBM3e ved 7 TB/s pluss 272MB on-chip SRAM, sammen med dataflyttemotorer som skal holde store modeller effektivt matet.
Scale-out-design med standard Ethernet: Et to-lags scale-up-nettverk bruker standard Ethernet med et tilpasset transportlag og integrert NIC, og eksponerer 2.8 TB/s toveis dedikert scale-up-båndbredde og støtter forutsigbare collectives på tvers av klynger på opptil 6,144 akseleratorer.

Microsofts påstander om ytelse og effektivitet

Microsoft posisjonerer Maia 200 som sitt mest høyytende egenutviklede silikon til nå og bemerker:

~30% bedre ytelse per dollar enn nyeste generasjon maskinvare som i dag finnes i Microsofts flåte
FP4-ytelse hevdes å være 3x den til Amazon Trainium (3rd gen), og FP8-ytelse hevdes å ligge over Google TPU v7 (ifølge Microsofts publiserte sammenligninger)

Azure-integrasjon og forhåndsvisning av Maia SDK

Maia 200 er laget for å integreres i Azures control plane for sikkerhet, telemetri, diagnostikk og administrasjon på brikke- og rack-nivå. Microsoft forhåndsviser også Maia SDK, inkludert:

PyTorch-integrasjon
Triton compiler og optimert kernel-bibliotek
Tilgang til et lavnivå programmeringsspråk (NPL)
Simulator og kostnadskalkulator for tidligere optimalisering

Konsekvenser for IT-administratorer og plattformteam

For Microsoft 365 Copilot-brukere: Maia 200 er ment å betjene flere modeller, inkludert de nyeste GPT-5.2-modellene fra OpenAI, noe som kan forbedre respons og skalering under belastning etter hvert som kapasiteten øker.
For Azure AI-byggere: Forvent et voksende sett med Maia-baserte SKU-er/tjenester som kan gi bedre pris/ytelse for inferens-tunge apper, særlig de som er optimalisert for FP8/FP4.
For styring og drift: Native integrasjon med Azure control plane tilsier at Maia-utrullinger bør passe inn i eksisterende driftsmønstre (overvåking, pålitelighet og sikkerhetskontroller), og redusere friksjon sammenlignet med skreddersydd AI-infrastruktur.

Utrullingsdetaljer

Tilgjengelig region (initialt): US Central (nær Des Moines, Iowa)
Neste region: US West 3 (nær Phoenix, Arizona)
Flere regioner planlegges over tid.

Tiltak / neste steg

Følg med på Azure service updates for Maia-baserte inferensalternativer (SKU-er, regioner, kvoter) som er relevante for arbeidsbelastningene dine.
Vurder modellens presisjonsberedskap (FP8/FP4-kompatibilitet og krav til nøyaktighet) for kost-/ytelsesoptimalisering.
Bli med i Maia SDK preview hvis du bygger tilpassede inferens-stakker og vil evaluere porterings-/optimaliseringsløp på tvers av heterogene akseleratorer.
Planlegg for regional kapasitet: Hvis AI-appene dine er latency-sensitive, vurder hvordan tilgjengelighet i US Central/US West 3 samsvarer med brukerbasen din og behov for dataresidens.

Azure Maia 200: billigere AI-inferens for Copilot

Introduksjon: hvorfor dette betyr noe

Hva er nytt med Maia 200

Formålsbygget for inferens

Microsofts påstander om ytelse og effektivitet

Azure-integrasjon og forhåndsvisning av Maia SDK

Konsekvenser for IT-administratorer og plattformteam

Utrullingsdetaljer

Tiltak / neste steg

Trenger du hjelp med Azure?

Relaterte innlegg

Microsoft The Shift Podcast on Agentic AI Challenges

Azure Agentic AI for Regulated Industry Modernization

Fireworks AI on Microsoft Foundry for Azure Inference

Azure Copilot Migration Agent for App Modernization

Azure IaaS Resource Center for Resilient Infrastructure

Microsoft Foundry ROI Study Shows 327% Enterprise AI Gains