Azure Maia 200: billigere AI-inferens for Copilot
Sammendrag
Microsoft har introdusert Azure Maia 200, en ny AI-akselerator bygget spesielt for inferens, med fokus på lavere kostnad per token, høyere gjennomstrømming og bedre skalering for store språkmodeller og Copilot-lignende tjenester. Dette er viktig fordi billigere og mer effektiv inferens kan gjøre det enklere for virksomheter å rulle ut AI-assistenter i stor skala, samtidig som Azure styrker sin konkurranseevne mot andre skyplattformer på AI-infrastruktur.
Introduksjon: hvorfor dette betyr noe
AI-adopsjon begrenses i økende grad av inferenskostnad og kapasitet—særlig for organisasjoner som skalerer assistenter, copilots og domene-spesifikke agenter. Microsofts nye Maia 200-akselerator retter seg direkte mot denne flaskehalsen ved å forbedre økonomien i token-generering, noe som kan gi bedre latenstid, høyere samtidighet og potensielt lavere driftskostnader for AI-tjenester levert via Azure og Microsoft-administrerte opplevelser som Copilot.
Hva er nytt med Maia 200
Formålsbygget for inferens
Maia 200 er utviklet spesifikt for å maksimere inferens-gjennomstrømming og utnyttelsesgrad for moderne store modeller:
- Avansert prosess og lavpresisjonsberegning: Bygget på TSMC 3nm med native FP8/FP4 tensor cores. Microsoft hevder at hver brikke leverer >10 petaFLOPS FP4 og >5 petaFLOPS FP8 innenfor en 750W SoC TDP-ramme.
- Høybåndbredde-minne og on-chip SRAM: Et redesignet minnesystem inkluderer 216GB HBM3e ved 7 TB/s pluss 272MB on-chip SRAM, sammen med dataflyttemotorer som skal holde store modeller effektivt matet.
- Scale-out-design med standard Ethernet: Et to-lags scale-up-nettverk bruker standard Ethernet med et tilpasset transportlag og integrert NIC, og eksponerer 2.8 TB/s toveis dedikert scale-up-båndbredde og støtter forutsigbare collectives på tvers av klynger på opptil 6,144 akseleratorer.
Microsofts påstander om ytelse og effektivitet
Microsoft posisjonerer Maia 200 som sitt mest høyytende egenutviklede silikon til nå og bemerker:
- ~30% bedre ytelse per dollar enn nyeste generasjon maskinvare som i dag finnes i Microsofts flåte
- FP4-ytelse hevdes å være 3x den til Amazon Trainium (3rd gen), og FP8-ytelse hevdes å ligge over Google TPU v7 (ifølge Microsofts publiserte sammenligninger)
Azure-integrasjon og forhåndsvisning av Maia SDK
Maia 200 er laget for å integreres i Azures control plane for sikkerhet, telemetri, diagnostikk og administrasjon på brikke- og rack-nivå. Microsoft forhåndsviser også Maia SDK, inkludert:
- PyTorch-integrasjon
- Triton compiler og optimert kernel-bibliotek
- Tilgang til et lavnivå programmeringsspråk (NPL)
- Simulator og kostnadskalkulator for tidligere optimalisering
Konsekvenser for IT-administratorer og plattformteam
- For Microsoft 365 Copilot-brukere: Maia 200 er ment å betjene flere modeller, inkludert de nyeste GPT-5.2-modellene fra OpenAI, noe som kan forbedre respons og skalering under belastning etter hvert som kapasiteten øker.
- For Azure AI-byggere: Forvent et voksende sett med Maia-baserte SKU-er/tjenester som kan gi bedre pris/ytelse for inferens-tunge apper, særlig de som er optimalisert for FP8/FP4.
- For styring og drift: Native integrasjon med Azure control plane tilsier at Maia-utrullinger bør passe inn i eksisterende driftsmønstre (overvåking, pålitelighet og sikkerhetskontroller), og redusere friksjon sammenlignet med skreddersydd AI-infrastruktur.
Utrullingsdetaljer
- Tilgjengelig region (initialt): US Central (nær Des Moines, Iowa)
- Neste region: US West 3 (nær Phoenix, Arizona)
- Flere regioner planlegges over tid.
Tiltak / neste steg
- Følg med på Azure service updates for Maia-baserte inferensalternativer (SKU-er, regioner, kvoter) som er relevante for arbeidsbelastningene dine.
- Vurder modellens presisjonsberedskap (FP8/FP4-kompatibilitet og krav til nøyaktighet) for kost-/ytelsesoptimalisering.
- Bli med i Maia SDK preview hvis du bygger tilpassede inferens-stakker og vil evaluere porterings-/optimaliseringsløp på tvers av heterogene akseleratorer.
- Planlegg for regional kapasitet: Hvis AI-appene dine er latency-sensitive, vurder hvordan tilgjengelighet i US Central/US West 3 samsvarer med brukerbasen din og behov for dataresidens.
Trenger du hjelp med Azure?
Våre eksperter kan hjelpe deg med å implementere og optimalisere dine Microsoft-løsninger.
Snakk med en ekspertHold deg oppdatert om Microsoft-teknologier