Azure Maia 200 sænker AI-omkostninger i Copilot
Resumé
Microsoft introducerer Azure Maia 200, en ny AI-accelerator designet specifikt til inference, med fokus på højere throughput, bedre udnyttelse og lavere omkostninger for store sprogmodeller i Azure og Copilot. Det er vigtigt, fordi billigere og mere effektiv token-generering kan give virksomheder bedre svartider, højere skalerbarhed og gøre avancerede AI-assistenter mere økonomisk bæredygtige i drift.
Introduktion: hvorfor det er vigtigt
AI-adoption begrænses i stigende grad af inference-omkostninger og kapacitet—særligt for organisationer, der skalerer assistants, copilots og domænespecifikke agents. Microsofts nye Maia 200-accelerator sigter direkte mod denne flaskehals ved at forbedre økonomien i token-generering, hvilket kan omsættes til bedre latenstid, højere samtidighed og potentielt lavere driftsomkostninger for AI-tjenester leveret via Azure og Microsoft-administrerede oplevelser som Copilot.
Hvad er nyt med Maia 200
Formålsbygget til inference
Maia 200 er konstrueret specifikt til at maksimere inference-throughput og udnyttelse for moderne store modeller:
- Avanceret proces og low-precision compute: Bygget på TSMC 3nm med native FP8/FP4 tensor cores. Microsoft hævder, at hver chip leverer >10 petaFLOPS FP4 og >5 petaFLOPS FP8 inden for en 750W SoC TDP-ramme.
- High-bandwidth memory og on-chip SRAM: Et redesignet memory-system inkluderer 216GB HBM3e ved 7 TB/s plus 272MB on-chip SRAM, sammen med data movement engines, der skal holde store modeller effektivt forsynet med data.
- Scale-out design med standard Ethernet: Et to-lags scale-up-netværk bruger standard Ethernet med et tilpasset transportlag og integreret NIC, der eksponerer 2.8 TB/s bidirectional dedicated scale-up bandwidth og understøtter forudsigelige collectives på tværs af klynger op til 6,144 accelerators.
Microsofts påstande om performance og effektivitet
Microsoft positionerer Maia 200 som sit mest performante first-party silicium til dato og bemærker:
- ~30% bedre performance per dollar end den nyeste generations hardware, der aktuelt findes i Microsofts fleet
- FP4-performance påstås at være 3x højere end Amazon Trainium (3rd gen), og FP8-performance påstås at ligge over Google TPU v7 (ifølge Microsofts offentliggjorte sammenligninger)
Azure-integration og preview af Maia SDK
Maia 200 er designet til at integrere i Azures control plane for security, telemetry, diagnostics, and management på chip- og rack-niveau. Microsoft viser også Maia SDK i preview, herunder:
- PyTorch integration
- Triton compiler og optimeret kernel library
- Adgang til et low-level programming language (NPL)
- Simulator og cost calculator til tidligere optimering
Betydning for IT-admins og platform-teams
- For Microsoft 365 Copilot-brugere: Maia 200 er tiltænkt til at betjene flere modeller, inkl. de nyeste GPT-5.2-modeller fra OpenAI, hvilket kan forbedre respons og skalering under belastning, efterhånden som kapaciteten udvides.
- For Azure AI builders: Forvent et voksende sæt Maia-understøttede SKUs/services, der kan tilbyde bedre pris/performance til inference-tunge apps, især dem der er optimeret til FP8/FP4.
- For governance og drift: Native integration i Azure control plane indikerer, at Maia-udrulninger bør flugte med eksisterende driftsmønstre (monitorering, pålidelighed og sikkerhedskontroller), hvilket reducerer friktion sammenlignet med skræddersyet AI-infrastruktur.
Udrulningsdetaljer
- Tilgængelig region (initialt): US Central (nær Des Moines, Iowa)
- Næste region: US West 3 (nær Phoenix, Arizona)
- Flere regioner planlægges over tid.
Action items / næste skridt
- Følg Azure service updates for Maia-understøttede inference-muligheder (SKUs, regioner, quotas) relevante for jeres workloads.
- Vurder model precision readiness (FP8/FP4-kompatibilitet og nøjagtighedskrav) med henblik på omkostnings-/performance-optimering.
- Deltag i Maia SDK preview hvis I bygger custom inference stacks og vil evaluere portering/optimeringsspor på tværs af heterogene accelerators.
- Planlæg for regional kapacitet: hvis jeres AI-apps er latenstidsfølsomme, så overvej hvordan US Central/US West 3-tilgængelighed matcher jeres brugerbase og data residency-behov.
Brug for hjælp med Azure?
Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.
Tal med en ekspertHold dig opdateret om Microsoft-teknologier