Azure Maia 200 sänker AI-kostnader för Copilot
Sammanfattning
Microsoft presenterar Azure Maia 200, en ny AI-accelerator som är specialbyggd för inferens och ska sänka kostnaderna för tokengenerering i tjänster som Copilot och andra Azure-baserade AI-lösningar. Det är viktigt eftersom lägre inferenskostnad, bättre latens och högre samtidighet kan göra det mer ekonomiskt för företag att skala AI-assistenter och domänspecifika agenter i produktion.
Introduktion: varför detta spelar roll
AI-användning begränsas i allt högre grad av inferenskostnad och kapacitet—särskilt för organisationer som skalar assistenter, copilots och domänspecifika agenter. Microsofts nya Maia 200-accelerator riktar in sig direkt på den här flaskhalsen genom att förbättra ekonomin i tokengenerering, vilket kan innebära bättre latens, högre samtidighet och potentiellt lägre driftkostnader för AI-tjänster som levereras via Azure och Microsoft-hanterade upplevelser som Copilot.
Vad är nytt med Maia 200
Specialbyggd för inferens
Maia 200 är konstruerad specifikt för att maximera inferens-throughput och nyttjande för moderna stora modeller:
- Avancerad processteknik och low-precision compute: Byggd på TSMC 3nm med inbyggda FP8/FP4 tensor cores. Microsoft uppger att varje chip levererar >10 petaFLOPS FP4 och >5 petaFLOPS FP8 inom en 750W SoC TDP-ram.
- High-bandwidth memory och on-chip SRAM: Ett omdesignat minnessystem inkluderar 216GB HBM3e med 7 TB/s samt 272MB on-chip SRAM, tillsammans med data movement engines som är avsedda att mata stora modeller effektivt.
- Scale-out-design med standard Ethernet: Ett tvånivåigt scale-up-nätverk använder standard Ethernet med ett anpassat transportlager och integrerad NIC, vilket exponerar 2.8 TB/s dubbelriktad dedikerad scale-up-bandbredd och stödjer förutsägbara collectives över kluster upp till 6,144 accelerators.
Microsofts påståenden om prestanda och effektivitet
Microsoft positionerar Maia 200 som sitt mest högpresterande förstaparts-silicon hittills och noterar:
- ~30% bättre prestanda per dollar än den senaste generationens hårdvara som för närvarande finns i Microsofts flotta
- FP4-prestanda uppges vara 3x jämfört med Amazon Trainium (3rd gen) och FP8-prestanda uppges ligga över Google TPU v7 (enligt Microsofts publicerade jämförelser)
Azure-integration och Maia SDK-preview
Maia 200 är utformad för att integreras i Azures control plane för säkerhet, telemetry, diagnostics och management på chip- och racknivå. Microsoft erbjuder även en Maia SDK-preview, inklusive:
- PyTorch-integration
- Triton compiler och ett optimerat kernel-bibliotek
- Åtkomst till ett low-level programmeringsspråk (NPL)
- Simulator och kostnadskalkylator för tidigare optimering
Påverkan för IT-admins och plattformsteam
- För Microsoft 365 Copilot-användare: Maia 200 är avsedd att hantera flera modeller, inklusive de senaste GPT-5.2-modellerna från OpenAI, vilket kan förbättra responsivitet och skalning under belastning när kapaciteten byggs ut.
- För Azure AI builders: Förvänta dig ett växande utbud av Maia-baserade SKUs/tjänster som kan ge bättre pris/prestanda för inferenstunga appar, särskilt de som är optimerade för FP8/FP4.
- För governance och operations: Inbyggd integration med Azures control plane antyder att Maia-distributioner bör passa in i befintliga operativa mönster (övervakning, tillförlitlighet och säkerhetskontroller), vilket minskar friktion jämfört med skräddarsydd AI-infrastruktur.
Utrullningsdetaljer
- Tillgänglig region (initialt): US Central (nära Des Moines, Iowa)
- Nästa region: US West 3 (nära Phoenix, Arizona)
- Fler regioner planeras över tid.
Åtgärder / nästa steg
- Följ Azure service updates för Maia-stödda inferensalternativ (SKUs, regioner, kvoter) som är relevanta för era arbetslaster.
- Utvärdera modellernas precision readiness (FP8/FP4-kompatibilitet och krav på noggrannhet) för optimering av kostnad/prestanda.
- Gå med i Maia SDK-preview om ni bygger egna inferensstackar och vill utvärdera portnings-/optimeringsvägar över heterogena acceleratorer.
- Planera för regional kapacitet: om era AI-appar är latenskänsliga, överväg hur tillgänglighet i US Central/US West 3 matchar er användarbas och era behov av dataresidens.
Behöver du hjälp med Azure?
Våra experter kan hjälpa dig att implementera och optimera dina Microsoft-lösningar.
Prata med en expertHåll dig uppdaterad om Microsoft-teknologier