Azure

Azure Maia 200 sänker AI-kostnader för Copilot

3 min läsning

Sammanfattning

Microsoft presenterar Azure Maia 200, en ny AI-accelerator som är specialbyggd för inferens och ska sänka kostnaderna för tokengenerering i tjänster som Copilot och andra Azure-baserade AI-lösningar. Det är viktigt eftersom lägre inferenskostnad, bättre latens och högre samtidighet kan göra det mer ekonomiskt för företag att skala AI-assistenter och domänspecifika agenter i produktion.

Behöver du hjälp med Azure?Prata med en expert

Introduktion: varför detta spelar roll

AI-användning begränsas i allt högre grad av inferenskostnad och kapacitet—särskilt för organisationer som skalar assistenter, copilots och domänspecifika agenter. Microsofts nya Maia 200-accelerator riktar in sig direkt på den här flaskhalsen genom att förbättra ekonomin i tokengenerering, vilket kan innebära bättre latens, högre samtidighet och potentiellt lägre driftkostnader för AI-tjänster som levereras via Azure och Microsoft-hanterade upplevelser som Copilot.

Vad är nytt med Maia 200

Specialbyggd för inferens

Maia 200 är konstruerad specifikt för att maximera inferens-throughput och nyttjande för moderna stora modeller:

  • Avancerad processteknik och low-precision compute: Byggd på TSMC 3nm med inbyggda FP8/FP4 tensor cores. Microsoft uppger att varje chip levererar >10 petaFLOPS FP4 och >5 petaFLOPS FP8 inom en 750W SoC TDP-ram.
  • High-bandwidth memory och on-chip SRAM: Ett omdesignat minnessystem inkluderar 216GB HBM3e med 7 TB/s samt 272MB on-chip SRAM, tillsammans med data movement engines som är avsedda att mata stora modeller effektivt.
  • Scale-out-design med standard Ethernet: Ett tvånivåigt scale-up-nätverk använder standard Ethernet med ett anpassat transportlager och integrerad NIC, vilket exponerar 2.8 TB/s dubbelriktad dedikerad scale-up-bandbredd och stödjer förutsägbara collectives över kluster upp till 6,144 accelerators.

Microsofts påståenden om prestanda och effektivitet

Microsoft positionerar Maia 200 som sitt mest högpresterande förstaparts-silicon hittills och noterar:

  • ~30% bättre prestanda per dollar än den senaste generationens hårdvara som för närvarande finns i Microsofts flotta
  • FP4-prestanda uppges vara 3x jämfört med Amazon Trainium (3rd gen) och FP8-prestanda uppges ligga över Google TPU v7 (enligt Microsofts publicerade jämförelser)

Azure-integration och Maia SDK-preview

Maia 200 är utformad för att integreras i Azures control plane för säkerhet, telemetry, diagnostics och management på chip- och racknivå. Microsoft erbjuder även en Maia SDK-preview, inklusive:

  • PyTorch-integration
  • Triton compiler och ett optimerat kernel-bibliotek
  • Åtkomst till ett low-level programmeringsspråk (NPL)
  • Simulator och kostnadskalkylator för tidigare optimering

Påverkan för IT-admins och plattformsteam

  • För Microsoft 365 Copilot-användare: Maia 200 är avsedd att hantera flera modeller, inklusive de senaste GPT-5.2-modellerna från OpenAI, vilket kan förbättra responsivitet och skalning under belastning när kapaciteten byggs ut.
  • För Azure AI builders: Förvänta dig ett växande utbud av Maia-baserade SKUs/tjänster som kan ge bättre pris/prestanda för inferenstunga appar, särskilt de som är optimerade för FP8/FP4.
  • För governance och operations: Inbyggd integration med Azures control plane antyder att Maia-distributioner bör passa in i befintliga operativa mönster (övervakning, tillförlitlighet och säkerhetskontroller), vilket minskar friktion jämfört med skräddarsydd AI-infrastruktur.

Utrullningsdetaljer

  • Tillgänglig region (initialt): US Central (nära Des Moines, Iowa)
  • Nästa region: US West 3 (nära Phoenix, Arizona)
  • Fler regioner planeras över tid.

Åtgärder / nästa steg

  1. Följ Azure service updates för Maia-stödda inferensalternativ (SKUs, regioner, kvoter) som är relevanta för era arbetslaster.
  2. Utvärdera modellernas precision readiness (FP8/FP4-kompatibilitet och krav på noggrannhet) för optimering av kostnad/prestanda.
  3. Gå med i Maia SDK-preview om ni bygger egna inferensstackar och vill utvärdera portnings-/optimeringsvägar över heterogena acceleratorer.
  4. Planera för regional kapacitet: om era AI-appar är latenskänsliga, överväg hur tillgänglighet i US Central/US West 3 matchar er användarbas och era behov av dataresidens.

Behöver du hjälp med Azure?

Våra experter kan hjälpa dig att implementera och optimera dina Microsoft-lösningar.

Prata med en expert

Håll dig uppdaterad om Microsoft-teknologier

AzureAI inferenceMaia 200Microsoft Copilotaccelerator hardware

Relaterade inlägg

Azure

Microsoft The Shift Podcast on Agentic AI Challenges

Microsoft has launched a new season of The Shift podcast focused on agentic AI, with eight weekly episodes exploring how AI agents use data, coordinate with each other, and depend on platforms like Postgres, Microsoft Fabric, and OneLake. The series matters because it highlights that deploying agents in enterprises is not just about models—it requires rethinking architecture, governance, security, and IT workflows across the full Azure and data stack.

Azure

Azure Agentic AI for Regulated Industry Modernization

Microsoft says Azure combined with agentic AI can help regulated industries modernize legacy systems faster by automating workload assessment, migration, and ongoing operations while maintaining compliance. The update matters because it positions cloud migration as more than a cost-saving exercise: for sectors like healthcare and other highly regulated industries, it is increasingly essential for resilience, governance, and readiness to deploy AI at scale.

Azure

Fireworks AI on Microsoft Foundry for Azure Inference

Microsoft has launched a public preview of Fireworks AI on Microsoft Foundry, bringing high-throughput, low-latency open-model inference to Azure through a single managed endpoint. It matters because enterprises can now access models like DeepSeek V3.2, gpt-oss-120b, Kimi K2.5, and MiniMax M2.5 with Azure’s governance, serverless or provisioned deployment options, and bring-your-own-weights support—making it easier to move open-model AI from experimentation into production.

Azure

Azure Copilot Migration Agent for App Modernization

Microsoft has introduced new public preview modernization agents in Azure Copilot and GitHub Copilot to help organizations automate migration and application transformation across discovery, assessment, planning, deployment, and code upgrades. The announcement matters because it aims to turn complex, fragmented modernization work into a coordinated AI-assisted workflow, helping enterprises move legacy infrastructure and applications to Azure faster and with clearer cost, dependency, and prioritization insights.

Azure

Azure IaaS Resource Center for Resilient Infrastructure

Microsoft has introduced the Azure IaaS Resource Center, a centralized hub for infrastructure teams to find design guidance, demos, architecture resources, and best practices for compute, storage, and networking. The launch matters because it reinforces Azure IaaS as a unified platform for building resilient, high-performance, and cost-optimized infrastructure, helping organizations better support everything from traditional business apps to AI workloads.

Azure

Microsoft Foundry ROI Study Shows 327% Enterprise AI Gains

A Forrester Total Economic Impact study commissioned around Microsoft Foundry found that a modeled enterprise could achieve 327% ROI over three years, break even in about six months, and realize $49.5 million in benefits from productivity and infrastructure savings. The results matter because they highlight how much enterprise AI costs are driven by developer time and fragmented tooling, suggesting that a unified platform like Foundry can help IT teams accelerate AI delivery while improving governance and efficiency.