Azure

Azure Maia 200 sænker AI-omkostninger i Copilot

3 min læsning

Resumé

Microsoft introducerer Azure Maia 200, en ny AI-accelerator designet specifikt til inference, med fokus på højere throughput, bedre udnyttelse og lavere omkostninger for store sprogmodeller i Azure og Copilot. Det er vigtigt, fordi billigere og mere effektiv token-generering kan give virksomheder bedre svartider, højere skalerbarhed og gøre avancerede AI-assistenter mere økonomisk bæredygtige i drift.

Brug for hjælp med Azure?Tal med en ekspert

Introduktion: hvorfor det er vigtigt

AI-adoption begrænses i stigende grad af inference-omkostninger og kapacitet—særligt for organisationer, der skalerer assistants, copilots og domænespecifikke agents. Microsofts nye Maia 200-accelerator sigter direkte mod denne flaskehals ved at forbedre økonomien i token-generering, hvilket kan omsættes til bedre latenstid, højere samtidighed og potentielt lavere driftsomkostninger for AI-tjenester leveret via Azure og Microsoft-administrerede oplevelser som Copilot.

Hvad er nyt med Maia 200

Formålsbygget til inference

Maia 200 er konstrueret specifikt til at maksimere inference-throughput og udnyttelse for moderne store modeller:

  • Avanceret proces og low-precision compute: Bygget på TSMC 3nm med native FP8/FP4 tensor cores. Microsoft hævder, at hver chip leverer >10 petaFLOPS FP4 og >5 petaFLOPS FP8 inden for en 750W SoC TDP-ramme.
  • High-bandwidth memory og on-chip SRAM: Et redesignet memory-system inkluderer 216GB HBM3e ved 7 TB/s plus 272MB on-chip SRAM, sammen med data movement engines, der skal holde store modeller effektivt forsynet med data.
  • Scale-out design med standard Ethernet: Et to-lags scale-up-netværk bruger standard Ethernet med et tilpasset transportlag og integreret NIC, der eksponerer 2.8 TB/s bidirectional dedicated scale-up bandwidth og understøtter forudsigelige collectives på tværs af klynger op til 6,144 accelerators.

Microsofts påstande om performance og effektivitet

Microsoft positionerer Maia 200 som sit mest performante first-party silicium til dato og bemærker:

  • ~30% bedre performance per dollar end den nyeste generations hardware, der aktuelt findes i Microsofts fleet
  • FP4-performance påstås at være 3x højere end Amazon Trainium (3rd gen), og FP8-performance påstås at ligge over Google TPU v7 (ifølge Microsofts offentliggjorte sammenligninger)

Azure-integration og preview af Maia SDK

Maia 200 er designet til at integrere i Azures control plane for security, telemetry, diagnostics, and management på chip- og rack-niveau. Microsoft viser også Maia SDK i preview, herunder:

  • PyTorch integration
  • Triton compiler og optimeret kernel library
  • Adgang til et low-level programming language (NPL)
  • Simulator og cost calculator til tidligere optimering

Betydning for IT-admins og platform-teams

  • For Microsoft 365 Copilot-brugere: Maia 200 er tiltænkt til at betjene flere modeller, inkl. de nyeste GPT-5.2-modeller fra OpenAI, hvilket kan forbedre respons og skalering under belastning, efterhånden som kapaciteten udvides.
  • For Azure AI builders: Forvent et voksende sæt Maia-understøttede SKUs/services, der kan tilbyde bedre pris/performance til inference-tunge apps, især dem der er optimeret til FP8/FP4.
  • For governance og drift: Native integration i Azure control plane indikerer, at Maia-udrulninger bør flugte med eksisterende driftsmønstre (monitorering, pålidelighed og sikkerhedskontroller), hvilket reducerer friktion sammenlignet med skræddersyet AI-infrastruktur.

Udrulningsdetaljer

  • Tilgængelig region (initialt): US Central (nær Des Moines, Iowa)
  • Næste region: US West 3 (nær Phoenix, Arizona)
  • Flere regioner planlægges over tid.

Action items / næste skridt

  1. Følg Azure service updates for Maia-understøttede inference-muligheder (SKUs, regioner, quotas) relevante for jeres workloads.
  2. Vurder model precision readiness (FP8/FP4-kompatibilitet og nøjagtighedskrav) med henblik på omkostnings-/performance-optimering.
  3. Deltag i Maia SDK preview hvis I bygger custom inference stacks og vil evaluere portering/optimeringsspor på tværs af heterogene accelerators.
  4. Planlæg for regional kapacitet: hvis jeres AI-apps er latenstidsfølsomme, så overvej hvordan US Central/US West 3-tilgængelighed matcher jeres brugerbase og data residency-behov.

Brug for hjælp med Azure?

Vores eksperter kan hjælpe dig med at implementere og optimere dine Microsoft-løsninger.

Tal med en ekspert

Hold dig opdateret om Microsoft-teknologier

AzureAI inferenceMaia 200Microsoft Copilotaccelerator hardware

Relaterede indlæg

Azure

Microsoft The Shift podcast om agentic AI i Azure

Microsoft lancerer podcastserien The Shift med otte ugentlige episoder om agentic AI i Azure, hvor fokus flyttes fra enkeltstående AI-funktioner til hele arkitekturen bag agenter. Det er vigtigt, fordi Microsoft tydeliggør, at succes med AI-agenter afhænger af data, orkestrering, platforme som Postgres, Fabric og OneLake samt stærk sikkerhed og governance på tværs af enterprise-miljøer.

Azure

Azure og agentic AI til cloud-modernisering i regulerede brancher

Microsoft fremhæver, at Azure kombineret med agentic AI kan hjælpe regulerede brancher med at modernisere legacy-miljøer hurtigere og mere sikkert ved at automatisere workload-vurderinger, migrering og driftsoptimering. Det er vigtigt, fordi cloud-modernisering nu ikke kun handler om lavere omkostninger, men også om bedre compliance, større robusthed og at gøre organisationer klar til øget brug af AI.

Azure

Fireworks AI i Microsoft Foundry på Azure i preview

Microsoft har lanceret Fireworks AI i offentlig preview på Microsoft Foundry i Azure, så virksomheder kan køre åbne modeller med høj throughput og lav latenstid via ét samlet Azure-endpoint. Det er vigtigt, fordi det gør det lettere at gå fra eksperimenter til produktion med bedre enterprise-governance, fleksible deployments som serverless/pay-per-token og mulighed for at medbringe egne finjusterede modelvægte.

Azure

Azure Copilot migration agent til app-modernisering

Microsoft har annonceret nye agentbaserede funktioner i Azure Copilot og GitHub Copilot, der skal gøre applikationsmodernisering enklere ved at samle discovery, vurdering, planlægning og deployment i ét sammenhængende workflow. Det er vigtigt, fordi modernisering ofte bremser virksomheders AI-adoption, og de nye værktøjer kan hjælpe IT- og udviklingsteams med hurtigere at kortlægge afhængigheder, prioritere indsatser og gennemføre migrationer mere effektivt.

Azure

Azure IaaS Resource Center til robust infrastruktur

Microsoft har lanceret Azure IaaS Resource Center, et samlet knudepunkt med vejledning, demoer, arkitekturressourcer og best practices til at designe, optimere og drive Azure-infrastruktur. Det er vigtigt, fordi det hjælper organisationer med at behandle compute, storage og netværk som én samlet platform, hvilket kan forbedre ydeevne, robusthed, sikkerhed og omkostningsstyring på tværs af både traditionelle applikationer og AI-workloads.

Azure

Microsoft Foundry ROI på 327 % i ny Forrester-rapport

En ny Forrester TEI-rapport peger på, at Microsoft Foundry kan give virksomheder 327 % ROI over tre år, tilbagebetaling på omkring seks måneder og markante gevinster i både udviklerproduktivitet og infrastrukturomkostninger. Det er især vigtigt for IT-administratorer, fordi rapporten understreger, at en samlet AI-platform kan reducere spildtid på integration, governance og datapipelines og dermed få enterprise AI-projekter hurtigere til at skabe forretningsværdi.