Azure Maia 200 verlaagt AI-kosten voor Copilot
Samenvatting
Microsoft introduceert de Azure Maia 200, een nieuwe AI-accelerator die speciaal is ontworpen om inference goedkoper en efficiënter te maken voor grote modellen en toepassingen zoals Copilot. Dat is belangrijk omdat lagere token- en runtime-kosten, gecombineerd met hogere throughput en schaalbaarheid, organisaties kunnen helpen om AI-assistants en agents sneller en op grotere schaal via Azure in te zetten.
Introductie: waarom dit belangrijk is
AI-adoptie wordt steeds vaker beperkt door inference-kosten en -capaciteit—met name voor organisaties die assistants, copilots en domeinspecifieke agents opschalen. Microsofts nieuwe Maia 200-accelerator richt zich direct op deze bottleneck door de economie van token-generatie te verbeteren, wat kan leiden tot betere latency, hogere concurrency en mogelijk lagere runtimes-kosten voor AI-services die via Azure en door Microsoft beheerde ervaringen zoals Copilot worden geleverd.
Wat is er nieuw met Maia 200
Speciaal gebouwd voor inference
Maia 200 is specifiek ontworpen om inference-throughput en -benutting voor moderne grote modellen te maximaliseren:
- Geavanceerd proces en low-precision compute: Gebouwd op TSMC 3nm met native FP8/FP4 tensor cores. Microsoft stelt dat elke chip >10 petaFLOPS FP4 en >5 petaFLOPS FP8 levert binnen een 750W SoC TDP-envelope.
- High-bandwidth memory en on-chip SRAM: Een herontworpen geheugensysteem omvat 216GB HBM3e met 7 TB/s plus 272MB on-chip SRAM, samen met data movement engines die bedoeld zijn om grote modellen efficiënt van data te blijven voorzien.
- Scale-out ontwerp met standaard Ethernet: Een two-tier scale-up netwerk gebruikt standaard Ethernet met een custom transport layer en geïntegreerde NIC, met 2.8 TB/s bidirectional dedicated scale-up bandwidth en ondersteuning voor voorspelbare collectives in clusters tot 6.144 accelerators.
Microsofts performance- en efficiëntieclaims
Microsoft positioneert Maia 200 als zijn meest performante first-party silicon tot nu toe en meldt:
- ~30% betere performance per dollar dan de nieuwste generatie hardware die momenteel in Microsofts fleet wordt gebruikt
- FP4-performance geclaimd op 3x die van Amazon Trainium (3rd gen) en FP8-performance geclaimd boven Google TPU v7 (volgens Microsofts gepubliceerde vergelijkingen)
Azure-integratie en preview van de Maia SDK
Maia 200 is ontworpen om te integreren in Azure’s control plane voor security, telemetry, diagnostics, en management op chip- en rackniveau. Microsoft biedt ook een preview van de Maia SDK, inclusief:
- PyTorch-integratie
- Triton compiler en geoptimaliseerde kernel library
- Toegang tot een low-level programmeertaal (NPL)
- Simulator en cost calculator voor eerdere optimalisatie
Impact voor IT-admins en platformteams
- Voor Microsoft 365 Copilot-gebruikers: Maia 200 is bedoeld om meerdere modellen te bedienen, waaronder de nieuwste GPT-5.2-modellen van OpenAI, wat de responsiviteit en het schalen onder belasting kan verbeteren naarmate de capaciteit groeit.
- Voor Azure AI builders: Reken op een groeiende set Maia-backed SKUs/services die een betere prijs/performance kunnen bieden voor inference-zware apps, met name die zijn geoptimaliseerd voor FP8/FP4.
- Voor governance en operations: Native integratie met Azure’s control plane suggereert dat Maia-deployments moeten aansluiten op bestaande operationele patronen (monitoring, reliability en security controls), wat frictie vermindert ten opzichte van bespoke AI-infrastructuur.
Uitroldetails
- Beschikbare regio (initieel): US Central (bij Des Moines, Iowa)
- Volgende regio: US West 3 (bij Phoenix, Arizona)
- In de loop van de tijd worden meer regio’s gepland.
Actiepunten / volgende stappen
- Volg Azure service updates voor Maia-backed inference-opties (SKUs, regio’s, quota) die relevant zijn voor je workloads.
- Beoordeel model precision readiness (FP8/FP4-compatibiliteit en accuracy-vereisten) voor cost/performance-optimalisatie.
- Doe mee aan de Maia SDK preview als je custom inference stacks bouwt en porting/optimalisatiepaden over heterogene accelerators wilt evalueren.
- Plan regionale capaciteit: als je AI-apps latency-gevoelig zijn, kijk dan hoe beschikbaarheid in US Central/US West 3 aansluit op je gebruikersbasis en data residency-behoeften.
Hulp nodig met Azure?
Onze experts helpen u bij het implementeren en optimaliseren van uw Microsoft-oplossingen.
Praat met een expertBlijf op de hoogte van Microsoft-technologieën