Azure Maia 200: levnější AI inference pro Copilot
Shrnutí
Microsoft představil akcelerátor Azure Maia 200 zaměřený na levnější a efektivnější AI inference, s důrazem na vyšší propustnost, nízkopřesné výpočty FP8/FP4 a rychlý paměťový subsystém pro moderní velké modely. To je důležité hlavně pro služby jako Copilot a další AI asistenty v Azure, protože lepší ekonomika generování tokenů může snížit latenci, zvýšit souběžnost a dlouhodobě omezit provozní náklady při škálování.
Úvod: proč je to důležité
Adopci AI stále více limitují náklady a kapacita inference — zejména u organizací, které škálují asistenty, copilots a doménově specifické agenty. Nový akcelerátor Maia 200 od Microsoftu míří přímo na toto úzké hrdlo tím, že zlepšuje ekonomiku generování tokenů, což se může promítnout do nižší latence, vyšší souběžnosti a potenciálně nižších provozních nákladů u AI služeb dodávaných přes Azure a prostřednictvím Microsoftem spravovaných prostředí, jako je Copilot.
Co je nového u Maia 200
Účelově navrženo pro inference
Maia 200 je navržena specificky tak, aby maximalizovala inference propustnost a využití pro moderní velké modely:
- Pokročilý proces a nízkopřesná výpočetní jednotka: Postaveno na TSMC 3nm s nativními FP8/FP4 tensor cores. Microsoft uvádí, že každý čip poskytuje >10 petaFLOPS FP4 a >5 petaFLOPS FP8 v rámci 750W SoC TDP.
- Paměť s vysokou propustností a on-chip SRAM: Přepracovaný paměťový subsystém zahrnuje 216GB HBM3e s 7 TB/s a 272MB on-chip SRAM, spolu s enginy pro přesun dat, které mají efektivně „krmit“ velké modely.
- Scale-out design se standardním Ethernetem: Dvouúrovňová scale-up síť využívá standard Ethernet s vlastní transportní vrstvou a integrovaným NIC; poskytuje 2.8 TB/s obousměrné vyhrazené scale-up šířky pásma a podporuje predikovatelné kolektivní operace napříč clustery až do 6,144 akcelerátorů.
Tvrzení Microsoftu k výkonu a efektivitě
Microsoft Maia 200 prezentuje jako svůj dosud nejvýkonnější first-party křemík a uvádí:
- ~30% lepší výkon na dolar než nejnovější generace hardwaru aktuálně nasazená v infrastruktuře Microsoftu
- FP4 výkon uváděný jako 3x oproti Amazon Trainium (3rd gen) a FP8 výkon uváděný nad Google TPU v7 (dle publikovaných srovnání Microsoftu)
Integrace do Azure a preview Maia SDK
Maia 200 je navržena pro integraci do Azure control plane kvůli bezpečnosti, telemetrii, diagnostice a správě na úrovni čipu i racku. Microsoft také uvádí preview Maia SDK, které zahrnuje:
- Integraci s PyTorch
- Triton compiler a optimalizovanou knihovnu kernelů
- Přístup k nízkoúrovňovému programovacímu jazyku (NPL)
- Simulator a cost calculator pro dřívější optimalizaci
Dopad na IT administrátory a platformní týmy
- Pro uživatele Microsoft 365 Copilot: Maia 200 má obsluhovat více modelů, včetně nejnovějších modelů GPT-5.2 od OpenAI, což může zlepšit odezvu a škálování při zátěži s tím, jak se bude rozšiřovat kapacita.
- Pro vývojáře Azure AI: Očekávejte rostoucí sadu SKU/služeb postavených na Maia, které mohou nabídnout lepší poměr cena/výkon pro inference-náročné aplikace, zejména ty optimalizované pro FP8/FP4.
- Pro governance a provoz: Nativní integrace do Azure control plane naznačuje, že nasazení Maia by mělo zapadnout do stávajících provozních postupů (monitoring, spolehlivost a bezpečnostní kontroly), což snižuje tření oproti „šitým na míru“ AI infrastrukturám.
Detaily nasazení
- Dostupný region (zpočátku): US Central (u Des Moines, Iowa)
- Další region: US West 3 (u Phoenix, Arizona)
- Postupně jsou plánovány další regiony.
Akční kroky / další postup
- Sledujte aktualizace Azure služeb pro inference možnosti postavené na Maia (SKU, regiony, kvóty) relevantní pro vaše workloady.
- Vyhodnoťte připravenost na přesnost modelu (kompatibilita s FP8/FP4 a požadavky na přesnost) pro optimalizaci nákladů/výkonu.
- Zapojte se do preview Maia SDK, pokud stavíte vlastní inference stacky a chcete vyhodnotit možnosti portování/optimalizace napříč heterogenními akcelerátory.
- Plánujte regionální kapacitu: pokud jsou vaše AI aplikace citlivé na latenci, zvažte, jak dostupnost v US Central/US West 3 odpovídá vaší uživatelské základně a potřebám data residency.
Potřebujete pomoc s Azure?
Naši odborníci vám pomohou implementovat a optimalizovat vaše Microsoft řešení.
Mluvte s odborníkemBuďte v obraze o technologiích Microsoft