Azure Maia 200 laskee Copilotin AI-kustannuksia
Yhteenveto
Microsoftin uusi Azure Maia 200 on erityisesti AI-inferenssiin suunniteltu kiihdytin, jonka tavoitteena on parantaa suurten mallien suorituskykyä ja laskea tokenien generoinnin kustannuksia esimerkiksi Copilotissa. Tämä on tärkeää, koska inferenssin hinta ja kapasiteetti ovat monille organisaatioille AI:n skaalaamisen suurimpia esteitä, ja tehokkaampi rauta voi tuoda parempaa latenssia, enemmän samanaikaisia käyttäjiä ja edullisempia Azure-pohjaisia AI-palveluita.
Johdanto: miksi tällä on merkitystä
AI:n käyttöönottoa rajoittavat yhä useammin inferenssin kustannukset ja kapasiteetti — erityisesti organisaatioissa, jotka skaalaavat assistentteja, copiloteja ja toimialakohtaisia agentteja. Microsoftin uusi Maia 200 -kiihdytin kohdistuu tähän pullonkaulaan suoraan parantamalla tokenien generoinnin taloudellisuutta, mikä voi tarkoittaa parempaa latenssia, korkeampaa samanaikaisuutta ja mahdollisesti pienempiä ajokustannuksia Azuresta ja Microsoftin hallinnoimista kokemuksista, kuten Copilotista, toimitettaville AI-palveluille.
Mikä on uutta Maia 200:ssa
Tarkoitukseen rakennettu inferenssiä varten
Maia 200 on suunniteltu erityisesti maksimoimaan inferenssin läpimeno ja käyttöaste nykyaikaisille suurille malleille:
- Edistynyt prosessi ja matalatarkkuuslaskenta: Valmistettu TSMC 3nm -prosessilla, ja siinä on natiivit FP8/FP4 tensoriytimet. Microsoftin mukaan jokainen piiri tuottaa >10 petaFLOPS FP4 ja >5 petaFLOPS FP8 750W SoC TDP -raamin sisällä.
- Korkean kaistanleveyden muisti ja sirunsisäinen SRAM: Uudelleensuunniteltu muistijärjestelmä sisältää 216GB HBM3e nopeudella 7 TB/s sekä 272MB sirunsisäistä SRAMia, lisäksi datansiirtomoottoreita, joiden tarkoitus on pitää suuret mallit tehokkaasti syötettyinä.
- Skaalautuva arkkitehtuuri standardilla Ethernetillä: Kaksitasoinen scale-up-verkko käyttää standardia Ethernetiä mukautetulla siirtokerroksella ja integroidulla NIC:llä. Tämä tarjoaa 2.8 TB/s kaksisuuntaisen, omistetun scale-up-kaistanleveyden ja tukee ennustettavia collectives-operaatioita klustereissa jopa 6,144 kiihdyttimeen asti.
Microsoftin suorituskyky- ja tehokkuusväitteet
Microsoft asemoituu Maia 200:n tähän mennessä suorituskykyisimmäksi ensimmäisen osapuolen piirikseen ja toteaa:
- ~30% parempi suorituskyky per dollari kuin Microsoftin laitekannan uusin sukupolvi tällä hetkellä
- FP4-suorituskyvyn väitetään olevan 3x verrattuna Amazon Trainium (3rd gen) -ratkaisuun, ja FP8-suorituskyvyn väitetään ylittävän Google TPU v7 (Microsoftin julkaistujen vertailujen mukaan)
Azure-integraatio ja Maia SDK -esikatselu
Maia 200 on suunniteltu integroitumaan Azuren control planeen tietoturvaa, telemetriaa, diagnostiikkaa ja hallintaa varten siru- ja rack-tasoilla. Microsoft tarjoaa myös Maia SDK:n esikatselussa, mukaan lukien:
- PyTorch-integraatio
- Triton compiler ja optimoitu kernel-kirjasto
- Pääsy matalan tason ohjelmointikieleen (NPL)
- Simulator ja kustannuslaskuri aiempaa optimointia varten
Vaikutus IT-ylläpitäjille ja alustatiimeille
- Microsoft 365 Copilot -käyttäjille: Maia 200:n on tarkoitus palvella useita malleja, mukaan lukien OpenAI:n uusimmat GPT-5.2 -mallit, mikä voi parantaa vasteaikaa ja kuormansietoa kapasiteetin kasvaessa.
- Azure AI -rakentajille: Odota kasvavaa Maia-taustaisten SKU:iden/palveluiden joukkoa, joka voi tarjota paremman hinta/suorituskyky-suhteen inferenssivoittoisille sovelluksille, erityisesti niille, jotka on optimoitu FP8/FP4:lle.
- Hallinnolle ja operaatioille: Natiivi integraatio Azuren control planeen viittaa siihen, että Maia-käyttöönotot noudattavat olemassa olevia toimintamalleja (monitorointi, luotettavuus ja tietoturvakontrollit), mikä vähentää kitkaa verrattuna räätälöityyn AI-infrastruktuuriin.
Käyttöönoton tiedot
- Saatavilla oleva alue (aluksi): US Central (lähellä Des Moinesia, Iowassa)
- Seuraava alue: US West 3 (lähellä Phoenixia, Arizonassa)
- Lisää alueita on suunnitteilla ajan myötä.
Toimenpiteet / seuraavat askeleet
- Seuraa Azure service updates -julkaisuja Maia-taustaisista inferenssivaihtoehdoista (SKU:t, alueet, kiintiöt), jotka ovat olennaisia työkuormillesi.
- Arvioi mallien tarkkuusvalmius (FP8/FP4-yhteensopivuus ja tarkkuusvaatimukset) kustannus/suorituskyky-optimointia varten.
- Liity Maia SDK -esikatseluun, jos rakennat räätälöityjä inferenssipinoja ja haluat arvioida siirto-/optimointipolkuja heterogeenisten kiihdyttimien välillä.
- Suunnittele alueellinen kapasiteetti: jos AI-sovelluksesi ovat latenssiherkkiä, huomioi, miten US Central/US West 3 -saatavuus suhteutuu käyttäjäkuntaasi ja data residency -tarpeisiin.
Tarvitsetko apua Azure-asioissa?
Asiantuntijamme auttavat sinua toteuttamaan ja optimoimaan Microsoft-ratkaisusi.
Keskustele asiantuntijan kanssaPysy ajan tasalla Microsoft-teknologioista