Azure Maia 200 : la puce IA de Microsoft pour l’inférence
Résumé
Microsoft présente Azure Maia 200, une puce IA conçue spécifiquement pour l’inférence, afin de réduire les coûts et les limites de capacité qui freinent le déploiement à grande échelle des copilots, assistants et agents IA. Grâce à sa gravure en 3 nm, ses performances FP4/FP8 élevées, sa mémoire HBM3e massive et son architecture réseau basée sur Ethernet standard, elle pourrait améliorer la latence, le débit et l’économie des services IA sur Azure et dans les offres Microsoft comme Copilot.
Introduction : pourquoi c’est important
L’adoption de l’IA est de plus en plus contrainte par le coût et la capacité d’inférence — en particulier pour les organisations qui mettent à l’échelle des assistants, des copilots et des agents spécifiques à un domaine. Le nouvel accélérateur Maia 200 de Microsoft cible directement ce goulot d’étranglement en améliorant l’économie de la génération de tokens, ce qui peut se traduire par une meilleure latence, une concurrence plus élevée et potentiellement des coûts d’exécution plus faibles pour les services IA fournis via Azure et des expériences gérées par Microsoft comme Copilot.
Quoi de neuf avec Maia 200
Conçu spécifiquement pour l’inférence
Maia 200 est conçu pour maximiser le débit et l’utilisation en inférence pour les grands modèles modernes :
- Process avancé et calcul en faible précision : Gravé en TSMC 3nm avec des tensor cores FP8/FP4 natifs. Microsoft indique que chaque puce délivre >10 petaFLOPS FP4 et >5 petaFLOPS FP8 dans une enveloppe de TDP SoC de 750W.
- Mémoire à haute bande passante et SRAM on-chip : Un sous-système mémoire repensé inclut 216GB HBM3e à 7 TB/s ainsi que 272MB de SRAM on-chip, avec des moteurs de déplacement de données destinés à alimenter efficacement les grands modèles.
- Architecture scale-out via Ethernet standard : Un réseau scale-up à deux niveaux utilise Ethernet standard avec une couche de transport personnalisée et une NIC intégrée, exposant 2.8 TB/s de bande passante scale-up dédiée bidirectionnelle et prenant en charge des collectifs prévisibles sur des clusters allant jusqu’à 6,144 accélérateurs.
Les assertions de Microsoft sur les performances et l’efficacité
Microsoft présente Maia 200 comme son silicon first-party le plus performant à ce jour et indique :
- ~30% de meilleures performances par dollar que le matériel de dernière génération actuellement déployé dans la flotte de Microsoft
- Des performances FP4 annoncées à 3x celles de Amazon Trainium (3rd gen) et des performances FP8 annoncées au-dessus de Google TPU v7 (selon les comparaisons publiées par Microsoft)
Intégration Azure et aperçu du Maia SDK
Maia 200 est conçu pour s’intégrer au control plane d’Azure pour la sécurité, la télémétrie, les diagnostics et la gestion aux niveaux puce et rack. Microsoft propose également en preview le Maia SDK, incluant :
- Intégration PyTorch
- Compilateur Triton et bibliothèque de kernels optimisés
- Accès à un langage de programmation bas niveau (NPL)
- Simulateur et calculateur de coûts pour une optimisation plus précoce
Impact pour les admins IT et les équipes plateforme
- Pour les utilisateurs de Microsoft 365 Copilot : Maia 200 est destiné à servir plusieurs modèles, dont les derniers modèles GPT-5.2 d’OpenAI, ce qui pourrait améliorer la réactivité et la montée en charge sous forte sollicitation à mesure que la capacité augmente.
- Pour les créateurs Azure AI : Attendez-vous à un ensemble croissant de SKUs/services adossés à Maia pouvant offrir un meilleur ratio prix/performance pour les applications intensives en inférence, en particulier celles optimisées pour FP8/FP4.
- Pour la gouvernance et les opérations : L’intégration native au control plane d’Azure suggère que les déploiements Maia devraient s’aligner sur les pratiques opérationnelles existantes (supervision, fiabilité et contrôles de sécurité), réduisant la friction par rapport à une infrastructure IA sur mesure.
Détails de déploiement
- Région disponible (initiale) : US Central (près de Des Moines, Iowa)
- Prochaine région : US West 3 (près de Phoenix, Arizona)
- D’autres régions sont prévues au fil du temps.
Actions / prochaines étapes
- Suivre les mises à jour des services Azure concernant les options d’inférence adossées à Maia (SKUs, régions, quotas) pertinentes pour vos workloads.
- Évaluer la préparation à la précision des modèles (compatibilité FP8/FP4 et exigences de précision) pour optimiser le coût/la performance.
- Rejoindre la preview du Maia SDK si vous construisez des stacks d’inférence personnalisés et souhaitez évaluer des voies de portage/optimisation sur des accélérateurs hétérogènes.
- Planifier la capacité régionale : si vos apps IA sont sensibles à la latence, examinez comment la disponibilité US Central/US West 3 correspond à votre base d’utilisateurs et à vos exigences de résidence des données.
Besoin d'aide avec Azure ?
Nos experts peuvent vous aider à implémenter et optimiser vos solutions Microsoft.
Parler à un expertRestez informé sur les technologies Microsoft