Fireworks AI su Microsoft Foundry: inferenza open su Azure
Riepilogo
Microsoft ha annunciato la public preview di Fireworks AI su Microsoft Foundry, portando in Azure un’opzione per l’inferenza di modelli open ad alto throughput e bassa latenza tramite un unico endpoint gestito. La novità conta perché combina velocità e flessibilità dei modelli open con governance, sicurezza e operatività enterprise di Azure, semplificando il passaggio dalla sperimentazione alla produzione anche con scenari BYOW e deployment serverless.
Fireworks AI arriva su Microsoft Foundry
Introduzione
Le organizzazioni che adottano modelli open vogliono più delle sole prestazioni pure: hanno bisogno di un modo pratico per eseguire questi modelli in modo sicuro, governarli in modo coerente e passare dai test alla produzione senza dover assemblare più strumenti. La nuova public preview di Fireworks AI su Microsoft Foundry di Microsoft punta a risolvere questo problema combinando un'inferenza rapida per modelli open con le funzionalità di gestione e governance enterprise di Azure.
Novità
Microsoft Foundry ora include Fireworks AI come opzione in public preview per l'inferenza di modelli open in Azure. L'annuncio posiziona Foundry come un control plane centralizzato per l'intero ciclo di vita dell'AI, inclusi valutazione dei modelli, distribuzione, personalizzazione e operazioni.
Gli aggiornamenti principali includono:
- Public preview di Fireworks AI su Microsoft Foundry per l'inferenza di modelli open ad alto throughput e bassa latenza
- Accesso ai modelli open supportati tramite un singolo endpoint Azure in Foundry
- Supporto attuale per questi modelli:
- DeepSeek V3.2
- OpenAI gpt-oss-120b
- Kimi K2.5
- MiniMax M2.5
- MiniMax M2.5 è stato aggiunto di recente a Foundry con supporto serverless
- Supporto bring-your-own-weights (BYOW) per modelli quantizzati o fine-tuned addestrati altrove
- Flessibilità di distribuzione con:
- Inferenza serverless, pay-per-token per sperimentazioni rapide
- Provisioned Throughput Units (PTU) per prestazioni di produzione prevedibili
Microsoft ha inoltre evidenziato le capacità di inferenza su larga scala di Fireworks AI, inclusa l'elaborazione di token su scala internet e throughput ai vertici dei benchmark per i modelli open.
Perché è importante per i team IT e di piattaforma
Per gli amministratori Azure, i team della piattaforma AI e gli enterprise architect, questo riduce la complessità operativa del supporto ai modelli open. Invece di creare stack di serving o framework di governance separati, i team possono usare Foundry come ambiente unico per accesso ai modelli, distribuzione, osservabilità e controllo delle policy.
Questo è particolarmente rilevante per le organizzazioni che vogliono:
- Standardizzare sui modelli open senza vendor lock-in
- Supportare modelli custom fine-tuned mantenendo una piattaforma di serving coerente
- Bilanciare costo e prestazioni tra carichi di lavoro di sperimentazione e produzione
- Applicare controlli di governance e sicurezza enterprise alle distribuzioni AI in Azure
Passaggi successivi consigliati
Gli amministratori e i team AI dovrebbero:
- Esaminare il catalogo modelli di Microsoft Foundry per i modelli ospitati da Fireworks.
- Valutare se le distribuzioni serverless o basate su PTU siano più adatte ai requisiti del carico di lavoro.
- Testare gli scenari BYOW se la propria organizzazione dispone già di modelli open fine-tuned o quantizzati.
- Convalidare requisiti di governance, osservabilità e operatività prima della distribuzione in produzione.
- Monitorare le ulteriori indicazioni di Microsoft sulla personalizzazione dei modelli e sulla gestione del ciclo di vita in Foundry.
Fireworks AI su Microsoft Foundry offre ai clienti Azure un percorso più solido per rendere operativi i modelli open su larga scala, senza sacrificare prestazioni, flessibilità o controllo enterprise.
Hai bisogno di aiuto con Azure?
I nostri esperti possono aiutarti a implementare e ottimizzare le tue soluzioni Microsoft.
Parla con un espertoResta aggiornato sulle tecnologie Microsoft