Xiaomi MiMo raggiunge 1000 TPS con il modello 1T, ridefinendo la velocità dell'AI
AI News

Xiaomi MiMo raggiunge 1000 TPS con il modello 1T, ridefinendo la velocità dell'AI

5 min
09/06/2026
AIMachine LearningXiaomiLLM

Xiaomi MiMo infrange la barriera della velocità con il modello da 1T di parametri

In un risultato importante per l'inferenza dei modelli linguistici di grandi dimensioni, il team MiMo di Xiaomi ha annunciato il modello MiMo-V2.5-Pro-UltraSpeed, in grado di generare oltre 1000 token al secondo. Questo risultato, ottenuto su un modello colossale da 1 trilione di parametri, è stato raggiunto non su hardware esotico ma su nodi GPU standard grazie a una profonda collaborazione tecnica con il team di sistemi TileRT.

La release, descritta in un post sul blog dell'azienda, segna la prima volta che la velocità di decodifica ha superato la barriera dei 1000 TPS alla scala dei trilioni di parametri. Xiaomi non considera questo semplicemente un miglioramento delle prestazioni, ma un cambiamento fondamentale nel modo in cui l'AI può essere applicata, trasformando gli strumenti vincolati dalla latenza in partner cognitivi in tempo reale.

Il modello UltraSpeed: accesso e prezzi

L'accesso a questa capacità all'avanguardia sarà strettamente controllato. L'API MiMo-V2.5-Pro-UltraSpeed verrà lanciata come prova limitata nel tempo dal 9 giugno al 23 giugno 2026. Sarà disponibile solo tramite un processo di richiesta, con priorità data alle imprese e agli sviluppatori professionali con esigenze aziendali dimostrabili.

I prezzi sono fissati a un tasso promozionale di tre volte il costo dell'API standard MiMo-V2.5-Pro, un premio che Xiaomi giustifica promettendo una velocità di generazione circa 10 volte superiore. Gli utenti approvati riceveranno anche accesso gratuito a un'interfaccia di chat durante la finestra di prova, anche se con limiti di sessione giornalieri per gestire le limitazioni delle risorse.

Perché 1000 TPS è un cambiamento di paradigma

Raggiungere questa velocità con un modello di tale scala cambia il calcolo dell'applicazione per l'AI di frontiera. A questo livello di throughput, la velocità grezza del modello inizia ad aumentare la sua intelligenza. Nello stesso tempo che una volta impiegava per generare una singola risposta, il modello può ora esplorare dozzine di percorsi di ragionamento paralleli, utilizzando effettivamente la velocità brute-force per migliorare la profondità e l'accuratezza attraverso tecniche come il campionamento Best-of-N.

Per gli agenti di codifica, questo elimina il collo di bottiglia dello sviluppatore in attesa della generazione del codice. Più profondamente, consente ai modelli da trilioni di parametri di entrare in cicli di decisione in tempo reale. Ciò apre porte ad applicazioni critiche per millisecondi come la generazione di segnali di trading ad alta frequenza, il rilevamento istantaneo di frodi e - più significativamente - l'analisi medica in tempo reale dove la velocità dell'AI può avere un impatto diretto sui risultati salvavita.

continua a leggere sotto...

La svolta tecnica: co-progettazione del modello e del sistema

Raggiungere questa velocità ha richiesto innovazioni sia nell'architettura del modello che nel sistema di inferenza sottostante, andando oltre le ottimizzazioni isolate a una filosofia di co-progettazione olistica.

Quantizzazione FP4 per esperti MoE: Per superare il collo di bottiglia della larghezza di banda della memoria sull'hardware standard, il team ha applicato la quantizzazione FP4 (MXFP4). Criticamente, questo è stato applicato selettivamente solo agli strati Mixture of Experts (MoE), che costituiscono la maggior parte dei parametri del modello e sono altamente tolleranti alla quantizzazione. Ciò riduce drasticamente le dimensioni del modello e la pressione sulla memoria, preservando le capacità del modello principale, come hanno mostrato i risultati dei benchmark che hanno prestazioni alla pari con versioni a precisione più alta.

Decodifica speculativa DFlash: Il team ha implementato un metodo innovativo di predizione parallela mascherata a livello di blocco chiamato DFlash. A differenza della decodifica speculativa tradizionale che utilizza un piccolo modello di bozza seriale, DFlash riempie un intero blocco di posizioni mascherate in un solo passaggio in avanti. Ottimizzato per l'architettura MoE da trilioni di parametri, questo approccio ha raggiunto alti tassi di accettazione, il che significa che il modello grande convalida molti token di bozza contemporaneamente. Nelle scenografie di codifica, la lunghezza media di accettazione ha raggiunto 6,30 token per round di verifica.

Il sistema TileRT: eliminazione dei gap di microsecondo

Le innovazioni sul lato del modello sono state abbinate da un approccio sistemico rivoluzionario da parte di TileRT. A 1000 TPS, il ciclo di vita di ogni operazione è misurato in microsecondi, rendendo l'overhead di lancio e sincronizzazione degli operatori tradizionale debilitante. TileRT ha introdotto un nuovo modello di esecuzione che elimina questi "gap di esecuzione" a livello fondamentale.

Ciò ha comportato la creazione di kernel persistenti, pipeline di tile e una profonda co-progettazione hardware-software che ha consentito al modello quantizzato FP4 e ottimizzato DFlash di funzionare con estrema efficienza su un nodo standard a 8 GPU. La collaborazione dimostra che è possibile raggiungere velocità di inferenza estreme senza ricorrere a silicio personalizzato su scala di wafer o puro SRAM, un percorso scelto da aziende come Cerebras e Groq.

Contesto di mercato e panorama competitivo

Questo annuncio arriva in un momento di frenetica innovazione nell'hardware e nei modelli AI. La stessa settimana, Noctua ha presentato i suoi primi raffreddatori CPU AIO, e Google ha lanciato il suo modello Gemma 4 12B, ottimizzato per laptop utilizzando la predizione multi-token per l'efficienza - un approccio diverso per velocizzare l'inferenza. Nel frattempo, Microsoft e altri stanno spingendo potenti nuovi modelli per le imprese, spesso evidenziando caratteristiche legali e di conformità.

Il risultato di Xiaomi si distingue concentrandosi puramente sulla velocità di inferenza grezza per un modello massiccio. Sfiducia direttamente l'idea che tali velocità richiedano hardware proprietario ed esotico. Dimostrando questo su GPU standard, Xiaomi e TileRT stanno facendo un caso convincente per la potenza dell'innovazione software e algoritmica.

Implicazioni e prospettive future

L'implicazione immediata è un nuovo livello di servizio AI per applicazioni sensibili al tempo e ad alto valore. La prova limitata suggerisce che Xiaomi sta inizialmente prendendo di mira casi d'uso professionali e aziendali dove la velocità si traduce direttamente in vantaggio competitivo o necessità operativa.

Guardando al futuro, questa svolta convalida la co-progettazione del modello e del sistema come un percorso critico verso l'efficienza dell'AI. Mentre l'industria si confronta con i costi in aumento dell'addestramento e dell'inferenza, tecniche come la quantizzazione ultra-low-bit selettiva e la decodifica speculativa avanzata diventeranno essenziali. La corsa non è più solo quella di costruire modelli più grandi, ma di renderli radicalmente più accessibili e reattivi.

La release di MiMo-V2.5-Pro-UltraSpeed è un chiaro segnale che la frontiera dell'AI si sta espandendo lungo l'asse della velocità. Ridefinisce ciò che è possibile con un modello da trilioni di parametri, spostandolo da un motore di elaborazione batch a un partner di ragionamento in tempo reale.