Il GLM-5.2 di Z.ai incorona l'AI open-source con i migliori punteggi di benchmark
AI News

Il GLM-5.2 di Z.ai incorona l'AI open-source con i migliori punteggi di benchmark

5 min
18/06/2026
artificial intelligenceopen source AImachine learningAI benchmarks

Il nuovo campione open-source emerge

Il 16 giugno 2026, le dinamiche competitive dell'intelligenza artificiale di frontiera sono cambiate in modo decisivo. Il laboratorio cinese di AI Z.ai ha rilasciato GLM-5.2, un modello a pesi aperti con licenza permissiva MIT. Secondo l'ultima versione dell'Artificial Analysis Intelligence Index v4.1, ora guida tutti i modelli a pesi aperti con un punteggio di 51.

Questo punteggio lo pone davanti a rivali formidabili come MiniMax-M3 (44), DeepSeek V4 Pro (max, 44) e Kimi K2.6 (43). Più significativamente, GLM-5.2 si trova sulla frontiera di Pareto dell'Intelligenza rispetto al Costo per Task, offrendo le migliori prestazioni per la sua fascia di prezzo. Questo rilascio non è solo un aggiornamento incrementale; rappresenta un salto strategico che sfida le assunzioni economiche e tecniche alla base dell'AI proprietaria.

Anatomia di un salto in avanti

GLM-5.2 mantiene la stessa impronta di parametri del suo predecessore, GLM-5.1, con 744 miliardi di parametri totali e 40 miliardi di parametri attivi. Tuttavia, segna 11 punti in più sull'Intelligence Index. I guadagni di prestazioni sono ampi ma particolarmente pronunciati nel ragionamento scientifico.

Il modello ha mostrato miglioramenti drammatici su CritPt (+16 punti a 21%) e HLE (+12 punti a 40%). Ha anche registrato forti guadagni su AA-LCR (+9 punti a 71%), tau3 banking (+15 punti a 27%) e SciCode (+7 punti a 50%). TerminalBench v2.1 ha visto un salto di 16 punti al 78%, mentre GPQA Diamond ha guadagnato 3 punti all'89%.

Questi miglioramenti non sono solo accademici. Su GDPval-AA v2, la metrica primaria di Artificial Analysis per le prestazioni agentic nel mondo reale, GLM-5.2 ha segnato 1524. Ciò lo pone davanti a tutti gli altri modelli a pesi aperti ed effettivamente alla pari con sistemi di frontiera proprietari come GPT-5.5 (xhigh reasoning, 1514).

Ridefinire la curva di costo-prestazioni

Le implicazioni commerciali di GLM-5.2 sono profonde. L'API di prima parte di Z.ai è prezzata identicamente a GLM-5.1 a $1.4/$4.4/$0.26 per 1M token di input/output/cache hit. Su base per-task, ciò si traduce in circa $0.46, rendendolo il modello a costo più basso al suo livello di intelligenza.

L'analisi di Forbes evidenzia il netto vantaggio di costo: GLM-5.2 costa circa un sesto di quanto i principali modelli chiusi americani caricano per token. Questo prezzo aggressivo, combinato con prestazioni di fascia alta, crea una forte pressione sui fornitori di modelli proprietari.

Il modello è anche ampiamente disponibile oltre all'API di Z.ai. Può essere accessibile tramite fornitori di terze parti tra cui DeepInfra, Novita, Nebius, Parasail, Siliconflow, GMI Cloud, Baseten e Fireworks. Questa ampia distribuzione assicura una facile adozione e riduce il lock-in del fornitore per gli sviluppatori.

continua a leggere sotto...

Compromessi tecnici e implicazioni strategiche

L'avanzamento di GLM-5.2 arriva con interessanti compromessi tecnici. La sua finestra di contesto si è ampliata significativamente a 1 milione di token, rispetto ai 200K di GLM-5.1. Ciò supporta sessioni agentic più lunghe e complesse cruciali per benchmark come GDPval-AA v2, che ora utilizza un limite di 250 turni.

Tuttavia, il modello utilizza più token di output per task rispetto ai suoi pari—43k, rispetto ai 26k di GLM-5.1, ai 24k di MiniMax-M3 e ai 35k di Kimi K2.6. Di questi, 37k token sono dedicati al ragionamento. Ciò lo pone tra i modelli a pesi aperti meno efficienti in termini di token al suo livello di intelligenza, un fattore che gli sviluppatori devono considerare per applicazioni sensibili al costo.

Il modello è anche migliorato sull'AA-Omniscience Index, segnando 4 rispetto ai 2 di GLM-5.1. Questo guadagno è derivato sia da una maggiore accuratezza (25,1% vs. 24,2%) che da un tasso di allucinazione più basso (28,1% vs. 29,4%), con il tasso di tentativo che rimane stabile al 47%.

Un contesto industriale più ampio

Il rilascio di GLM-5.2 avviene su uno sfondo di intensa competizione AI su multiple frontiere. Come notato in un recente studio di Nature, i LLM di scopo generale stanno sempre più superando gli strumenti AI clinici specializzati sui benchmark medici. Ciò sottolinea la versatilità di modelli di frontiera come GLM-5.2.

Simultaneamente, aziende come Anthropic stanno spingendo le applicazioni AI più in profondità in domini specializzati come le scienze della vita e la scoperta di farmaci. La pressione competitiva da modelli aperti ad alte prestazioni e a basso costo accelera questa tendenza, costringendo tutti i giocatori a dimostrare un valore unico al di là dei punteggi di benchmark grezzi.

Perché questo rilascio è importante

Il ciclo di iterazione rapida dimostrato da Z.ai è forse l'aspetto più rivelatore. GLM-5.1 ha segnato 62 su Terminal-Bench 2.1; GLM-5.2 segna 81,0 sullo stesso benchmark. Ciò rappresenta un serio salto di prestazioni raggiunto in settimane, non in anni. Segnala un'accelerazione nella corsa agli armamenti AI open-source.

Forbes sostiene che questo sviluppo sfida direttamente la dominanza dell'AI statunitense. La combinazione di apertura con licenza MIT, prestazioni che eguagliano quelle di frontiera e un costo radicalmente più basso crea un'alternativa convincente per le imprese e gli sviluppatori. Ciò consente uno spostamento verso la distribuzione AI locale e privata, minacciando il modello di data-center centralizzato sostenuto dagli hyperscaler.

Gli esperti prevedono che la maggior parte dell'AI avanzata funzionerà su dispositivi personali entro anni, guidata dalla nuova capacità di fab e dall'hardware locale potente come Nvidia's DGX Spark. Il profilo di GLM-5.2—un modello ad alte prestazioni disponibile per la distribuzione locale—si allinea perfettamente con questo futuro.

Il nuovo panorama competitivo

Il successo di GLM-5.2 ridefinisce ciò che è possibile con l'AI a pesi aperti. Dimostra che modelli che eguagliano le prestazioni di frontiera proprietarie possono essere sviluppati e rilasciati apertamente a una frazione del costo. Ciò convalida l'approccio open-source e probabilmente stimolerà ulteriori investimenti e innovazione nello spazio.

La forte performance del modello su benchmark agentic come GDPval-AA v2 è particolarmente significativa. Man mano che l'Artificial Analysis Intelligence Index si sposta verso la valutazione dei carichi di lavoro agentic, le prestazioni di GLM-5.2 indicano che i modelli aperti possono gestire compiti complessi, multi-step e del mondo reale in modo efficace.

In ultima analisi, GLM-5.2 è più di un semplice rilascio di modello. È una pietra miliare strategica che democratizza l'accesso alle capacità AI di frontiera, preme sulle economie dei modelli proprietari e accelera la tendenza a livello di settore verso un'intelligenza più efficiente e accessibile. L'era in cui i modelli open-source semplicemente seguivano la frontiera è finita.