GPT-5.5: il tasso di allucinazione triplica quello di GLM-5.2 con licenza MIT

Il divario di allucinazione: quando i modelli più grandi sbagliano

Un cambiamento sismico è in corso nella ricerca sull'intelligenza artificiale, allontanandosi dall'inseguimento incessante della scala. Il catalizzatore? Nuovi dati sorprendenti che mostrano che alcuni dei più grandi modelli linguistici al mondo, tra cui GPT-5.5 di OpenAI, esibiscono tassi allarmantemente alti di fabbricazione sicura, o allucinazione.

In base a un'analisi dettagliata che utilizza il benchmark Artificial Analysis Omniscience, GPT-5.5 allucina nell'86% delle domande a cui non può rispondere con fiducia. Ciò significa che raramente ammette l'ignoranza. In netto contrasto, il modello open-source GLM-5.2 di Z.ai, rilasciato con una licenza MIT permissiva, ha ottenuto un tasso di allucinazione molto più basso, del 28%.

Questo divario di prestazioni triplo esiste nonostante GPT-5.5 sia stimato avere 1-2 trilioni di parametri, contro i 753 miliardi di GLM-5.2 (con circa 40 miliardi attivi). I risultati suggeriscono che la scala grezza da sola non è più un indicatore affidabile dell'utilità o della veridicità nel mondo reale.

Benchmarking della frontiera: emerge un nuovo sfidante

Le prestazioni di GLM-5.2 stanno facendo voltare teste in tutto il settore. Nell'Artificial Analysis Intelligence Index, ottiene un punteggio a soli 4 punti da GPT-5.5 e 9 punti da Claude Fable 5 di Anthropic, ora limitato. La sua abilità nel coding è altrettanto impressionante, avendo superato GPT-5.5 in SWE-bench Pro con un punteggio di 62,1.

Forse più disgregante è la sua proposta commerciale. Sourcing tramite il laboratorio cinese di AI Z.ai e disponibile su piattaforme come Hugging Face, GLM-5.2 costa circa un sesto per token rispetto ai principali modelli americani chiusi. Presenta anche una finestra di contesto di un milione di token, abilitando sessioni agenziali lunghe e complesse.

L'iterazione rapida del modello è degna di nota. GLM-5.1, rilasciato a marzo, ha ottenuto un aumento del 28% nei punteggi di coding interni rispetto al suo predecessore di febbraio. GLM-5.2, rilasciato a giugno, ha quasi raddoppiato il suo punteggio Terminal-Bench 2.1 a 81,0. Questo ritmo suggerisce una pipeline di allenamento altamente efficiente, gestita su silicio cinese domestico.

continua a leggere sotto...

I leader dell'allucinazione: una fiducia costosa

Il benchmark Omniscience rivela una tendenza preoccupante tra i modelli massicci. DeepSeek's V4 Pro (1,6T parametri) guida con un tasso di allucinazione del 94%, seguito da GPT-5.5 all'86%. Fable 5 di Anthropic ha ottenuto il 48%, mentre il precedente Opus 4.8 di OpenAI ha registrato il 36%.

Un test pratico ha evidenziato il costo operativo di queste allucinazioni. Quando gli è stato chiesto di rispondere a una domanda complessa in Python che coinvolgeva un paradosso architetturale - progettare una politica personalizzata per il ciclo di eventi asyncio con vincoli contraddittori - i risultati sono stati eloquenti.

DeepSeek V4 Pro ha impiegato 3 minuti e 52 secondi (7.700 token di ragionamento) per produrre una soluzione confidentemente errata ma ben strutturata.
GLM-5.2 ha identificato l'impossibilità logica in 12 secondi (799 token), fornendo un'analisi corretta che spiegava perché la richiesta era insostenibile.

Ciò dimostra che l'immensa scala non insegna ai modelli a riconoscere le fallacie intricate o a calibrare la loro incertezza. Invece, spesso sprecano risorse computazionali significative costruendo risposte plausibili ma false.

Oltre i benchmark: il trilemma AI irrisolto

L'industria sta ora affrontando quello che gli analisti definiscono il trilemma dei moderni LLM. I tre angoli in competizione sono: capacità grezza (come misurata dai benchmark standard), calibrazione dell'incertezza (bassi tassi di allucinazione) e efficienza computazionale.

I modelli di frontiera attuali eccellono massicciamente nel primo ma spesso falliscono catastroficamente nel secondo, con l'efficienza che varia notevolmente. La stagnazione nell'"intelligenza reale" tra un modello aperto da 753 miliardi di parametri e i colossi proprietari da trilioni di parametri indica che le leggi di scala stanno producendo rendimenti decrescenti.

Ciò ha implicazioni profonde. La recente restrizione del governo statunitense su Claude Fable 5, appena tre giorni dopo il rilascio a causa di preoccupazioni per la sicurezza nazionale derivanti da un singolo jailbreak, sottolinea i rischi di implementare sistemi altamente capaci ma scarsamente calibrati. Separatamente, i ricercatori hanno dimostrato che anche GPT-5.4 può essere indotto a generare immagini sessualizzate e violente, evidenziando persistenti sfide per la sicurezza.

La strada avanti: interpretabilità e un nuovo ethos di scala

La ricerca di soluzioni sta accelerando. Nuove ricerche sull'interpretabilità, presentate a conferenze come ICLR 2026 e AAAI 2026, mirano a rilevare le allucinazioni dall'interno del modello. Un metodo mappa le rappresentazioni interne attraverso le architetture per identificare output inaffidabili. Un altro utilizza reti neurali grafiche per analizzare i pattern di attenzione e segnalare probabili errori.

Questi strumenti rappresentano uno spostamento dal tentativo di spiegare completamente gli interni del modello verso la costruzione di monitor in tempo reale per comportamenti problematici. Ciò è cruciale man mano che l'AI si integra più a fondo nei flussi di lavoro critici.

Per il mercato, l'ascesa di un modello ad alte prestazioni, conveniente e con pesi aperti come GLM-5.2 mette in discussione la logica economica degli investimenti massicci e centralizzati nei datacenter AI. Se le prestazioni di classe frontiera possono essere raggiunte con maggiore efficienza e migliore calibrazione, la corsa potrebbe spostarsi dalla pura scala a un allenamento più intelligente e responsabile.

Il messaggio è chiaro: l'era di scalare ciecamente i parametri è finita. La prossima frontiera nell'AI sarà definita non da chi costruisce il modello più grande, ma da chi costruisce il più affidabile, efficiente e capace. Il divario di allucinazione ha reso imperativo questo punto impossibile da ignorare.

GPT-5.5: il tasso di allucinazione triplica quello di GLM-5.2 con licenza MIT

Il divario di allucinazione: quando i modelli più grandi sbagliano

Benchmarking della frontiera: emerge un nuovo sfidante

I leader dell'allucinazione: una fiducia costosa

Oltre i benchmark: il trilemma AI irrisolto

La strada avanti: interpretabilità e un nuovo ethos di scala

Related News

La Norvegia Attua un Divieto Quasi Totale sull'AI Generativa nelle Scuole Elementari

Alphid Lancia la Piattaforma Agente AI per il Trading Multi-Broker

Hyundai Completa l'Acquisto Totale di Boston Dynamics da SoftBank per 325 Milioni di Dollari

Project Valhalla: un decennio di evoluzione di Java punta a JDK 28

Craig Newmark dona 500 milioni di dollari, difende la filantropia tra le polemiche

Anteprima di Emacs 31: Una Guida per Utenti Giornalieri alle Prossime Funzionalità