Le guardie di sicurezza AI di Anthropic Fable scatenano la reazione negativa dei ricercatori
Il modello Fable di Anthropic affronta le critiche per le barriere troppo ampie
La pubblicazione da parte di Anthropic del suo modello Claude Fable 5 AI questa settimana, presentato come una versione pubblica e limitata del suo potente modello Mythos incentrato sulla sicurezza informatica, ha acceso un'immediata controversia. Sebbene concepito come un'alternativa più sicura, le aggressive barriere di sicurezza del modello stanno frustrando i professionisti della sicurezza informatica bloccando una vasta gamma di compiti legittimi e non malevoli.
Il problema di fondo, come riportato da più fonti, è che i classificatori di sicurezza di Fable 5 sembrano essere basati su parole chiave e eccessivamente cauti. Prompt tangenzialmente legati alla sicurezza informatica o alla biologia attivano una risposta automatica, mettendo in pausa la chat e affermando "le misure di sicurezza hanno segnalato questo messaggio per argomenti di sicurezza informatica o biologia". Il modello quindi ricorre al meno capace Claude Opus 4.8 per la sua risposta.
I ricercatori esprimono frustrazione per il lavoro legittimo bloccato
Prominenti ricercatori di sicurezza hanno espresso pubblicamente le loro lamentele. Valentina "Chompie" Palmiotti di IBM X-Force ha dichiarato su X che Fable "rifiuta qualsiasi richiesta che potrebbe essere tangenzialmente legata al cyber". Altri ricercatori hanno confermato esperienze simili, notando che richieste per lo sviluppo di codice sicuro o semplici revisioni di codice venivano segnalate.
"Se gli chiedi di scrivere codice sicuro, presume che sia lavoro relativo alla sicurezza informatica invece di best practice di ingegneria del software, e ti viene declassato", ha detto a TechCrunch il veterano della sicurezza informatica Matt Suiche. Ha descritto il sistema come apparentemente "basato su parole chiave", dove qualsiasi cosa nel campo lessicale di 'sicurezza informatica' attiva le barriere.
L'intento: prevenire lo sviluppo di malware e armi biologiche
La logica di Anthropic per queste misure rigorose è ben documentata. L'azienda ha una preoccupazione pubblica da lungo tempo riguardo alle minacce informatiche abilitate dall'AI e allo sviluppo di armi biologiche. Le barriere su Fable sono progettate per limitare il rischio che il modello possa essere utilizzato per sviluppare malware, compromettere software o aiutare nella creazione di armi biologiche.
Questo approccio cauto rispecchia la strategia di rilascio controllato per il modello Mythos completo. Ad aprile, Anthropic ha lanciato Mythos sotto "Project Glasswing", limitando l'accesso a un gruppo selezionato di aziende e organizzazioni per proteggere l'infrastruttura critica. La settimana scorsa, Anthropic ha esteso l'accesso a Mythos a centinaia di organizzazioni in 15 paesi, mantenendo un ambiente strettamente controllato e verificato.
Un compromesso deliberato: sicurezza rispetto a capacità
Anthropic è stata trasparente nel dare priorità alla sicurezza, anche a costo dell'esperienza utente. Nel suo annuncio e nei materiali relativi, l'azienda ha riconosciuto che le salvaguardie sono "ancora più rigorose di quanto sarebbe ideale" e che "talvolta richieste innocue attiveranno i nostri classificatori".
Dianne Penn, responsabile della gestione del prodotto per ricerca e laboratori di Anthropic, ha spiegato ad Axios che l'azienda sta adottando un approccio "deliberatamente conservativo al lancio". L'obiettivo ammesso è ridurre i falsi positivi nel tempo man mano che le salvaguardie vengono perfezionate. Suiche ha ribadito questa prospettiva, notando che è "meglio catturare più persone che non abbastanza" inizialmente e rilassare le barriere in seguito.
La strada per i professionisti verificati
Per i professionisti della sicurezza informatica che necessitano di capacità avanzate, Anthropic e i suoi concorrenti offrono programmi di verifica. Il Programma di verifica cyber di Anthropic consente agli utenti approvati di utilizzare i modelli Claude per lavoro di sicurezza informatica con meno limitazioni. Allo stesso modo, OpenAI gestisce un programma di accesso fidato per il cyber. Questi programmi creano un sistema di accesso a più livelli, riservando gli strumenti più potenti ai professionisti verificati mentre limitano l'accesso pubblico.
Perché questo dibattito è importante: la corsa agli armamenti per la sicurezza AI
Questo incidente evidenzia una tensione centrale nell'industria dell'AI: bilanciare l'accesso a strumenti potenti con una distribuzione responsabile. Come riporta Axios, sta emergendo una nuova corsa all'accesso ai modelli AI di frontiera tra i fornitori di sicurezza, i ricercatori e gli operatori di infrastrutture critiche.
I laboratori ora detengono un potere significativo, decidendo chi ottiene l'accesso a capacità all'avanguardia che possono sia difendere contro che potenzialmente alimentare sofisticati attacchi informatici. Anthropic stessa ha avvertito che gli avversari "motivati a cercare di eludere le nostre misure di sicurezza" probabilmente mireranno alle capacità di livello Mythos di Fable.
La reazione negativa contro le barriere di Fable sottolinea un problema pratico: se le misure di sicurezza sono troppo grossolane, rischiano di alienare proprio la comunità—i ricercatori di sicurezza etici—il cui lavoro è essenziale per migliorare le difese. La sfida per Anthropic e altri sarà quella di perfezionare questi classificatori per distinguere tra intenti malevoli e ricerca di sicurezza legittima, un ostacolo tecnico che definirà l'usabilità degli strumenti di sicurezza AI di prossima generazione.
Related News

Corte tedesca stabilisce che Google è responsabile degli errori nelle panoramiche AI

Apple annuncia macOS Golden Gate e macchine container Linux

Apple presenta l'architettura AI basata sui modelli di base di Google Gemini

Xiaomi MiMo raggiunge 1000 TPS con il modello 1T, ridefinendo la velocità dell'AI

DeepSeek V4 Pro Surpasses GPT-5.5 Pro on Precision, Powered by Huawei Chips

