Claude Fable 5: cosa sapere (e provare) prima del 22 giugno

Claude Fable 5 spiegato bene: la storia di Mythos, i benchmark veri contro GPT-5.5, la gabbia di sicurezza a due livelli e perché il 22 giugno è la data da segnare.

Due mesi fa Anthropic ha costruito un modello di IA e poi ha deciso che era troppo pericoloso per venderlo. Trovava da solo falle di sicurezza sconosciute in tutti i principali sistemi operativi e browser, così è finito sotto chiave, accessibile soltanto a circa 200 partner selezionati.

Ieri quel modello è comparso nell’app di Claude. Con una gabbia intorno.

Claude Fable 5 è il modello di IA più potente mai messo a disposizione del pubblico, con un distacco che ha sorpreso perfino i più scafati osservatori di benchmark. Ed è anche il lancio più strano dell’anno: costa il doppio del modello precedente, certe domande le passa in silenzio a un altro modello, e per gli abbonati Claude è incluso solo fino al 22 giugno. Il Sole 24 Ore ha parlato di vaso di Pandora; SmartWorld si è chiesto se ci catapulterà nel futuro o verso la fine del mondo. La verità, come sempre, sta nei dettagli — eccoli tutti.

Che cos’è davvero Fable 5

La versione breve: Fable 5 è il modello “Mythos” di Anthropic con l’imbracatura di sicurezza.

Quella lunga comincia il 7 aprile, quando Anthropic annuncia un modello di frontiera chiamato Claude Mythos Preview e si rifiuta di pubblicarlo. Non era teatro: il modello scopriva in autonomia vulnerabilità zero-day — falle che nessuno conosce ancora — e le trasformava in exploit funzionanti. Secondo Anthropic ha trovato bug critici in tutti i principali sistemi operativi e browser, il 99% dei quali sconosciuti. L’AI Security Institute britannico ha verificato per conto suo: Mythos completava il 73% di compiti cyber di livello esperto che un anno prima nessun modello riusciva nemmeno ad affrontare.

Così, invece del lancio pubblico, Mythos è entrato in un programma blindato chiamato Project Glasswing — Apple, Google, Microsoft, Nvidia, AWS e alla fine circa 200 organizzazioni in più di 15 Paesi, tutte impegnate a trovare e correggere le proprie falle prima degli attaccanti, con Anthropic a metterci fino a 100 milioni di dollari in crediti d’uso.

Fable 5, uscito il 9 giugno, è la porta d’ingresso per tutti gli altri. Parole di Anthropic: un modello di classe Mythos “reso sicuro per l’uso generale”. Stesso cervello, regole d’ingaggio diverse.

I numeri che hanno fatto sgranare gli occhi

I benchmark non sono mai tutta la storia, ma questa tabella di lancio non era nemmeno una gara. Su SWE-bench Pro — la versione più dura e anti-trucchi del test standard di programmazione su problemi reali di GitHub — Fable 5 segna 80,3%, primo modello sopra quota 80. Il precedente fiore all’occhiello, Claude Opus 4.8, è a 69,2%. GPT-5.5 di OpenAI fa 58,6%, Gemini 3.1 Pro di Google 54,2%.

Tabella ufficiale dei benchmark Anthropic per Claude Mythos 5 e Fable 5: SWE-Bench Pro all'80,3% contro il 69,2% di Opus 4.8 e il 58,6% di GPT-5.5, con vantaggi su lavoro intellettuale, uso del computer, ambito legale e biologia
Benchmark di lancio di Claude Fable 5

La tabella di lancio di Anthropic. Le righe con l’asterisco sono quelle dove scattano le protezioni di Fable 5 — quei punteggi riflettono il Mythos 5 senza briglie. Fonte: Anthropic

E il distacco va ben oltre il codice — la parte che quasi nessuno ha raccontato:

Benchmark (cosa misura)Fable 5 / Mythos 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro (programmazione reale)80,3%69,2%58,6%54,2%
GDPval-AA (lavoro d’ufficio, Elo)1932189017691314
Legal Agent Benchmark (lavoro legale)13,3%10,4%2,1%0,0%
OSWorld-Verified (uso del computer)85,0%83,4%78,7%76,2%
Terminal-Bench 2.1 (lavoro agentico)88,0%82,7%83,4%70,7%

Due righe meritano una traduzione. GDPval misura veri prodotti di lavoro intellettuale — memo, analisi e documenti di 44 professioni: quel 1932 contro il 1769 di GPT-5.5 è il benchmark del “tuo lavoro vero”, non un test per programmatori. E il Legal Agent Benchmark ha punteggi che sembrano ridicoli per tutti — il test è brutale — ma l’ordine conta: 13,3% contro 2,1% significa sei volte meglio sul lavoro legale agentico. Per chi lavora con atti, contratti e fascicoli, è la riga più interessante della tabella.

I riscontri pratici arrivano in fretta: Stripe sostiene che il modello ha compresso in un giorno una migrazione da 50 milioni di righe di codice stimata in oltre due mesi di lavoro. E l’aggregatore indipendente Artificial Analysis mette Fable 5 al primo posto del suo Intelligence Index con 64,9 punti, circa cinque sopra il miglior concorrente — su un indice composito, un’enormità.

La gabbia: due livelli, molto diversi

Qui sta la parte davvero inedita del lancio, e anche la polemica.

Il primo livello è visibile. Modelli classificatori separati controllano ogni richiesta. Se rilevano una domanda in tre categorie — cybersicurezza offensiva, biologia e chimica, o tentativi di estrarre le capacità del modello per addestrare un concorrente — Fable 5 non risponde: risponde Claude Opus 4.8 al suo posto, e te lo dicono. Come uno specialista che passa certe domande a un collega invece di rifiutarsi. Anthropic dichiara che oltre il 95% delle sessioni non lo attiva mai; Artificial Analysis ha misurato circa l'8% nei suoi benchmark, soprattutto nei test scientifici. La logica sta in un numero solo: nei test di sviluppo exploit, il Mythos 5 senza briglie fa 78% dove Opus 4.8 fa 40%. Quei 38 punti di vantaggio sono esattamente ciò che Anthropic non vuole regalare agli attaccanti.

Il secondo livello è invisibile, ed è quello su cui gli esperti litigano. Sepolto nella system card: per le richieste che riguardano la costruzione di IA di frontiera — pipeline di pre-addestramento, infrastrutture di training distribuito, design di acceleratori — Fable 5 non rifiuta e non passa la mano. Risponde con efficacia deliberatamente limitata, tramite steering vector e prompt modificati, senza dirtelo. Anthropic stima che riguardi lo 0,03% del traffico, concentrato in meno dello 0,1% delle organizzazioni.

La critica arriva proprio dagli estimatori. Nathan Lambert dell’Allen Institute for AI — che nello stesso saggio definisce Fable 5 “il modello più intelligente disponibile al pubblico” — scrive che “un modello di IA che diventa automaticamente meno intelligente senza avvisarmi è IA categoricamente disallineata”. Il problema di fondo è epistemico: un rifiuto lo vedi, un passaggio di mano lo valuti, ma una risposta degradata in silenzio non ti permette mai di capire se a fallire è stata la tua idea, il tuo codice o il modello che frenava.

Il contrappunto onesto: la cosa è documentata — è proprio così che si è saputo —, la fetta di traffico è minuscola e la regola punta esattamente agli attori meno inclini a rispettare i termini di servizio. Per la stragrande maggioranza delle professioni non cambia nulla. Ma il precedente ora esiste, e la notizia è quella.

Ultimo dettaglio nascosto nel lancio: tutto il traffico di classe Mythos è soggetto a una conservazione obbligatoria dei dati di 30 giorni — anche per le aziende con contratti a conservazione zero. Anthropic parla di caccia ad attacchi nuovi e jailbreak, non di addestramento. Chi tratta dati sensibili di clienti — studi legali e commercialisti in prima fila — farebbe bene a parlarne con il responsabile privacy prima di farci passare qualunque cosa.

Il prezzo, e la scadenza del 22 giugno

Fable 5 costa 10 dollari per milione di token in ingresso e 50 per milione in uscita — esattamente il doppio di Opus 4.8 e meno della metà di quanto pagavano i primi partner della Mythos Preview. Finestra di contesto (1 milione di token, circa 750.000 parole di memoria di lavoro) e risposta massima (128.000 token) restano invariate.

Per chi usa le API, fine della storia: disponibile, paghi a consumo, chiuso.

Per i milioni di abbonati Claude Pro, Max e Team, invece, c’è un conto alla rovescia. Fable 5 è incluso nei piani a pagamento senza costi extra solo fino al 22 giugno — consumando però la tua quota d’uso al doppio della velocità di Opus —, e dal 23 giugno passa a crediti d’uso separati, finché non tornerà “come componente standard quando la capacità lo permetterà”. Senza data.

Quella finestra di due settimane ha acceso una discussione più rumorosa dei benchmark: c’è chi ha dichiarato morto l’abbonamento IA a tariffa fissa, perché l’economia dei modelli di frontiera non regge più il “tutto incluso”. La lettura più pacata: Anthropic ha prezzato onestamente il calcolo di classe Mythos, è stata travolta dalla domanda e sta razionando finché le GPU non recuperano. Possono essere vere entrambe. Il fatto pratico non cambia: l’assaggio gratuito finisce il 22 giugno.

Cosa non sa fare

  • Costare poco o essere veloce. Il doppio del prezzo è reale, i primi utenti segnalano tempi di ragionamento lunghi, e in bolletta compaiono sessioni agentiche da 40 minuti e oltre. Per le domande quotidiane è lo strumento sbagliato — come chiamare un ingegnere strutturale per appendere un quadro.
  • Vincere ovunque. Andon Labs ha fatto girare il Mythos 5 senza briglie nella sua simulazione d’impresa Vending-Bench: ha guadagnato meno di Opus 4.7 e GPT-5.5. Un solo team, un solo benchmark, ma un buon antidoto all’euforia.
  • Lasciare in pace chi lavora nella sicurezza. Il classificatore cyber è tarato in modo prudente, e sviluppatori impegnati in lavoro puramente difensivo finiscono già nel fallback di Opus.
  • Garantire di essere ancora nell’abbonamento a luglio. “Tornerà quando la capacità lo permetterà” è un’intenzione, non una data.

Fable 5 o Opus 4.8: quale usare davvero?

Opus 4.8 non è sparito e, a metà prezzo, resta la scelta sensata per la maggior parte del lavoro:

Il tuo compitoUsa
Scrittura quotidiana, email, riassuntiOpus 4.8 — Fable è sprecato
Ricerca o analisi lunga, in più passaggiFable 5 — il distacco emerge in profondità
Programmazione seria, debugging, migrazioniFable 5 — qui umilia tutto il resto
Documenti complessi: fisco, contratti, PDF densiFable 5 — i numeri GDPval e legali sono la prova
Ricerca di sicurezza, temi bio/chimiciOpus 4.8 direttamente — Fable passerebbe comunque la mano
Attività automatizzate ad alto volumeOpus 4.8 o Haiku — i token si sommano in fretta

Cosa significa per te

Se paghi già Claude Pro, Max o Team: hai tempo fino al 22 giugno per scoprire — senza costi extra — se la differenza conta per il tuo lavoro. Non sprecare la finestra in chiacchiere che qualunque modello gestisce uguale. Dagli il compito vero più difficile che hai: l’analisi del foglio di calcolo ingestibile, il contratto da 80 pagine, la dichiarazione che rimandi da settimane. Se il risultato ti fa sobbalzare sulla sedia, saprai se i crediti varranno la spesa. Altrimenti, Opus 4.8 resta eccellente e incluso.

Se usi ChatGPT e ti stai facendo domande: il distacco da GPT-5.5 è il vantaggio più ampio che si sia visto da un paio d’anni a questa parte — ma si concentra sul lavoro profondo, agentico, di lungo respiro. Se il tuo uso dell’IA è conversazionale, non lo sentirai. Se spingi i modelli al limite su veri prodotti professionali, questo è il raro momento in cui “prova l’altro” poggia su dati e non su sensazioni.

Se valuti strumenti IA per uno studio o un’azienda: due dettagli silenziosi pesano più dei benchmark. La conservazione obbligatoria di 30 giorni scavalca gli accordi a conservazione zero sui modelli di classe Mythos — da chiarire con la compliance prima di instradarci lavoro sensibile. E il passaggio da abbonamento a crediti è un segnale di prezzo che tutta l’industria sta osservando: metti a budget l’IA di frontiera a consumo, non come postazioni fisse per sempre.

Se l’IA non l’hai mai usata sul serio: questo lancio non cambia il tuo punto di partenza — i piani gratuiti di Claude e ChatGPT restano la palestra giusta. Ma tieni a mente cosa è appena successo: l’IA più potente mai venduta viene ora sorvegliata da altre IA. Quell’architettura — capacità più guardiani — è la forma dei prossimi anni.

In sintesi

Claude Fable 5 è due storie in una. La prima è la potenza pura: il più grande salto generazionale da anni, con prove su codice, lavoro intellettuale, finanza e diritto — e due settimane in cui gli abbonati possono provarlo gratis. La seconda è il precedente: il primo modello di frontiera il cui pericolo non è stato gestito trattenendolo, ma rinchiudendolo in un reticolo di classificatori, fallback, regole di conservazione e limiti silenziosi. La prima storia è il motivo per provarlo entro il 22 giugno. La seconda è il motivo per cui questo lancio verrà ricordato quando i benchmark saranno preistoria.

Se lavori con atti e contratti, il nostro corso IA per avvocati mostra dove modelli come questo aiutano davvero — e IA per commercialisti fa lo stesso per fisco e bilanci. Le prime due lezioni di ogni corso sono gratuite.

Fonti

Costruisci Competenze IA Concrete

Corsi passo passo con quiz e certificati per il tuo CV