14 giugno 2026

Fable era favolosamente buono? I numeri controluce

Il nome invita al gioco di parole: Fable 5 era davvero favoloso, o è rimasto soprattutto una bella storia? I benchmark erano spettacolari, ma il modello è vissuto solo tre giorni e quasi tutti i numeri venivano da Anthropic stessa. Una valutazione onesta di ciò che sappiamo e ciò che non sappiamo.

"Fable" (favola) e "favoloso" condividono più del suono. La domanda si impone: Claude Fable 5 era davvero buono come promettevano i numeri del lancio, o è rimasto una bella storia che non abbiamo mai potuto verificare? Il modello è stato disponibile pubblicamente per esattamente tre giorni prima che il governo degli Stati Uniti lo facesse spegnere. Questo rende la domanda più difficile da rispondere di quanto si vorrebbe.

I numeri erano spettacolari

Sulla carta, Fable 5 era impressionante. Anthropic ha rivendicato lo stato dell'arte su quasi tutti i benchmark testati. Il più sorprendente: 80,3 percento su SWE-bench Pro, contro il 69,2 percento di Opus 4.8, un vantaggio di oltre undici punti nella programmazione agentica. Inoltre, 95,0 percento su SWE-bench Verified e primo posto sia su GDPval-AA (1932 Elo) sia su FrontierCode di Cognition.

E poi l'esempio pratico che ha fatto il giro: Stripe ha usato Fable 5 per migrare una codebase di 50 milioni di righe in un solo giorno, un lavoro per cui un team di ingegneri avrebbe impiegato circa due mesi. Impressionante, se regge.

Ma chi ha verificato quei numeri?

Qui sta il punto dolente. Quasi tutte le affermazioni su benchmark e capacità vengono da Anthropic stessa o da testimonianze di clienti. La verifica indipendente è stata limitata dalla natura gated, e poi sospesa, del modello. E poi c'è la durata di vita: tre giorni sono semplicemente troppo pochi per un benchmarking serio e indipendente. Abbiamo quindi soprattutto la parola del produttore, e quella di una manciata di partner con un interesse nell'esito.

Questo non rende falsi i numeri. Li rende non confermati. È una differenza importante che sparisce nella maggior parte dei riassunti entusiastici.

La lezione di Mythos Preview

Per fortuna abbiamo un precedente. Il modello gemello Mythos Preview ad aprile ha ricevuto affermazioni altrettanto drammatiche: avrebbe trovato vulnerabilità in modo autonomo, incluso un bug di 17 anni in FreeBSD. Ma quando i ricercatori indipendenti hanno guardato, è arrivata la sfumatura. AISLE ha replicato diversi risultati con modelli open-weight più piccoli. I conteggi di CVE confermati sono rimasti nell'ordine delle decine, non delle migliaia. E l'AI Security Institute britannico ha avvertito che gli ambienti di test non includevano difese aziendali moderne né difensori attivi.

La capacità era quindi reale, ma l'inquadramento più spettacolare ha avuto un tetto. Lo stesso sano scetticismo è opportuno con Fable 5: impressionante, sì, ma probabilmente un po' meno magico di quanto suggeriscano le slide del lancio.

Valeva il prezzo?

Fable 5 costava 10 dollari per milione di token di input e 50 dollari per milione di token di output, il doppio di Opus 4.8 ($5/$25). Il vantaggio di undici punti su SWE-bench Pro è reale e significativo se lavori su compiti agentici lunghi, complessi e di più giorni. Per quel tipo di lavoro il prezzo più alto poteva ripagarsi. Ma per compiti più brevi e quotidiani, Opus 4.8 restava il miglior rapporto prezzo-prestazioni. Favolosamente buono? Per il lavoro giusto, sì. Per tutto, no.

Il paradosso amaro

E poi la morale della storia. Proprio ciò che rendeva Fable 5 così buono, leggere autonomamente una codebase e trovare vulnerabilità, è esattamente ciò che ne ha causato lo spegnimento. Più il modello è capace su questo terreno, maggiore è l'attenzione dall'esterno. La favola si è conclusa con un monito: la potenza e la vulnerabilità di un modello del genere sono due facce della stessa medaglia.

Il verdetto

Fable 5 era favolosamente buono? Sulla carta: sì, un passo avanti reale. Il balzo su SWE-bench Pro non è rumore di marketing, e la direzione è chiara. Ma "favoloso" merita un asterisco: di breve durata, in gran parte autodichiarato, e mai esposto allo scrutinio indipendente che renderebbe definitivo un verdetto. Abbiamo visto abbastanza per restare colpiti, e troppo poco per esserne certi. E questo, opportunamente, è esattamente ciò che è una favola: una bella storia la cui verità devi giudicare per conto tuo.

Punti chiave

Fable 5 ha rivendicato lo stato dell'arte: 80,3% SWE-bench Pro (vs. 69,2% Opus 4.8), 95,0% SWE-bench Verified, n. 1 su GDPval-AA e FrontierCode
Stripe avrebbe migrato 50 milioni di righe di codice in un solo giorno
Quasi tutti i numeri vengono da Anthropic stessa o dai partner; la verifica indipendente è mancata in gran parte
Una durata di vita di tre giorni era troppo breve per un benchmarking indipendente serio
Precedente Mythos Preview: i tester indipendenti hanno ridimensionato molto le affermazioni drammatiche
Il prezzo ($10/$50) conviene soprattutto per compiti lunghi e complessi; per lavori più brevi Opus 4.8 resta più economico
Verdetto: un passo reale sulla carta, ma 'favoloso' merita un asterisco, impressionante ma non confermato