14 juni 2026

Was Fable fabelachtig goed? De cijfers tegen het licht gehouden

De naam nodigt uit tot de woordspeling: was Fable 5 echt fabelachtig goed, of bleef het vooral bij een mooi verhaal? De benchmarks waren spectaculair, maar het model leefde maar drie dagen en bijna alle cijfers kwamen van Anthropic zelf. Een eerlijke afweging van wat we wél en niet weten.

"Fable" en "fabelachtig" delen meer dan alleen hun klank. De vraag dringt zich op: was Claude Fable 5 echt zo goed als de lanceringscijfers beloofden, of bleef het bij een mooi verhaal dat we nooit echt hebben kunnen narekenen? Het model was precies drie dagen publiek beschikbaar voordat de Amerikaanse overheid het liet stilleggen. Dat maakt deze vraag lastiger te beantwoorden dan je zou willen.

De cijfers waren spectaculair

Op papier was Fable 5 indrukwekkend. Anthropic claimde state-of-the-art op vrijwel alle geteste benchmarks. Het meest opvallend: 80,3 procent op SWE-bench Pro, tegen 69,2 procent voor Opus 4.8, een voorsprong van ruim elf punten op agentisch programmeren. Daarbij 95,0 procent op SWE-bench Verified en een eerste plaats op zowel GDPval-AA (1932 Elo) als op Cognition's FrontierCode.

En dan het praktijkvoorbeeld dat de ronde deed: Stripe migreerde met Fable 5 een codebase van vijftig miljoen regels in één dag, werk dat een team engineers naar schatting twee maanden zou hebben gekost. Indrukwekkend, als het klopt.

Maar wie controleerde die cijfers?

Hier wringt het. Bijna alle benchmark- en capaciteitsclaims komen van Anthropic zelf of van klantgetuigenissen. Onafhankelijke verificatie was beperkt door het gated, en daarna opgeschorte, karakter van het model. En dan is er de levensduur: drie dagen is simpelweg te kort voor serieuze, onafhankelijke benchmarking. We hebben dus vooral het woord van de maker, en dat van een handvol partners die er belang bij hadden.

Dat maakt de cijfers niet onwaar. Het maakt ze onbevestigd. Dat is een belangrijk verschil dat in de meeste juichende samenvattingen wegvalt.

De les van Mythos Preview

Gelukkig hebben we een precedent. Het zustermodel Mythos Preview kreeg in april net zulke dramatische claims: het zou autonoom kwetsbaarheden vinden, waaronder een 17 jaar oude bug in FreeBSD. Maar toen onafhankelijke onderzoekers ernaar keken, kwam de nuance. AISLE repliceerde verschillende vondsten met kleinere open-weight modellen. Bevestigde CVE-tellingen bleven in de tientallen, niet de duizenden. En het Britse AI Security Institute waarschuwde dat de testomgevingen geen moderne bedrijfsverdediging of actieve verdedigers bevatten.

De capaciteit was dus echt, maar de meest spectaculaire framing kreeg een plafond. Dezelfde gezonde scepsis is op zijn plaats bij Fable 5: indrukwekkend, ja, maar waarschijnlijk net iets minder magisch dan de launch-slides suggereren.

Was het de prijs waard?

Fable 5 kostte $10 per miljoen input-tokens en $50 per miljoen output-tokens, het dubbele van Opus 4.8 ($5/$25). De voorsprong van elf punten op SWE-bench Pro is reëel en betekenisvol als je werkt aan lange, complexe, meerdaagse agentische taken. Voor dat soort werk kon de hogere prijs zich terugverdienen. Maar voor kortere, alledaagse taken bleef Opus 4.8 de betere prijs-prestatieverhouding. Fabelachtig goed? Voor het juiste werk, ja. Voor álles, nee.

De wrange paradox

En dan de moraal van het verhaal. Precies datgene wat Fable 5 zo goed maakte, autonoom een codebase lezen en kwetsbaarheden vinden, is exact wat het liet stilleggen. Hoe capabeler het model op dit terrein, hoe groter de aandacht van buitenaf. De fabel eindigde met een waarschuwing: de kracht en de kwetsbaarheid van zo'n model zijn twee kanten van dezelfde munt.

Het oordeel

Was Fable 5 fabelachtig goed? Op papier: ja, een echte stap vooruit. De sprong op SWE-bench Pro is geen marketingruis, en de richting is duidelijk. Maar "fabelachtig" verdient een sterretje: kortstondig, grotendeels zelf-gerapporteerd, en nooit blootgesteld aan de onafhankelijke toetsing die een definitief oordeel mogelijk zou maken. We zagen genoeg om onder de indruk te zijn, en te weinig om het zeker te weten. En dat is, gepast genoeg, precies wat een fabel is: een goed verhaal waarvan je de waarheid op je eigen waarde moet schatten.

Belangrijkste punten

Fable 5 claimde state-of-the-art: 80,3% SWE-bench Pro (vs 69,2% Opus 4.8), 95,0% SWE-bench Verified, #1 op GDPval-AA en FrontierCode
Stripe migreerde naar verluidt 50 miljoen regels code in één dag
Bijna alle cijfers komen van Anthropic zelf of van partners; onafhankelijke verificatie ontbrak grotendeels
Drie dagen levensduur was te kort voor serieuze onafhankelijke benchmarking
Precedent Mythos Preview: onafhankelijke testers nuanceerden de dramatische claims fors
Prijs ($10/$50) loont vooral voor lange, complexe taken; voor korter werk blijft Opus 4.8 voordeliger
Oordeel: op papier een echte stap, maar 'fabelachtig' verdient een sterretje, indrukwekkend maar onbevestigd