War Fable fabelhaft gut? Die Zahlen ins Licht gehalten
Der Name lädt zum Wortspiel ein: War Fable 5 wirklich fabelhaft gut, oder blieb es vor allem eine schöne Geschichte? Die Benchmarks waren spektakulär, aber das Modell lebte nur drei Tage und fast alle Zahlen kamen von Anthropic selbst. Eine ehrliche Abwägung dessen, was wir wissen und was nicht.
"Fable" und "fabelhaft" teilen mehr als nur den Klang. Die Frage drängt sich auf: War Claude Fable 5 wirklich so gut, wie die Launch-Zahlen versprachen, oder blieb es eine schöne Geschichte, die wir nie wirklich nachprüfen konnten? Das Modell war genau drei Tage öffentlich verfügbar, bevor die US-Regierung es abschalten ließ. Das macht diese Frage schwerer zu beantworten, als einem lieb ist.
Die Zahlen waren spektakulär
Auf dem Papier war Fable 5 beeindruckend. Anthropic beanspruchte State of the Art auf nahezu jedem getesteten Benchmark. Am auffälligsten: 80,3 Prozent auf SWE-bench Pro gegenüber 69,2 Prozent für Opus 4.8, ein Vorsprung von über elf Punkten beim agentischen Programmieren. Dazu 95,0 Prozent auf SWE-bench Verified und ein erster Platz sowohl bei GDPval-AA (1932 Elo) als auch bei Cognitions FrontierCode.
Und dann das praktische Beispiel, das die Runde machte: Stripe migrierte mit Fable 5 eine Codebasis von 50 Millionen Zeilen an einem einzigen Tag, Arbeit, für die ein Team von Ingenieuren schätzungsweise zwei Monate gebraucht hätte. Beeindruckend, wenn es stimmt.
Aber wer hat diese Zahlen überprüft?
Hier hakt es. Fast alle Benchmark- und Fähigkeitsangaben stammen von Anthropic selbst oder von Kundenstimmen. Die unabhängige Überprüfung war durch den gated und später ausgesetzten Charakter des Modells begrenzt. Und dann ist da die Lebensdauer: Drei Tage sind schlicht zu kurz für ernsthaftes, unabhängiges Benchmarking. Wir haben also vor allem das Wort des Herstellers, und das einer Handvoll Partner, die ein Interesse am Ergebnis hatten.
Das macht die Zahlen nicht falsch. Es macht sie unbestätigt. Das ist ein wichtiger Unterschied, der in den meisten jubelnden Zusammenfassungen verloren geht.
Die Lektion von Mythos Preview
Zum Glück haben wir einen Präzedenzfall. Das Schwestermodell Mythos Preview erhielt im April ebenso dramatische Behauptungen: Es sollte autonom Schwachstellen finden, darunter einen 17 Jahre alten Bug in FreeBSD. Doch als unabhängige Forscher hinschauten, kam die Differenzierung. AISLE reproduzierte mehrere Funde mit kleineren Open-Weight-Modellen. Bestätigte CVE-Zählungen blieben im Dutzendbereich, nicht in den Tausenden. Und das britische AI Security Institute warnte, dass die Testumgebungen keine moderne Unternehmensverteidigung oder aktive Verteidiger enthielten.
Die Fähigkeit war also real, aber die spektakulärste Darstellung bekam eine Obergrenze. Dieselbe gesunde Skepsis ist bei Fable 5 angebracht: beeindruckend, ja, aber wahrscheinlich eine Spur weniger magisch, als die Launch-Folien suggerieren.
War es den Preis wert?
Fable 5 kostete 10 Dollar pro Million Input-Tokens und 50 Dollar pro Million Output-Tokens, das Doppelte von Opus 4.8 ($5/$25). Der Vorsprung von elf Punkten auf SWE-bench Pro ist real und bedeutsam, wenn du an langen, komplexen, mehrtägigen agentischen Aufgaben arbeitest. Für solche Arbeit konnte sich der höhere Preis rechnen. Aber für kürzere Alltagsaufgaben blieb Opus 4.8 das bessere Preis-Leistungs-Verhältnis. Fabelhaft gut? Für die richtige Arbeit, ja. Für alles, nein.
Das bittere Paradox
Und dann die Moral der Geschichte. Genau das, was Fable 5 so gut machte, autonom eine Codebasis lesen und Schwachstellen finden, ist exakt das, was es zum Abschalten brachte. Je fähiger das Modell auf diesem Terrain, desto größer die Aufmerksamkeit von außen. Die Fabel endete mit einer Warnung: Die Stärke und die Verwundbarkeit eines solchen Modells sind zwei Seiten derselben Medaille.
Das Urteil
War Fable 5 fabelhaft gut? Auf dem Papier: ja, ein echter Schritt nach vorn. Der Sprung auf SWE-bench Pro ist kein Marketing-Rauschen, und die Richtung ist klar. Aber "fabelhaft" verdient ein Sternchen: kurzlebig, größtenteils selbst berichtet und nie der unabhängigen Prüfung ausgesetzt, die ein endgültiges Urteil ermöglichen würde. Wir sahen genug, um beeindruckt zu sein, und zu wenig, um sicher zu sein. Und das ist, passenderweise, genau das, was eine Fabel ist: eine gute Geschichte, deren Wahrheitsgehalt man selbst einschätzen muss.
Wichtigste Erkenntnisse
- Fable 5 beanspruchte State of the Art: 80,3 % SWE-bench Pro (vs. 69,2 % Opus 4.8), 95,0 % SWE-bench Verified, Platz 1 bei GDPval-AA und FrontierCode
- Stripe migrierte angeblich 50 Millionen Codezeilen an einem einzigen Tag
- Fast alle Zahlen stammen von Anthropic selbst oder von Partnern; unabhängige Überprüfung fehlte weitgehend
- Eine Lebensdauer von drei Tagen war zu kurz für ernsthaftes unabhängiges Benchmarking
- Präzedenzfall Mythos Preview: unabhängige Tester relativierten die dramatischen Behauptungen deutlich
- Der Preis ($10/$50) lohnt sich vor allem bei langen, komplexen Aufgaben; bei kürzerer Arbeit bleibt Opus 4.8 günstiger
- Urteil: auf dem Papier ein echter Schritt, aber 'fabelhaft' verdient ein Sternchen, beeindruckend, aber unbestätigt