14 de junio de 2026

¿Fue Fable fabulosamente bueno? Las cifras a contraluz

El nombre invita al juego de palabras: ¿fue Fable 5 realmente fabuloso, o se quedó sobre todo en una buena historia? Los benchmarks eran espectaculares, pero el modelo vivió solo tres días y casi todas las cifras venían de la propia Anthropic. Una valoración honesta de lo que sabemos y lo que no.

"Fable" (fábula) y "fabuloso" comparten más que el sonido. La pregunta se impone: ¿fue Claude Fable 5 realmente tan bueno como prometían las cifras de lanzamiento, o se quedó en una buena historia que nunca pudimos verificar? El modelo estuvo disponible públicamente exactamente tres días antes de que el gobierno de EE. UU. lo hiciera apagar. Eso hace esta pregunta más difícil de responder de lo que querríamos.

Las cifras eran espectaculares

Sobre el papel, Fable 5 era impresionante. Anthropic reivindicó el estado del arte en casi todos los benchmarks probados. Lo más llamativo: 80,3 por ciento en SWE-bench Pro, frente al 69,2 por ciento de Opus 4.8, una ventaja de más de once puntos en programación agéntica. Además, 95,0 por ciento en SWE-bench Verified y primer puesto tanto en GDPval-AA (1932 Elo) como en FrontierCode de Cognition.

Y luego el ejemplo práctico que corrió de boca en boca: Stripe usó Fable 5 para migrar una base de código de 50 millones de líneas en un solo día, un trabajo que un equipo de ingenieros habría necesitado unos dos meses para completar. Impresionante, si se sostiene.

Pero ¿quién comprobó esas cifras?

Aquí está el problema. Casi todas las afirmaciones sobre benchmarks y capacidades vienen de la propia Anthropic o de testimonios de clientes. La verificación independiente quedó limitada por el carácter gated, y después suspendido, del modelo. Y luego está la vida útil: tres días es sencillamente demasiado poco para un benchmarking serio e independiente. Así que tenemos sobre todo la palabra del fabricante, y la de un puñado de socios con intereses en el resultado.

Eso no hace falsas las cifras. Las hace no confirmadas. Es una diferencia importante que desaparece en la mayoría de los resúmenes entusiastas.

La lección de Mythos Preview

Por suerte, tenemos un precedente. El modelo hermano Mythos Preview recibió en abril afirmaciones igual de dramáticas: encontraría vulnerabilidades de forma autónoma, incluido un fallo de 17 años de antigüedad en FreeBSD. Pero cuando investigadores independientes lo examinaron, llegó el matiz. AISLE reprodujo varios hallazgos con modelos open-weight más pequeños. Los recuentos de CVE confirmados se quedaron en decenas, no en miles. Y el AI Security Institute británico advirtió de que los entornos de prueba no incluían defensas empresariales modernas ni defensores activos.

Así que la capacidad era real, pero el encuadre más espectacular tuvo un techo. El mismo escepticismo sano es pertinente con Fable 5: impresionante, sí, pero probablemente un poco menos mágico de lo que sugieren las diapositivas de lanzamiento.

¿Valía lo que costaba?

Fable 5 costaba 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, el doble de Opus 4.8 ($5/$25). La ventaja de once puntos en SWE-bench Pro es real y significativa si trabajas en tareas agénticas largas, complejas y de varios días. Para ese tipo de trabajo, el precio más alto podía amortizarse. Pero para tareas más cortas y cotidianas, Opus 4.8 seguía siendo la mejor relación precio-rendimiento. ¿Fabulosamente bueno? Para el trabajo adecuado, sí. Para todo, no.

La paradoja amarga

Y luego la moraleja de la historia. Justo aquello que hacía a Fable 5 tan bueno, leer de forma autónoma una base de código y encontrar vulnerabilidades, es exactamente lo que provocó su apagado. Cuanto más capaz es el modelo en este terreno, mayor es la atención desde fuera. La fábula terminó con una advertencia: la potencia y la vulnerabilidad de un modelo así son dos caras de la misma moneda.

El veredicto

¿Fue Fable 5 fabulosamente bueno? Sobre el papel: sí, un paso real hacia adelante. El salto en SWE-bench Pro no es ruido de marketing, y la dirección es clara. Pero "fabuloso" merece un asterisco: efímero, en gran medida autoinformado, y nunca expuesto al escrutinio independiente que haría definitivo un veredicto. Vimos lo suficiente para quedar impresionados, y demasiado poco para estar seguros. Y eso, apropiadamente, es justo lo que es una fábula: una buena historia cuya verdad has de juzgar por tu cuenta.

Puntos clave

Fable 5 reivindicó el estado del arte: 80,3 % SWE-bench Pro (vs. 69,2 % Opus 4.8), 95,0 % SWE-bench Verified, n.º 1 en GDPval-AA y FrontierCode
Stripe migró supuestamente 50 millones de líneas de código en un solo día
Casi todas las cifras vienen de la propia Anthropic o de socios; faltó la verificación independiente
Una vida útil de tres días fue demasiado corta para un benchmarking independiente serio
Precedente de Mythos Preview: los evaluadores independientes matizaron mucho las afirmaciones dramáticas
El precio ($10/$50) compensa sobre todo en tareas largas y complejas; para trabajo más corto Opus 4.8 sale más barato
Veredicto: un paso real sobre el papel, pero 'fabuloso' merece un asterisco, impresionante pero no confirmado