Claude Fable 5: qué es y cómo probarlo gratis antes del 22 de junio

Claude Fable 5 explicado: la historia de Mythos, benchmarks reales contra GPT-5.5, el sistema de seguridad de dos capas y cómo probarlo gratis hasta el 22 de junio.

Hace dos meses, Anthropic construyó un modelo de IA y decidió que era demasiado peligroso para venderlo. Podía encontrar fallas de seguridad desconocidas en todos los sistemas operativos y navegadores importantes — solo, sin ayuda humana —, así que lo guardó bajo llave y dejó que lo tocaran apenas unos 200 socios verificados.

Ayer, ese mismo modelo apareció en la app de Claude. Con una jaula puesta.

Claude Fable 5 es el modelo de IA más capaz que el público ha podido usar jamás, y por un margen que sorprendió hasta a los más escépticos. También es el lanzamiento más raro del año: cuesta el doble que el modelo anterior, ciertas preguntas las responde en silencio otro modelo, y si pagas una suscripción de Claude, viene incluido solo hasta el 22 de junio. Digital Trends en Español lo resumió bien: “la IA demasiado peligrosa ya está al alcance de todos”. Acá va el panorama completo — y lo más importante para ti: cómo aprovechar las dos semanas gratis sin desperdiciarlas.

Qué es Claude Fable 5 en realidad

La versión corta: Fable 5 es el modelo “Mythos” de Anthropic con arnés de seguridad.

La versión larga empieza el 7 de abril, cuando Anthropic anunció un modelo de frontera llamado Claude Mythos Preview y se negó a lanzarlo. La razón no era teatro de marketing. El modelo podía descubrir vulnerabilidades de día cero por su cuenta — fallas de seguridad que nadie conoce todavía — y convertirlas en ataques funcionales. Según Anthropic, encontró errores críticos en todos los sistemas operativos y navegadores importantes, 99% de ellos desconocidos hasta entonces. El instituto británico de seguridad de IA (AISI) hizo su propia evaluación: Mythos completó el 73% de tareas de ciberseguridad de nivel experto que un año antes ningún modelo podía resolver.

Así que en vez de lanzarlo, Anthropic lo metió en un programa verificado llamado Project Glasswing — Apple, Google, Microsoft, Nvidia, AWS y unas 200 organizaciones en más de 15 países, todas usándolo para encontrar y parchar sus propias fallas antes de que lo hagan los atacantes.

Fable 5, lanzado el 9 de junio, es la puerta de entrada para el resto de nosotros. En palabras de Anthropic: un modelo clase Mythos “que hicimos seguro para uso general”. El mismo cerebro, con otras reglas de juego.

Los números, y por qué dejaron a todos con la boca abierta

Los benchmarks nunca cuentan toda la historia, pero esta tabla de lanzamiento no estuvo ni cerca de ser pareja. En SWE-bench Pro — la versión más dura del test estándar de programación con problemas reales de GitHub — Fable 5 sacó 80.3%, el primer modelo en pasar de 80. El buque insignia anterior de Anthropic, Claude Opus 4.8, está en 69.2%. GPT-5.5 de OpenAI saca 58.6%, y Gemini 3.1 Pro de Google, 54.2%.

Tabla oficial de benchmarks de Anthropic para Claude Mythos 5 y Fable 5: SWE-Bench Pro en 80.3% contra 69.2% de Opus 4.8 y 58.6% de GPT-5.5, más ventajas en trabajo de conocimiento, uso de computadora, derecho y biología
Benchmarks de lanzamiento de Claude Fable 5

La tabla oficial del lanzamiento. Las filas marcadas con estrella son donde actúan las salvaguardas de Fable 5 — esos puntajes corresponden al Mythos 5 sin restricciones. Fuente: Anthropic

El patrón se repite más allá del código — y esta es la parte que casi nadie cubrió:

Benchmark (qué mide)Fable 5 / Mythos 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro (programación real)80.3%69.2%58.6%54.2%
GDPval-AA (trabajo de oficina, Elo)1932189017691314
Humanity’s Last Exam, sin herramientas59.0%*49.8%41.4%44.4%
Legal Agent Benchmark (trabajo legal)13.3%10.4%2.1%0.0%
OSWorld-Verified (uso de computadora)85.0%83.4%78.7%76.2%
Terminal-Bench 2.1 (trabajo agéntico)88.0%82.7%83.4%70.7%

* Los puntajes con estrella incluyen manejo con fallback — mira la sección de la jaula.

Dos filas merecen traducción. GDPval mide entregables reales de oficina — los memos, análisis e informes de 44 ocupaciones —, así que esa brecha de 1932 contra 1769 de GPT-5.5 es el benchmark de “tu trabajo de verdad”, no uno de programación. Y en el Legal Agent Benchmark todos los números parecen ridículamente bajos porque la prueba es brutal, pero el orden importa: 13.3% contra 2.1% es seis veces más en trabajo legal agéntico.

Las anécdotas del mundo real llegan rápido. Stripe dice que el modelo comprimió una migración de 50 millones de líneas de código — calculada en más de dos meses de trabajo de equipo — a un solo día. Y el agregador independiente Artificial Analysis puso a Fable 5 en el puesto #1 de su Intelligence Index con 64.9 puntos, unos cinco puntos por encima del mejor modelo que no es de Anthropic. En un índice compuesto, cinco puntos son un montón.

La jaula: cómo Anthropic volvió “seguro” a Mythos

Esta es la parte genuinamente nueva del lanzamiento — y donde vive la polémica. El sistema de seguridad de Fable 5 tiene dos capas que funcionan de maneras completamente distintas.

La capa uno es visible. Modelos clasificadores separados vigilan cada solicitud. Cuando detectan una pregunta de tres categorías — ciberseguridad ofensiva, biología y química, o intentos de extraer las capacidades del modelo para entrenar a un competidor —, Fable 5 no responde. Responde Claude Opus 4.8 en su lugar, y te avisan que pasó. Piénsalo como un especialista que deriva ciertas consultas a un colega en vez de negarse de plano. Anthropic dice que más del 95% de las sesiones nunca lo activan; Artificial Analysis midió cerca de 8% durante sus benchmarks, sobre todo en pruebas científicas. La lógica está en el propio benchmark: en pruebas de desarrollo de exploits, el Mythos 5 sin jaula saca 78% donde Opus 4.8 saca 40%. Esos 38 puntos de diferencia son exactamente la ventaja que Anthropic no quiere regalarle a los atacantes.

Una solicitud, dos caminos de seguridad muy distintos
ciber / bio / destilación
Derivación visible
Opus 4.8 responde en su lugar
fallback transparente — sigue siendo una buena respuesta
desarrollo de IA de frontera
Límites silenciosos
vectores de dirección · prompts modificados
respuesta degradada — la parte polémica
Los dos mecanismos de seguridad de Fable 5. La derivación se muestra en el producto; los límites silenciosos solo están documentados en la system card.

La capa dos es invisible, y es la que tiene a los expertos discutiendo. Enterrado en la system card: para solicitudes sobre construir IA de frontera — pipelines de preentrenamiento, infraestructura de entrenamiento distribuido, diseño de aceleradores —, Fable 5 no se niega ni deriva. Responde con efectividad deliberadamente limitada, usando técnicas como vectores de dirección y modificación de prompts, sin decírtelo. Anthropic estima que esto toca ~0.03% del tráfico, concentrado en menos del 0.1% de las organizaciones.

La crítica, de gente que en general es fan, es filosa. Nathan Lambert del Allen Institute for AI — que en el mismo ensayo llamó a Fable 5 “sin duda el modelo más inteligente disponible para el público” — escribió que “un modelo de IA que se vuelve menos inteligente automáticamente sin avisarme es IA categóricamente desalineada”. La preocupación de fondo: una negativa la ves, un fallback lo puedes evaluar, pero una respuesta degradada en silencio deja al investigador sin saber si su idea falló, su código falló o el modelo se hizo el tonto.

El contrapunto justo: está documentado — así fue como todos se enteraron —, el tráfico afectado es mínimo, y la política apunta exactamente a los actores que menos respetan una página de términos de servicio. Para la mayoría de los profesionales, no aplica. Pero el precedente es la noticia, y conviene saber que ahora existe.

Un dato más escondido en el lanzamiento: todo el tráfico de la clase Mythos lleva una retención obligatoria de datos de 30 días — incluso para empresas con contratos de retención cero. Anthropic dice que es para detectar ataques nuevos y jailbreaks, no para entrenar. Si manejas datos sensibles de clientes, revísalo con tu área legal antes de usarlo para eso.

El precio, y la trampa del 22 de junio

Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 por millón de salida — exactamente el doble que Opus 4.8, y menos de la mitad de lo que Mythos Preview les costaba a sus primeros socios. La ventana de contexto (1 millón de tokens, unas 750,000 palabras de memoria de trabajo) y la respuesta máxima (128,000 tokens) son iguales a las de Opus. Subió la inteligencia; el envase no cambió.

Para usuarios de API y empresas con facturación por consumo, esa es toda la historia: ya está disponible, pagas por uso, listo.

Para los millones con suscripción Claude Pro, Max o Team, hay un reloj corriendo. Fable 5 viene incluido en los planes pagos sin costo extra solo hasta el 22 de junio — gastando tu cuota de uso al doble de velocidad que Opus —, y desde el 23 de junio pasa a créditos de uso separados hasta que vuelva “como parte estándar cuando la capacidad lo permita”. Sin fecha para esa promesa.

Esa ventana de dos semanas armó una discusión más ruidosa que los benchmarks. Una lectura viral declaró muertas las suscripciones planas de IA: la economía de los modelos de frontera ya no aguanta un plan “todo incluido”, y los créditos de uso son el futuro que todos van a copiar. La lectura más calmada: Anthropic le puso precio honesto al cómputo clase Mythos, la demanda del lanzamiento la desbordó, y está racionando hasta que las GPUs alcancen. Las dos pueden ser ciertas. El hecho práctico no cambia: la prueba gratis se acaba el 22 de junio.

Lo que no puede hacer

  • Ser barato o rápido. El doble de precio es real, los primeros usuarios reportan tiempos de razonamiento largos, y hay ejecuciones agénticas de más de 40 minutos apareciendo en las facturas. Para preguntas rápidas del día a día es la herramienta equivocada — como contratar a un ingeniero estructural para colgar un cuadro.
  • Ganarle a todos en todo. Andon Labs corrió el Mythos 5 sin jaula por su simulación de negocios Vending-Bench y ganó menos dinero que Opus 4.7 y GPT-5.5. Un equipo, un benchmark, pero buen antídoto contra la euforia.
  • Dejarte tranquilo si trabajas en seguridad. El clasificador cibernético está calibrado conservador, y desarrolladores haciendo trabajo perfectamente defensivo están cayendo en el fallback de Opus.
  • Garantizar que seguirá en tu suscripción en julio. “Vuelve cuando la capacidad lo permita” es una intención, no una fecha.

¿Fable 5 u Opus 4.8? La división honesta

Opus 4.8 no desapareció, y a mitad de precio sigue siendo la opción sensata para la mayoría del trabajo:

Tu tareaUsa
Escritura diaria, correos, resúmenesOpus 4.8 — Fable es demasiado
Investigación o análisis largo y de varios pasosFable 5 — la diferencia aparece en profundidad
Programación seria, debugging, migracionesFable 5 — acá deja en ridículo a todo lo demás
Documentos complejos: finanzas, legal, PDFs densosFable 5 — los números de GDPval y legal son la evidencia
Investigación de seguridad, temas bio/químicosOpus 4.8 directo — Fable derivaría igual
Tareas automatizadas de alto volumen con presupuestoOpus 4.8 o Haiku — los tokens se acumulan rápido

Qué significa esto para ti

Si ya pagas Claude Pro, Max o Team: tienes hasta el 22 de junio para descubrir — sin costo extra — si la diferencia importa para tu trabajo. No gastes la ventana en charla que cualquier modelo responde igual. Dale tu tarea real más difícil: el análisis de la planilla caótica, el contrato de 80 páginas, el informe que llevas posponiendo. Si el resultado te impresiona de verdad, ya sabes si los créditos valdrán la pena después. Si no, Opus 4.8 sigue siendo excelente y sigue incluido.

Si usas ChatGPT y te da curiosidad: la brecha con GPT-5.5 es la ventaja más grande que un laboratorio ha tenido en un par de años — pero se concentra en trabajo profundo, agéntico y de largo aliento. Si tu uso de IA es conversacional, no la vas a sentir. Si exiges a los modelos con entregables profesionales reales, este es el raro momento en que “prueba el otro” tiene datos detrás en vez de puro hype.

Si evalúas herramientas de IA para una empresa: dos detalles silenciosos pesan más que los benchmarks. La retención obligatoria de 30 días pasa por encima de los acuerdos de retención cero en modelos clase Mythos — consúltalo con cumplimiento antes de mandar trabajo sensible por ahí. Y el cambio de suscripción a créditos es una señal de precios que toda la industria está mirando: presupuesta la IA de frontera por consumo, no como asientos fijos para siempre.

Si nunca usaste IA en serio: nada de este lanzamiento cambia tu punto de partida — los niveles gratis de Claude y ChatGPT siguen siendo el salón de clases correcto, y un modelo así de caro es para gente que ya sabe qué haría con él. Pero guarda este dato: la IA más poderosa jamás vendida ahora viene con otras IAs vigilándola. Esa arquitectura — capacidad más vigilantes — es como se verán los próximos años.

En resumen

Claude Fable 5 son dos historias en una. La primera es capacidad pura: el salto generacional más grande en años, con pruebas en programación, trabajo de oficina, finanzas y derecho — y una ventana de dos semanas para que los suscriptores lo prueben gratis. La segunda es el precedente: el primer modelo de frontera cuyo peligro no se manejó guardándolo, sino lanzándolo dentro de una red de clasificadores, fallbacks, reglas de retención y límites silenciosos. La primera historia es la razón para probarlo antes del 22 de junio. La segunda es la razón por la que este lanzamiento se va a recordar mucho después de que los benchmarks queden viejos.

Si la pregunta “¿qué modelo para qué trabajo?” es la que siempre te traba, nuestro curso Claude para todos la resuelve con práctica real — y Fundamentos de IA construye ese criterio desde cero. Las primeras dos lecciones de cada uno son gratis.

Fuentes

Desarrolla Habilidades Reales en IA

Cursos paso a paso con quizzes y certificados para tu currículum