Anthropic lanzó Claude Opus 4.8 el 28 de mayo de 2026 y, al instante, empezó el ritual de siempre: tablas de benchmarks, rankings, “X le gana a Y por 1,8 puntos”. La respuesta honesta para tu trabajo es más aburrida y mucho más útil: no existe el mejor modelo, existe el modelo correcto para cada tarea.
Ordenar tres modelos de frontera por un solo número es fijarse en lo que menos importa. Los tres están tan cerca en el índice general que el orden casi no importa, pero sus perfiles de fortalezas son lo suficientemente distintos como para que lo que sí importe sea la asignación.
Qué dicen de verdad los benchmarks
En el perfil general, Opus 4.8 va ligeramente adelante: unos 93 frente a 91 de GPT-5.5. Una ventaja real, pero pequeña.
La diferencia que importa está en las categorías:
- Programación agéntica: aquí Opus 4.8 es el más fuerte. En SWE-Bench Pro llega al 69,2 % — tareas de varios pasos sobre bases de código reales, no fragmentos sueltos.
- Trabajo autónomo en la terminal: aquí brilla GPT-5.5. Está hecho para llevar tareas largas por su cuenta: llamar herramientas, mantener el estado, recuperarse de errores sin que lo supervises.
- Velocidad y costo: Gemini 3.5 Flash es cerca de 4× más rápido y cuesta alrededor de un tercio. Para razonamiento puro a gran escala, Gemini 3.1 Pro es el único modelo de frontera que sale a cuenta.
“¿Qué Gemini?” es la pregunta clave
Aquí tropiezan casi todas las comparaciones. “Gemini” no es un modelo, es una familia. Flash es el trabajador rápido y barato para volumen alto. Pro es el pensador más caro para razonamiento difícil. Quien los mete en el mismo saco compara peras con una canasta entera. Di siempre cuál quieres decir, o el resultado no vale nada.
Elige por tarea, no por ranking
El punto es que no tienes que elegir uno solo. Los equipos más productivos usan un modelo principal más uso puntual de los otros: el volumen de rutina va barato por Flash, los casos difíciles por Opus o GPT-5.5.
La realidad del precio
| Modelo | Entrada / 1 M | Salida / 1 M |
|---|---|---|
| Claude Opus 4.8 | 5,00 $ | 25,00 $ |
| GPT-5.5 | 5,00 $ | 30,00 $ |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ |
Con poco volumen, la diferencia de precio da igual. Pero en cuanto empiezas a enviar consultas en masa, esa diferencia pasa a decidirlo todo, y justo ahí la asignación por tarea se paga sola.
Qué significa esto para ti
- Si trabajas en solitario: un buen modelo principal alcanza. Opus 4.8 si vives en bases de código reales; GPT-5.5 si te gusta dejar tareas corriendo toda la noche.
- Si tienes un equipo pequeño: manda el volumen por Flash y reserva Opus/GPT-5.5 para lo pesado. La factura baja notoriamente sin perder calidad.
- Si no eres técnico: en el día a día (claude.ai, ChatGPT, la app de Gemini) no notarás las décimas de los benchmarks. Elige la herramienta cuya interfaz te resulte cómoda y cambia solo cuando una tarea concreta lo pida.
Lo que un benchmark no mide
Cómo se siente un modelo en la conversación. Con qué honestidad admite que no sabe algo. Qué tan bien encaja en tu flujo de trabajo. Esas cosas deciden en el día a día más que dos puntos en un ranking, y ninguna tabla las captura. Prueba con tu propio trabajo, no con tablas ajenas.
En resumen
Deja de elegir por ranking y empieza a elegir por tarea. Opus 4.8 para programación exigente, GPT-5.5 para lo autónomo, Gemini Flash para volumen barato; y, en la duda, un modelo principal más uso puntual de los otros. Si quieres entender las diferencias a fondo, el curso Fundamentos de IA te da el hilo conductor.