GPT-Realtime-2 vs Claude: La pregunta de voz que Anthropic no respondió en SF

OpenAI lanzó ayer por la tarde tres modelos nuevos de voz en tiempo real. GPT-Realtime-2 con razonamiento al nivel de GPT-5. GPT-Realtime-Translate que traduce en vivo entre 70+ idiomas de entrada y 13 de salida — el español está incluido — por 0,034 USD por minuto. GPT-Realtime-Whisper para transcripción streaming a 0,017 USD por minuto. La Realtime API pasó a GA con MCP, entrada de imágenes y telefonía SIP.

Anthropic, mientras tanto, pasó dos días en el escenario de Code with Claude San Francisco y no anunció ni un solo producto de voz. Ni un modelo. Ni una API. Ni una línea de roadmap. La keynote de apertura lo dijo en voz alta: “No new model today. Today is about how we are making our products work better for you.”

Para los equipos de ingeniería en LatAm o España que estaban evaluando un stack de voz este trimestre — o el equipo pequeño que estaba esperando que Anthropic se pusiera al día —, ayer cambió la cuenta. Aquí está el marco honesto de decisión.

Lo que realmente se lanzó el 7 de mayo

Tres modelos aterrizaron en la API de OpenAI al mismo tiempo. Están relacionados pero hacen trabajos diferentes.

GPT-Realtime-2 es el titular. Es un modelo speech-to-speech — audio entra, audio sale, sin paso de transcripción separada en el medio. Lo nuevo es que el razonamiento al nivel de GPT-5 vive dentro del loop de voz. La ventana de contexto saltó de 32K a 128K. Puedes regular el esfuerzo de razonamiento de minimal a xhigh, igual que con un modelo de texto. Soporta preambles (“déjame revisar eso”) y llamadas de herramientas paralelas con estado audible, así que el usuario escucha al agente pensar en lugar de esperar en silencio. También tiene un modo de stop-until-wake-word para deployments ambientales. Precios: 32 USD por millón de tokens de audio en entrada (0,40 USD para entrada cacheada), 64 USD por millón de tokens de audio en salida.

GPT-Realtime-Translate es un solo modelo que maneja 70+ idiomas de entrada y traduce a 13 de salida — incluyendo español, portugués brasileño y otros LatAm-relevantes — en vivo, mientras el hablante sigue hablando. 0,034 USD por minuto. Este es el modelo que silenciosamente mata el stack de cuatro proveedores que la mayoría de los equipos de soporte internacional venían pegando con cinta adhesiva.

GPT-Realtime-Whisper es un modelo de speech-to-text streaming. 0,017 USD por minuto. Transcripción que va al ritmo del hablante.

Encima de eso, la Realtime API misma pasó a GA. Ahora tienes soporte de servidores MCP remotos dentro de las sesiones de voz, entradas de imagen (tu agente puede ver lo que el usuario le muestra) y la integración SIP así que puedes conectarlo a un número de teléfono regular.

OpenAI nombró tres clientes de producción en vivo: Zillow para citas inmobiliarias, Priceline para reservas de hotel, Deutsche Telekom para soporte al cliente multilingüe. La cobertura local en español la cubrieron Hipertextual, DiarioBitcoin, Infobae Tecno y El Ecosistema Startup en menos de 24 horas — el lanzamiento llegó al SERP español el mismo día.

Lo que Anthropic mostró en San Francisco — y lo que no

Code with Claude SF se realizó del 6 al 7 de mayo. Esto es lo que Anthropic realmente lanzó:

Doble de límites de tasa para Claude Code en Pro, Max y Enterprise
Orquestación multi-agente movida a beta pública
Outcomes en beta pública (criterios declarativos de éxito para agentes)
Dreaming en research preview
Code Review, Remote Agents, CI auto-fix, Security Reviews
Claude Code Routines
Claude Design (capacidades de diseño visual en Opus 4.7)
La asociación de infraestructura con SpaceX Colossus 1

Lo que falta de esa lista es la parte que importa hoy. Sin modelo de voz. Sin API de voz. Sin historia de agente de voz en producción. Sin “estamos trabajando en eso.” Tampoco fecha para Londres el 19 de mayo.

Dos días en el escenario, seis meses después de que Mike Krieger le dijera a Bloomberg que el push consumidor era prioridad estratégica, y la voz no lo logró. Eso es una señal real, no una semana de noticias floja.

El marco de enrutamiento Q3 en 5 preguntas

Si estás eligiendo un stack de voz esta semana, estas cinco preguntas lo deciden. Córrelas en orden.

1. ¿Tu agente necesita pausar al llamar herramientas?

Las preambles de GPT-Realtime-2 son la característica de UX titular, pero son una opinión de diseño, no un upgrade gratis. El modelo dice “déjame revisar eso” en voz alta mientras corre una herramienta y transmite el estado de las llamadas paralelas como actualizaciones audibles.

Para un agente de soporte al cliente que busca un pedido, eso es un salto cuántico — el silencio solía leerse como “el agente está roto”. Para un agente de voz clínico o un agente de divulgación financiera donde el usuario espera silencio deliberado mientras el sistema verifica, las preambles son ruido que vas a gastar un sprint suprimiendo.

Si quieres silencio en llamadas a herramientas, configura las preambles en off y presupuesta dos días para afinar el prompt alrededor. Si quieres el bucle de retroalimentación audible, ya estás en el camino más fácil del mercado hoy.

2. ¿Cuál es tu techo de profundidad de razonamiento?

El dial de esfuerzo de razonamiento va de minimal a xhigh. Minimal es el viejo modelo de voz de ChatGPT — rápido, superficial, barato. xhigh es razonamiento al nivel de GPT-5 con audio.

Acopla el dial al tipo de llamada:

Deflexión de FAQ, restablecimiento de contraseñas, programación de citas: minimal
Reservas multi-paso con restricciones, enrutamiento de escalación de soporte: medium
Triage clínico, primer contacto legal, preguntas financieras complejas: high
xhigh: solo cuando el presupuesto de latencia permite 4+ segundos de razonamiento

Si tu agente necesita xhigh en cada llamada, estás pagando por tokens cuya latencia el usuario no va a tolerar. El patrón realista de producción es frontend de voz minimal + modelo de razonamiento de texto en background, vamos a llegar a eso.

3. ¿Estás obligado a ser multilingüe?

Aquí es donde Translate redibuja el mapa silenciosamente. El stack estándar de soporte internacional hoy es Whisper para STT, DeepL o Google Translate para traducción, Claude o GPT para razonamiento, ElevenLabs o Cartesia para TTS. Cuatro proveedores, cuatro contratos, cuatro audit trails, cuatro caches de prompt, cuatro presupuestos de latencia que se apilan a 800-1500 ms de extremo a extremo.

Translate comprime eso a una sola llamada API de 0,034 USD por minuto. Para un equipo de soporte pequeño con 1.000 minutos al día, eso es 34 USD diarios. Para un equipo enterprise mediano con 5.000 llamadas al día: 510 USD diarios. Ambos números están dramáticamente por debajo de lo que el stack de cuatro proveedores realmente cuesta una vez que sumas la ingeniería de integración.

Para LatAm específicamente: el español neutro cubre la mayoría de los pares de idiomas relevantes. Si tu cobertura de soporte incluye guaraní, quechua o lenguas indígenas específicas de tu país, eso no está cubierto en la lista de 13 idiomas de salida del lanzamiento. Verifica para tus pares específicos antes de migrar.

4. ¿Estás casado con Anthropic en el resto de tu stack?

Esta es la pregunta honesta para los equipos anclados en Claude. Si tu retrieval, tu enrutamiento de herramientas, tu cache de prompts y tu audit trail corren todos en Claude — hay un costo real de puente para correr OpenAI en la ruta de voz mientras mantienes Claude en texto. Estima de tres a cinco semanas de sprint para que un equipo pequeño lo cablee limpiamente: caches de prompts separados, observabilidad separada, scopes de permisos de herramientas separados, harnesses de evaluación separados.

El puente es construible. Hemos visto equipos enviarlo. Pero si entraste a esta semana asumiendo que “Claude hace todo” era una apuesta viable hasta Q3, el silencio de ayer significa que esa suposición necesita ser reformulada.

5. ¿Realmente estás esperando la respuesta de voz de Anthropic?

Code with Claude Londres es el 19 de mayo. Tokio el 10 de junio. Si la voz va a llegar, esos son los lugares más plausibles — pero Londres está a once días, y el track-record de Anthropic este año en features previewed-then-shipped es mixto.

Esperar once días por un lanzamiento maybe es la apuesta más arriesgada para la mayoría de los equipos. Quemas la ventana de primer-en-el-mercado para voz en producción en tu industria, y si Anthropic sí lanza en Londres, todavía puedes migrar después — los modelos de voz son lo suficientemente abstraction-friendly para que los costos de cambio sean reales pero no prohibitivos.

La llamada honesta: lanza con GPT-Realtime-2 hoy. Si Londres entrega, evalúas entonces. Si Londres no entrega, ya estás en producción mientras los equipos anclados en Claude todavía están en planificación.

Lo que esto significa para ti

Si eres dev solo o equipo de 2-3 personas

Construye con GPT-Realtime-2 con esfuerzo minimal. Usa el quickstart de WebRTC. Sáltate MCP remoto para la primera versión — esa es una optimización de costos Q2, no un requisito v1. Apunta a dos semanas hasta el primer deploy de producción.

Si estás en un equipo de ingeniería de 10-50 personas

Corre la comparación de cuatro proveedores esta semana: GPT-Realtime-2, Cartesia, ElevenLabs y tu Whisper-más-LLM hecho a mano actual. Elige el tipo de llamada más doloroso (soporte multilingüe si lo tienes; deflexión de FAQ si no) y haz un piloto de una semana con 5% del tráfico. Las cuentas de precios deciden por ti.

Si estás en una empresa con flujos de voz regulados (banca, salud, gobierno)

Espera. GPT-Realtime-2 está genuinamente listo para producción para voz no regulada, pero la historia del audit-trail para voz clínica, legal o financiera — donde cada palabra que el modelo dice necesita ser reproducible, atribuible y compliance-firme — todavía está madurando. Pilotear en departamentos no regulados (triage de RH, helpdesk de TI interno, soporte de gestión de proveedores) y dejar que los flujos regulados esperen hasta que el tooling de auditoría se ponga al día.

Si eres gerente de ingeniería con stack anclado en Claude

Tu llamada esta semana: costo del puente vs. costo de espera. El puente cuesta de tres a cinco semanas de sprint. La espera son al menos once días por Londres sin garantía. Si tu uso de voz es de alto apalancamiento (top-3 línea de costo en soporte, o un flujo de voz outbound que genera ingresos), construye el puente ahora. Si es un nice-to-have de Q4, espera Londres y decide el 20 de mayo.

Si eres un equipo de soporte multilingüe corriendo el stack de cuatro proveedores

Eres el equipo para el que ayer cambió más cosas. El impuesto de integración del stack Whisper + DeepL + Claude + ElevenLabs es el tipo de cosa que tu org de ingeniería ha estado cargando silenciosamente por 18 meses. Translate es la jugada de consolidación. Corre las cuentas contra tu volumen real de llamadas esta semana — no va a estar cerca.

Lo que esto no arregla

Cinco límites honestos.

Sigue alucinando. Razonamiento al nivel de GPT-5 en el loop de voz no hace al modelo factualmente fundado. Hace al modelo hablar fluidamente mientras inventa cosas. Cada agente de voz en producción necesita retrieval anclado en tus datos y una ruta de fallback cuando el retrieval falla. No envíes un agente de voz que no tenga fallback a un humano, un email o una búsqueda web.

La latencia bajo carga aún no está estresada. Los lanzamientos del Día 1 siempre han mostrado números limpios de latencia; el verdadero estrés llega cuando los usuarios de r/OpenAIDev empiezan a publicar datos de throughput durante los próximos 14 días. Si tu agente está en un SLA, corre un test de carga sintético antes de comprometer un cliente.

La lista de 13 idiomas de salida es corta. Vietnamita, tailandés, indonesio, tagalo, hindi, y la mayoría de las lenguas africanas no están en ella al lanzamiento. Para LatAm: portugués brasileño está cubierto, pero lenguas indígenas no. Si tu cobertura de soporte incluye esas, Translate aún no reemplaza tu stack.

Debugger la integración SIP va a doler. La integración SIP de OpenAI es Día 1. Los reportes de throughput-vs-prometido de la primera semana te dirán si conectas tu número de teléfono ahora o esperas dos semanas a la ola del parche de estabilidad.

La historia del audit trail está incompleta para industrias reguladas. El reproducir voz, la atribución y la evidencia de compliance requieren tooling que no se envía como parte de la API. Tendrás que construir (o comprar) la capa de grabación, la capa de etiquetado y la capa de redacción por separado.

Lo que la comunidad realmente dice (sentimiento del 7-8 de mayo)

El lanzamiento es el anuncio más viral de OpenAI del último mes en X. El post oficial de OpenAI alcanzó 11.300+ likes, 1.000+ reposts, 4.000+ bookmarks dentro de las primeras 18 horas, y el salto de razonamiento al nivel de GPT-5 + 128K de contexto (subiendo de 32K) es lo que la mayoría de los hilos de devs llaman el verdadero deal — no el precio titular. Las reacciones a precios se dividen: la mayoría de los devs ven el modelo per-token como “caro pero aceptable” dado el razonamiento + llamadas a herramientas incluidas, pero una minoría significativa señala una brecha de ~4-5x vs los equivalentes de voz de xAI y argumenta que ~0,24 USD/min para una sesión completamente en bundle es “todavía demasiado alto para agentes de voz de producción todoterreno”.

En la comparación con el ecosistema de proveedores, la lectura direccional es clara: GPT-Realtime-2 aterriza en o por debajo de la tabla equivalente para la mayoría de los casos cuando lo tratas como el LLM y la capa de voz combinados, especialmente con cache de prompts agresivo. La excepción es la deflexión de FAQ de alto volumen donde especialistas de latencia ultra-baja como Cartesia (~90 ms) todavía ganan en métricas sensibles a latencia, y plataformas como Bland que compiten en costo-por-minuto crudo.

Sobre la cuestión del silencio de voz de Anthropic, hay señales tranquilas — pero sin confirmación dura — de que el trabajo de voz está en progreso en Anthropic. Varias lecturas de analistas apuntan a Code with Claude Londres el 19 de mayo como el escenario más plausible si algún producto de voz se envía. La lectura honesta para los equipos haciendo una llamada Q3 esta semana: no apuestes a que Londres entregue voz.

La conclusión

Ayer no fue solo un lanzamiento de modelo de voz. Fue OpenAI reclamando la categoría de voz de producción mientras Anthropic decidía gastar su evento de devs más grande del año en agentes de texto y deals de infraestructura. Esa es una llamada estratégica de Anthropic — la voz puede no ser donde su próxima apuesta se rinde — pero para el equipo eligiendo un stack esta semana, hace que la decisión de enrutamiento sea más fácil de lo que ha sido en doce meses.

Si la voz está en tu roadmap Q3, la respuesta hoy es GPT-Realtime-2. Pilotea pequeño, mira los reportes de producción de 14 días, y reevalúa después de Code with Claude Londres el 19 de mayo. Si la voz no está en tu roadmap Q3, ayer fue todavía el momento en que la categoría tranquilamente pasó de “esperar y ver” a “lista para producción para la mayoría de casos de uso” — lo que probablemente significa que es momento de preguntarte si debería estarlo.

¿Quieres una guía paso a paso sobre construir agentes de voz en producción desde cero? Nuestro curso Fundamentos de IA cubre las bases. Para el stack de ChatGPT a profundidad, ChatGPT Avanzado es el ruta avanzada. Y si estás navegando entre Claude y ChatGPT para uso diario amplio, Claude para Todos tiene la comparación lateral.