GPT-Realtime-2 vs Claude (vs Mistral Voxtral) : la décision voix de mai

OpenAI a livré GPT-Realtime-2 avec raisonnement GPT-5. Anthropic est resté silencieux à San Francisco. Et où se place Mistral Voxtral ? Le cadre de décision en 5 questions.

OpenAI a livré hier après-midi trois nouveaux modèles vocaux temps réel. GPT-Realtime-2 avec raisonnement de classe GPT-5. GPT-Realtime-Translate avec traduction live entre 70+ langues d’entrée et 13 de sortie — le français en fait partie — pour 0,034 € par minute. GPT-Realtime-Whisper pour la transcription streaming à 0,017 € par minute. La Realtime API passe en GA, avec MCP, entrée d’images et téléphonie SIP.

Anthropic, lui, a passé deux jours sur scène à Code with Claude San Francisco et n’a pas annoncé un seul produit vocal. Pas un modèle. Pas une API. Pas une ligne de roadmap. La keynote d’ouverture l’a même dit à voix haute : “No new model today. Today is about how we are making our products work better for you.”

Pour les équipes engineering en France ou en Belgique francophone qui évaluaient un stack vocal ce trimestre, hier a clarifié quelque chose qui flottait depuis le Q1 : on construit sur OpenAI, ou on attend encore Anthropic ? La réponse honnête aujourd’hui : on construit. Et il y a un troisième acteur à prendre en compte — Mistral Voxtral, lancé le 23 mars 2026 par l’équipe parisienne, qui couvre 9 langues européennes dont le français avec une voix naturelle et latence basse. Si la souveraineté des données est au cœur de ta décision, Voxtral entre dans la table des comparaisons.

Ce qui a vraiment été lancé le 7 mai

GPT-Realtime-2 est speech-to-speech — audio en entrée, audio en sortie, sans étape de transcription séparée au milieu. Ce qui est nouveau, c’est le raisonnement de classe GPT-5 dans la boucle vocale. Fenêtre de contexte de 32K à 128K. Tu peux régler le effort de raisonnement de minimal à xhigh. Il supporte les préambules (“attendez, je vérifie”) et les appels d’outils en parallèle avec statut audible. Tarif : 32 € par million de tokens audio en entrée (0,40 € pour les inputs en cache), 64 € par million de tokens audio en sortie.

GPT-Realtime-Translate est un seul modèle qui gère 70+ langues d’entrée et traduit en 13 langues de sortie — français inclus — en live. 0,034 € par minute. C’est la composante qui tue le stack à quatre fournisseurs que la plupart des équipes support international assemblent depuis 18 mois.

GPT-Realtime-Whisper est un modèle STT streaming à 0,017 € par minute.

OpenAI a nommé trois clients en production live : Zillow pour les rendez-vous immobiliers, Priceline pour les réservations d’hôtel, Deutsche Telekom pour le support client multilingue. La couverture francophone (Le Big Data, Numerama, JustGeek, AI Explorer) est arrivée en moins de 24h.

Ce qu’Anthropic a montré à San Francisco — et ce qu’il n’a pas montré

Code with Claude SF s’est tenu les 6 et 7 mai. Voici ce qu’Anthropic a vraiment livré :

  • Limites de tarif doublées pour Claude Code sur Pro, Max, Enterprise
  • Orchestration multi-agents en beta publique
  • Outcomes en beta publique (critères déclaratifs de succès pour agents)
  • Dreaming en research preview
  • Code Review, Remote Agents, CI auto-fix, Security Reviews
  • Le partenariat d’infrastructure SpaceX Colossus 1

Ce qui manque dans cette liste est la partie qui compte aujourd’hui. Pas de modèle vocal. Pas d’API vocale. Pas d’historique d’agent vocal en production. Pas de “on y travaille.” Pas non plus de date pour Londres le 19 mai.

Le cadre de décision Q3 en 5 questions

1. Ton agent doit-il marquer une pause sur les appels d’outils ?

Les préambules de GPT-Realtime-2 sont la fonctionnalité UX phare, mais c’est une opinion de design, pas une upgrade gratuite. Pour un agent support client qui cherche une commande, c’est un bond quantique. Pour un agent vocal clinique ou de conseil financier où l’utilisateur attend un silence délibéré, les préambules sont du bruit qu’il faudra supprimer.

2. Quel est ton plafond de profondeur de raisonnement ?

Le potentiomètre va de minimal à xhigh. Adapte-le au type d’appel :

  • Déflexion de FAQ : minimal
  • Réservations multi-étapes avec contraintes : medium
  • Triage clinique, première ligne juridique : high
  • xhigh : seulement si ton budget de latence permet 4+ secondes de raisonnement

3. Es-tu obligé d’être multilingue ?

Translate compresse le stack à 4 fournisseurs (Whisper + DeepL + Claude + ElevenLabs) en un seul appel d’API à 0,034 €/min. Pour une équipe support de 1.000 minutes par jour : 34 € par jour, ~1.020 € par mois. Pour une équipe enterprise de 5.000 appels par jour : 510 € par jour, ~15.300 € par mois.

Pour la France spécifiquement : Mistral Voxtral est lancé depuis le 23 mars 2026 pour 9 langues européennes. Sur le LMSYS Chatbot Arena en français, Mistral Large 2 surpasse GPT-5 sur le naturel, les anglicismes moindres et les tournures idiomatiques. Si tu vises spécifiquement le français + données hébergées en Europe + RGPD strict, Voxtral est ton premier comparatif, pas une seconde option.

4. Es-tu lié à Anthropic sur le reste de ta stack ?

Si ton retrieval, ton routage d’outils, ton cache de prompt et ton audit trail tournent tous sur Claude — il y a un coût réel de pont à faire tourner OpenAI sur le chemin vocal et Claude sur le texte. Estimer trois à cinq semaines de sprint pour une petite équipe.

5. Attends-tu vraiment la réponse vocale d’Anthropic ?

Code with Claude Londres est le 19 mai. Tokyo le 10 juin. Onze jours pour un lancement-peut-être, c’est le pari le plus risqué pour la plupart des équipes.

Ce que cela veut dire pour toi

Si tu es dev solo ou équipe de 2-3 personnes

Construis sur GPT-Realtime-2 avec effort minimal. Quickstart WebRTC. Vise deux semaines jusqu’au premier déploiement.

Si tu es dans une équipe française de 10-50 ingénieurs

Lance la comparaison à quatre fournisseurs cette semaine : GPT-Realtime-2, Mistral Voxtral (souveraineté française), Cartesia (latence ~90 ms), et ton bricolage Whisper+LLM actuel. Pilote sur 5% du trafic pendant une semaine.

Si tu es dans une entreprise française régulée (banque, santé, secteur public)

Attends et privilégie Voxtral. La CNIL et la HAS ont publié leurs recommandations IA en santé en février 2026 (12 fiches pratiques). Le RGPD et le secret professionnel rendent les données hébergées en Europe non négociables pour beaucoup de cas — Voxtral coche cette case directement, GPT-Realtime-2 nécessite une analyse de conformité approfondie.

Si tu es manager engineering avec stack ancrée Claude

Coût du pont vs. coût de l’attente. Le pont coûte trois à cinq semaines de sprint. L’attente, c’est au moins onze jours pour Londres sans garantie.

Si tu es équipe support multilingue sur le stack à quatre fournisseurs

C’est toi pour qui hier a le plus changé. Translate est le pari de consolidation. Lance les calculs cette semaine — ce ne sera pas serré.

Ce que ça ne corrige pas

Ça hallucine toujours. Le raisonnement GPT-5 dans la boucle vocale ne rend pas le modèle factuellement ancré. Chaque agent vocal en production a besoin d’un retrieval ancré dans tes données.

La latence sous charge n’a pas encore été stress-testée. Lance un test de charge synthétique avant d’engager un client.

La liste des 13 langues de sortie est courte. Vietnamien, thaï, indonésien, hindi et la plupart des langues africaines n’y sont pas au lancement.

Le débogage SIP va faire mal. Les rapports de la première semaine te diront si tu connectes ton numéro maintenant ou si tu attends deux semaines.

L’audit trail est incomplet pour les industries régulées. Le RGPD impose une traçabilité qui n’est pas livrée d’office par l’API.

Ce que dit la communauté (sentiment du 7-8 mai)

Le lancement est l’annonce la plus virale d’OpenAI du dernier mois sur X. Le post officiel a atteint 11.300+ likes, 1.000+ reposts, 4.000+ bookmarks dans les 18 premières heures. Le saut de 32K à 128K de contexte et le raisonnement GPT-5 dans la boucle vocale sont ce que les threads développeurs appellent le vrai sujet — pas le tarif principal.

Côté positionnement : GPT-Realtime-2 atterrit à ou en dessous de la table équivalente pour la plupart des cas quand tu le traites comme LLM et couche vocale combinés, surtout avec du cache de prompt agressif. L’exception est la déflexion FAQ ultra-volume où des spécialistes basse latence comme Cartesia (~90 ms) gagnent encore. Pour le marché français : Mistral Voxtral est l’alternative souveraine concrète — Le Chat Work tourne sur infrastructure européenne, validation explicite avant actions sensibles, conforme RGPD nativement.

Sur Anthropic : aucune confirmation dure que la voix arrive à Londres, malgré quelques signaux faibles. Ne parie pas Q3 dessus.

La conclusion

Hier, ce n’était pas seulement un lancement de modèle vocal. C’était OpenAI revendiquant la catégorie de la voix en production pendant qu’Anthropic décidait de consacrer son plus gros événement développeurs de l’année aux agents texte et aux deals d’infrastructure. C’est un choix stratégique d’Anthropic — la voix n’est peut-être pas l’endroit où leur prochain pari rapportera — mais pour l’équipe qui choisit un stack cette semaine, ça rend la décision de routage plus simple qu’elle ne l’a été en douze mois.

Si la voix est sur ta roadmap Q3, la réponse aujourd’hui est GPT-Realtime-2 (ou Voxtral si la souveraineté française est ta contrainte centrale). Pilote petit, surveille les rapports de production sur 14 jours, et réévalue après Code with Claude Londres le 19 mai.

Tu veux une formation structurée sur les agents vocaux en production ? Notre cours IA Voix et Audio couvre les patterns d’architecture. Pour le stack ChatGPT en profondeur, ChatGPT Productivité est le chemin avancé. Et pour les bases de l’IA avant de rentrer dans les choix de fournisseur, Fondamentaux IA est le point de départ.

Sources

Développe de Vraies Compétences IA

Cours pas à pas avec quiz et certificats pour ton CV