On ne va pas se mentir : voir une boîte française battre ElevenLabs dans des tests en aveugle, ça fait plaisir.
Le 26 mars 2026, Mistral AI a lancé Voxtral TTS — son premier modèle de synthèse vocale. Les chiffres : 62,8% des auditeurs humains le préfèrent à ElevenLabs Flash v2.5. Clonage vocal à partir de 3 secondes d’audio. 9 langues supportées (dont le français, évidemment). 4 milliards de paramètres. Et le plus important : les poids du modèle sont ouverts et gratuits.
Tu peux le télécharger, le faire tourner sur ta propre infra, et ne jamais envoyer un seul frame audio à un tiers. Il tourne avec 3 Go de RAM. Sur un smartphone.
Ce que Voxtral TTS fait concrètement
C’est un modèle text-to-speech de 4B paramètres. Tu lui donnes du texte, il sort de la voix naturelle. En 9 langues : français, anglais, allemand, espagnol, néerlandais, portugais, italien, hindi et arabe.
Ce qui change la donne par rapport à ElevenLabs et les autres :
| Critère | Voxtral TTS | ElevenLabs |
|---|---|---|
| Préférence humaine | 62,8% | 37,2% |
| Clonage vocal minimum | 3 secondes | 1 minute (Instant) |
| Langues | 9 | 32 |
| Latence (premier audio) | 90ms | ~90ms (Flash) |
| Prix API | 0,016$/1K chars | 0,15-0,30$/1K chars |
| Auto-hébergeable | Oui | Non |
| Tourne sur smartphone | Oui | Non |
| Licence | Creative Commons | Propriétaire |
Précision importante : Mistral compare Voxtral à ElevenLabs Flash v2.5 — la version rapide et moins chère. Face à la version premium v3 (plus lente, meilleure qualité), Mistral revendique la parité sur l’expressivité émotionnelle, pas la supériorité. Autrement dit : Voxtral égale le meilleur d’ElevenLabs tout en étant aussi rapide que leur tier le plus véloce. C’est impressionnant, mais pas « meilleur à tous les niveaux ».
Pourquoi c’est important pour la France
Mistral est une boîte française. Basée à Paris. Et Voxtral TTS prend en charge le français nativement — pas comme un ajout tardif, mais comme une langue de première classe.
Pour les entreprises françaises, c’est un changement de paradigme :
Souveraineté des données. Voxtral est auto-hébergeable. Tes données vocales ne quittent jamais ton réseau. Pas d’envoi vers des API américaines. Pour les banques, les cabinets d’avocats, les administrations, les entreprises soumises au RGPD — c’est le critère qui compte.
Un développeur sur r/LocalLLaMA a résumé la situation : « Les banques allemandes peuvent enfin construire des outils vocaux IA sans streamer les données personnelles de leurs clients vers des API américaines. » C’est tout aussi vrai pour les entreprises françaises.
Coût. Le plan Pro d’ElevenLabs coûte 99$/mois pour 500 000 caractères. Le même volume via l’API Voxtral : 8$. En auto-hébergement : 0€ (hors coûts d’infra). Pour les projets à fort volume — narration d’audiobooks, service client automatisé, podcasts — les économies sont colossales.
Comment essayer maintenant
Le plus rapide (sans installation) :
- Va sur Le Chat de Mistral — le TTS est intégré
- Ou teste la démo Hugging Face
Via l’API (0,016$/1K caractères) :
- Inscris-toi sur console.mistral.ai
- Récupère ta clé API
- Utilise l’endpoint TTS
Auto-hébergé (gratuit) :
- Télécharge les poids sur Hugging Face
- Besoin de ~3 Go de RAM (GPU 16 Go+ recommandé pour la production)
- vLLM supporte Voxtral dès le jour 1 — déploiement production simplifié
- Aucune donnée ne quitte ta machine
Clonage vocal : 3 secondes et c’est fait
C’est la fonctionnalité qui a le plus impressionné la communauté. Tu donnes 3 secondes d’audio à Voxtral — un message vocal, un bout d’enregistrement — et il capture non seulement la voix mais aussi les nuances : accent, intonations, hésitations naturelles.
Dans les évaluations humaines, 69,9% des auditeurs ont préféré les voix clonées par Voxtral à celles d’ElevenLabs. Ça, c’est du résultat.
Pour comparer : ElevenLabs a besoin d’au moins 1 minute pour son « Instant Voice Cloning » et 30+ minutes pour le clonage professionnel. Voxtral fait le job en 3 secondes.
Ce que Voxtral ne fait pas (encore)
Soyons honnêtes sur les limites :
Pas de doublage ni de traduction. ElevenLabs a un pipeline complet pour doubler et re-voicer des vidéos. Voxtral fait du text-to-speech uniquement.
9 langues vs 32. Si tu as besoin de japonais, coréen ou chinois, ElevenLabs reste la seule option parmi les deux.
Écosystème limité. ElevenLabs s’intègre à Descript, Canva, Notion et des dizaines d’outils. Voxtral a l’API et Hugging Face. Le reste viendra, mais c’est jeune.
Sorti il y a 2 jours. ElevenLabs est en production depuis des années avec des millions d’utilisateurs. Voxtral est un nouveau-né. Les edge cases, la fiabilité sous charge — c’est encore à prouver.
Le contexte : 3 modèles vocaux open source le même jour
Voxtral n’était pas seul. Le 26 mars 2026, trois modèles vocaux open source sont sortis en quelques heures :
- Voxtral TTS (Mistral) — synthèse vocale
- Cohere Transcribe — reconnaissance vocale
- CoVo-Audio (Tencent) — reconnaissance + raisonnement + synthèse en un seul modèle 7B
La stack vocale on-premise est arrivée. En une journée.
Qui devrait l’utiliser
Passe à Voxtral si :
- Tu travailles principalement en français (ou dans les 8 autres langues supportées)
- La souveraineté des données est un impératif (auto-hébergement = rien ne sort de ton réseau)
- Tu as besoin de TTS à fort volume et le coût compte
- Tu construis un produit avec du vocal intégré (poids ouverts = pas de frais de licence)
Reste chez ElevenLabs si :
- Tu as besoin de 32+ langues
- Le doublage vidéo est essentiel
- Tu dépends des intégrations avec Descript, Canva, etc.
- Tu veux un support entreprise avec SLA
Le vrai move : utilise les deux. ElevenLabs pour le doublage et le multilingue avancé. Voxtral pour le dev, le prototypage, et le TTS français/européen à haut volume.
Le mot de la fin
Voir Mistral — une boîte française — sortir un modèle vocal open source qui bat le leader du marché en tests aveugles, c’est pas rien. Le fait que ce soit auto-hébergeable, que ça coûte 12 fois moins cher via API, et que ça tourne sur un smartphone change l’équation pour tout le monde.
L’IA vocale vient de devenir beaucoup plus accessible. Et cette fois, le meilleur modèle parle français.
Sources :