Mistral — das französische KI-Unternehmen — hat am 26. März Voxtral TTS veröffentlicht. Ein Text-to-Speech-Modell mit offenen Gewichten, das in Blindtests 62,8% der Hörer gegenüber ElevenLabs Flash v2.5 bevorzugen.
Und hier wird’s spannend: Deutsch ist eine der 9 unterstützten Sprachen. Das Modell klont Stimmen aus 3 Sekunden Audio. Es kostet über die API 0,016 $ pro 1.000 Zeichen. Und du kannst es auf deiner eigenen Hardware betreiben — kein Byte verlässt dein Netzwerk.
Für den DACH-Raum, wo Datenschutz halt nicht verhandelbar ist, ändert das die Spielregeln.
Was Voxtral TTS kann
4 Milliarden Parameter, 9 Sprachen: Englisch, Französisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Italienisch, Hindi und Arabisch.
| Kriterium | Voxtral TTS | ElevenLabs |
|---|---|---|
| Menschliche Präferenz | 62,8% | 37,2% |
| Stimmklonung Minimum | 3 Sekunden | 1 Minute (Instant) |
| Sprachen | 9 (inkl. Deutsch) | 32 |
| Latenz (erstes Audio) | 90ms | ~90ms (Flash) |
| API-Preis | 0,016$/1K Zeichen | 0,15-0,30$/1K Zeichen |
| Selbst hostbar | Ja (3 GB RAM) | Nein |
| Lizenz | Creative Commons | Proprietär |
Wichtige Einschränkung: Mistral vergleicht mit ElevenLabs Flash v2.5 — der schnelleren, günstigeren Variante. Gegen die Premium-Version v3 (langsamer, bessere Qualität) beansprucht Mistral Gleichstand bei der emotionalen Ausdrucksfähigkeit, keine Überlegenheit. Sprich: Voxtral erreicht ElevenLabs’ Spitzenqualität bei gleichzeitig höchster Geschwindigkeit. Beeindruckend, aber kein „besser in allen Belangen."
Warum das für Deutschland besonders relevant ist
Datensouveränität. Das ist doch der Punkt, der in Deutschland wirklich zählt. Wenn du ElevenLabs nutzt, gehen deine Texte und Stimmproben an US-Server. Für die meisten Privatpersonen ist das okay. Aber für:
- Banken und Finanzdienstleister (regulierte Daten)
- Kanzleien (Mandantenvertraulichkeit)
- Behörden (Verschlusssachen)
- Unternehmen mit strengen DSGVO-Anforderungen
…ist das Senden von Audiodaten an Drittanbieter-APIs ein No-Go. Voxtral löst das: Alles läuft lokal. Text rein, Audio raus, nichts verlässt dein Netzwerk.
Ein Entwickler auf r/LocalLLaMA hat’s treffend formuliert: „Deutsche Banken können endlich Voice-KI bauen, ohne Kunden-PII an US-APIs zu streamen." Puh, hat lang genug gedauert.
Die Preisfrage
| Plan | ElevenLabs | Voxtral |
|---|---|---|
| Gratis | 10.000 Zeichen/Monat | Selbst hosten = kostenlos |
| Basis | 5$/Monat (30K Zeichen) | — |
| Pro | 99$/Monat (500K Zeichen) | 8$ via API für dasselbe Volumen |
| Business | 1.320$/Monat (11M Zeichen) | 176$ via API |
| Selbst gehostet | Nicht möglich | 0€ (Hardware-Kosten) |
Beim Pro-Volumen von ElevenLabs (500K Zeichen/Monat) kostet Voxtral über die API 12-mal weniger. Und wer selbst hostet, zahlt nur die Rechenkosten — kein Abo, keine Lizenzgebühren.
Stimmklonung: 3 Sekunden reichen
Du gibst Voxtral 3-5 Sekunden Audio — eine Sprachnachricht reicht — und es erfasst nicht nur die Stimme, sondern auch Nuancen: Akzent, Intonation, natürliche Pausenmuster.
In den Bewertungen haben 69,9% der Hörer Voxtral-geklonte Stimmen bevorzugt gegenüber ElevenLabs’ geklonten Stimmen.
ElevenLabs braucht mindestens 1 Minute für „Instant Voice Cloning" und 30+ Minuten für professionelles Klonen. Bei Voxtral: 3 Sekunden, fertig.
Deutsches Stimmklonen: Da Deutsch nativ unterstützt wird, sollte die Akzent- und Intonationserfassung für deutsche Sprecher deutlich besser funktionieren als bei Modellen, die Deutsch nur als Sekundärsprache behandeln. Testen lohnt sich.
So probierst du es aus
Am schnellsten (ohne Setup):
- Le Chat von Mistral — TTS ist eingebaut
- Hugging Face Demo
Über die API (0,016$/1K Zeichen):
- Account auf console.mistral.ai
- API-Key generieren
- TTS-Endpoint nutzen
Selbst gehostet (kostenlos):
- Modellgewichte von Hugging Face herunterladen
- ~3 GB RAM, GPU mit 16 GB+ VRAM empfohlen
- vLLM unterstützt Voxtral ab Tag 1 — Deployment in Produktion ist machbar
- Keine Daten verlassen deine Infrastruktur
Was Voxtral (noch) nicht kann
Kein Dubbing/Übersetzung. ElevenLabs hat eine komplette Pipeline zum Synchronisieren und Neuvertonen von Videos. Voxtral macht Text-to-Speech, mehr nicht.
9 vs. 32 Sprachen. Kein Japanisch, Koreanisch, Chinesisch, Polnisch oder Türkisch. Für asiatische Sprachen ist ElevenLabs weiterhin die einzige Option.
Dünnes Ökosystem. ElevenLabs integriert sich in Descript, Canva, Notion und Dutzende weitere Tools. Voxtral hat API und Hugging Face. Das Ökosystem muss erst wachsen.
Seit 2 Tagen live. ElevenLabs ist seit Jahren in Produktion mit Millionen Nutzern. Voxtral ist brandneu. Edge Cases, Zuverlässigkeit unter Last — alles noch unbewiesen.
Kontext: 3 Open-Source-Sprachmodelle an einem Tag
Voxtral war nicht allein. Am 26. März 2026 erschienen innerhalb weniger Stunden:
- Voxtral TTS (Mistral) — Sprachsynthese
- Cohere Transcribe — Spracherkennung
- CoVo-Audio (Tencent) — Erkennung + Reasoning + Synthese in einem 7B-Modell
Die On-Premise-Voice-Stack ist da. An einem einzigen Tag.
Für wen sich Voxtral lohnt
Wechsel zu Voxtral, wenn:
- Datenschutz und Datensouveränität entscheidend sind (Selbst-Hosting)
- Du hauptsächlich in Deutsch oder den 8 anderen Sprachen arbeitest
- Hohes Volumen und Kosten eine Rolle spielen
- Du ein Produkt mit integrierter Sprache baust (offene Gewichte = keine Lizenzkosten)
Bleib bei ElevenLabs, wenn:
- Du 32+ Sprachen brauchst
- Video-Dubbing essentiell ist
- Du auf Integrationen mit Descript, Canva usw. angewiesen bist
- Enterprise-Support mit SLA notwendig ist
Fazit
Ein französisches KI-Unternehmen veröffentlicht ein Open-Source-Sprachmodell, das den Marktführer in Blindtests schlägt, auf einem Smartphone läuft, und Deutsch als Erstsprache unterstützt. Selbst hostbar, DSGVO-konform einsetzbar, und 12-mal günstiger über die API.
Für den DACH-Markt ist das eigentlich genau das, worauf viele gewartet haben. Die Voice-KI ist halt endlich auch ohne Cloud-Abhängigkeit verfügbar.
Sources: