Voxtral TTS: Mistrals Open-Source-KI schlägt ElevenLabs — und ist kostenlos

Mistral — das französische KI-Unternehmen — hat am 26. März Voxtral TTS veröffentlicht. Ein Text-to-Speech-Modell mit offenen Gewichten, das in Blindtests 62,8% der Hörer gegenüber ElevenLabs Flash v2.5 bevorzugen.

Und hier wird’s spannend: Deutsch ist eine der 9 unterstützten Sprachen. Das Modell klont Stimmen aus 3 Sekunden Audio. Es kostet über die API 0,016 $ pro 1.000 Zeichen. Und du kannst es auf deiner eigenen Hardware betreiben — kein Byte verlässt dein Netzwerk.

Für den DACH-Raum, wo Datenschutz halt nicht verhandelbar ist, ändert das die Spielregeln.

Was Voxtral TTS kann

4 Milliarden Parameter, 9 Sprachen: Englisch, Französisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Italienisch, Hindi und Arabisch.

Kriterium	Voxtral TTS	ElevenLabs
Menschliche Präferenz	62,8%	37,2%
Stimmklonung Minimum	3 Sekunden	1 Minute (Instant)
Sprachen	9 (inkl. Deutsch)	32
Latenz (erstes Audio)	90ms	~90ms (Flash)
API-Preis	0,016$/1K Zeichen	0,15-0,30$/1K Zeichen
Selbst hostbar	Ja (3 GB RAM)	Nein
Lizenz	Creative Commons	Proprietär

Wichtige Einschränkung: Mistral vergleicht mit ElevenLabs Flash v2.5 — der schnelleren, günstigeren Variante. Gegen die Premium-Version v3 (langsamer, bessere Qualität) beansprucht Mistral Gleichstand bei der emotionalen Ausdrucksfähigkeit, keine Überlegenheit. Sprich: Voxtral erreicht ElevenLabs’ Spitzenqualität bei gleichzeitig höchster Geschwindigkeit. Beeindruckend, aber kein „besser in allen Belangen."

Warum das für Deutschland besonders relevant ist

Datensouveränität. Das ist doch der Punkt, der in Deutschland wirklich zählt. Wenn du ElevenLabs nutzt, gehen deine Texte und Stimmproben an US-Server. Für die meisten Privatpersonen ist das okay. Aber für:

Banken und Finanzdienstleister (regulierte Daten)
Kanzleien (Mandantenvertraulichkeit)
Behörden (Verschlusssachen)
Unternehmen mit strengen DSGVO-Anforderungen

…ist das Senden von Audiodaten an Drittanbieter-APIs ein No-Go. Voxtral löst das: Alles läuft lokal. Text rein, Audio raus, nichts verlässt dein Netzwerk.

Ein Entwickler auf r/LocalLLaMA hat’s treffend formuliert: „Deutsche Banken können endlich Voice-KI bauen, ohne Kunden-PII an US-APIs zu streamen." Puh, hat lang genug gedauert.

Die Preisfrage

Plan	ElevenLabs	Voxtral
Gratis	10.000 Zeichen/Monat	Selbst hosten = kostenlos
Basis	5$/Monat (30K Zeichen)	—
Pro	99$/Monat (500K Zeichen)	8$ via API für dasselbe Volumen
Business	1.320$/Monat (11M Zeichen)	176$ via API
Selbst gehostet	Nicht möglich	0€ (Hardware-Kosten)

Beim Pro-Volumen von ElevenLabs (500K Zeichen/Monat) kostet Voxtral über die API 12-mal weniger. Und wer selbst hostet, zahlt nur die Rechenkosten — kein Abo, keine Lizenzgebühren.

Stimmklonung: 3 Sekunden reichen

Du gibst Voxtral 3-5 Sekunden Audio — eine Sprachnachricht reicht — und es erfasst nicht nur die Stimme, sondern auch Nuancen: Akzent, Intonation, natürliche Pausenmuster.

In den Bewertungen haben 69,9% der Hörer Voxtral-geklonte Stimmen bevorzugt gegenüber ElevenLabs’ geklonten Stimmen.

ElevenLabs braucht mindestens 1 Minute für „Instant Voice Cloning" und 30+ Minuten für professionelles Klonen. Bei Voxtral: 3 Sekunden, fertig.

Deutsches Stimmklonen: Da Deutsch nativ unterstützt wird, sollte die Akzent- und Intonationserfassung für deutsche Sprecher deutlich besser funktionieren als bei Modellen, die Deutsch nur als Sekundärsprache behandeln. Testen lohnt sich.

So probierst du es aus

Am schnellsten (ohne Setup):

Le Chat von Mistral — TTS ist eingebaut
Hugging Face Demo

Über die API (0,016$/1K Zeichen):

Account auf console.mistral.ai
API-Key generieren
TTS-Endpoint nutzen

Selbst gehostet (kostenlos):

Modellgewichte von Hugging Face herunterladen
~3 GB RAM, GPU mit 16 GB+ VRAM empfohlen
vLLM unterstützt Voxtral ab Tag 1 — Deployment in Produktion ist machbar
Keine Daten verlassen deine Infrastruktur

Was Voxtral (noch) nicht kann

Kein Dubbing/Übersetzung. ElevenLabs hat eine komplette Pipeline zum Synchronisieren und Neuvertonen von Videos. Voxtral macht Text-to-Speech, mehr nicht.

9 vs. 32 Sprachen. Kein Japanisch, Koreanisch, Chinesisch, Polnisch oder Türkisch. Für asiatische Sprachen ist ElevenLabs weiterhin die einzige Option.

Dünnes Ökosystem. ElevenLabs integriert sich in Descript, Canva, Notion und Dutzende weitere Tools. Voxtral hat API und Hugging Face. Das Ökosystem muss erst wachsen.

Seit 2 Tagen live. ElevenLabs ist seit Jahren in Produktion mit Millionen Nutzern. Voxtral ist brandneu. Edge Cases, Zuverlässigkeit unter Last — alles noch unbewiesen.

Kontext: 3 Open-Source-Sprachmodelle an einem Tag

Voxtral war nicht allein. Am 26. März 2026 erschienen innerhalb weniger Stunden:

Voxtral TTS (Mistral) — Sprachsynthese
Cohere Transcribe — Spracherkennung
CoVo-Audio (Tencent) — Erkennung + Reasoning + Synthese in einem 7B-Modell

Die On-Premise-Voice-Stack ist da. An einem einzigen Tag.

Für wen sich Voxtral lohnt

Wechsel zu Voxtral, wenn:

Datenschutz und Datensouveränität entscheidend sind (Selbst-Hosting)
Du hauptsächlich in Deutsch oder den 8 anderen Sprachen arbeitest
Hohes Volumen und Kosten eine Rolle spielen
Du ein Produkt mit integrierter Sprache baust (offene Gewichte = keine Lizenzkosten)

Bleib bei ElevenLabs, wenn:

Du 32+ Sprachen brauchst
Video-Dubbing essentiell ist
Du auf Integrationen mit Descript, Canva usw. angewiesen bist
Enterprise-Support mit SLA notwendig ist

Fazit

Ein französisches KI-Unternehmen veröffentlicht ein Open-Source-Sprachmodell, das den Marktführer in Blindtests schlägt, auf einem Smartphone läuft, und Deutsch als Erstsprache unterstützt. Selbst hostbar, DSGVO-konform einsetzbar, und 12-mal günstiger über die API.

Für den DACH-Markt ist das eigentlich genau das, worauf viele gewartet haben. Die Voice-KI ist halt endlich auch ohne Cloud-Abhängigkeit verfügbar.

Sources: