Kostenlos Anfänger

Voxtral TTS: KI-Stimmen erstellen & klonen

Lerne Voxtral TTS — Mistrals Open-Source KI-Sprachmodell. Stimmen klonen, 9 Sprachen, DSGVO-konform lokal betreiben. Ehrlich: was geht und was nicht.

8 Lektionen
2 Stunden
Zertifikat inklusive

ElevenLabs verlangt 22$/Monat fürs Stimmenklonen. Voxtral macht das Gleiche für 0,016$ pro tausend Zeichen — und die Modellgewichte kannst du kostenlos runterladen. Bonus: Das Ding kommt aus Europa.

Mistral AI, das französische KI-Startup, hat Voxtral TTS am 26. März 2026 veröffentlicht. In Hörer-Tests bevorzugen 62,8% der Teilnehmer Voxtral gegenüber ElevenLabs Flash v2.5. Das Modell läuft auf dem Smartphone, klont jede Stimme aus 3 Sekunden Audio, und unterstützt 9 Sprachen — darunter Deutsch nativ.

Aber es gibt wichtige Einschränkungen, die die meisten Tutorials verschweigen. Stimmenklonen geht nur über die API — der Codec-Encoder ist nicht in den offenen Gewichten enthalten. Die Lizenz ist CC-BY-NC, also kein kommerzieller Einsatz beim Self-Hosting. Und obwohl die 20 vorinstallierten Stimmen top sind, liegt die echte Power in der API.

Dieser Kurs deckt alles ehrlich ab. Was Voxtral gut kann, was es noch nicht kann, und wie du es für echte Projekte einsetzt — DSGVO-konform.

Was du lernst

8 Lektionen bringen dich von null zu einem fertigen Audio-Projekt. Du richtest die API ein, klonst deine eigene Stimme, generierst mehrsprachige Inhalte, lernst wann Self-Hosting vs API sinnvoll ist, und baust etwas Konkretes — eine Podcast-Episode, ein Hörbuchkapitel oder ein Voice-over-Demo.

Für wen ist dieser Kurs?

Content Creator, Podcaster, Entwickler, Lehrer und alle, die KI-Stimmen nutzen wollen, ohne sich dabei arm zu machen. Keine technischen Vorkenntnisse nötig — wenn du eine URL kopieren kannst, kannst du Voxtral nutzen.

Das lernst du

  • Explain wie Voxtral TTS funktioniert und wann du es statt Alternativen nutzen solltest
  • Use die Voxtral API zur Sprachgenerierung in 9 Sprachen
  • Apply Stimmenklonen aus 3-Sekunden-Aufnahmen mit ethischen Richtlinien
  • Create mehrsprachige Audio-Inhalte mit cross-lingualer Stimmenanpassung
  • Evaluate wann Self-Hosting vs API sinnvoll ist — basierend auf Kosten und DSGVO
  • Build ein vollständiges Audio-Projekt: Podcast-Episode, Hörbuchkapitel oder Voice-over

After This Course, You Can

Professionelle Voice-over für Videos, Präsentationen und Werbung erstellen
Deine eigene Stimme klonen für konsistentes Branding über alle Inhalte
Mehrsprachige Audio-Inhalte aus einer einzigen Stimme in 9 Sprachen generieren
200€+/Monat sparen durch Wechsel von ElevenLabs zu Voxtral
Das Modell DSGVO-konform auf deinem eigenen Server betreiben

What You'll Build

KI-Podcast-Episode
Eine komplette Podcast-Episode mit Intro, Moderation und Outro — vollständig mit KI-Stimme generiert, bereit zum Veröffentlichen.
Mehrsprachiges Voice-over-Demo
Das gleiche Skript in 3+ Sprachen vorgelesen — dank cross-lingualer Stimmenanpassung mit deutschem Akzent.
Stimmenkloning-Portfolio
Ein Vorher-Nachher-Vergleich deiner geklonten Stimme vs. Original, mit verschiedenen Emotionen und Anwendungen.

Kursinhalt

Voraussetzungen

  • Keine technischen Vorkenntnisse nötig — wir fangen bei null an
  • Computer oder Handy mit Internetzugang
  • Optional: ein Mistral API-Key (kostenloser Test verfügbar)
Jetzt loslegen

Häufig gestellte Fragen

Ist Voxtral TTS wirklich kostenlos?

Die offenen Modellgewichte sind kostenlos für nicht-kommerzielle Nutzung (CC-BY-NC Lizenz). Die API kostet 0,016$ pro 1.000 Zeichen — etwa 18x günstiger als ElevenLabs. Kommerzielle Nutzung erfordert die API.

Kann ich meine eigene Stimme klonen?

Ja — mit nur 3 Sekunden Audio. Stimmenklonen funktioniert aktuell nur über die API. Lokal gehostete Versionen können keine Stimmen klonen (der Codec-Encoder fehlt in den offenen Gewichten).

Ist Voxtral DSGVO-konform?

Beim lokalen Self-Hosting verlassen deine Daten nie deinen Server — das ist DSGVO-konform. Bei der API werden Daten an Mistral gesendet, aber Mistral ist ein EU-Unternehmen (Frankreich), was den Datentransfer vereinfacht.

Wird Deutsch gut unterstützt?

Ja! Deutsch ist eine der 9 nativ unterstützten Sprachen. Die Qualität der deutschen Sprachausgabe ist auf dem Niveau von englischen Stimmen.