Das erste Mal, als ich mitten im Gespräch ein Token-Limit erreicht habe, wusste ich überhaupt nicht, was passiert war.
Ich war tief in einer Coding-Session mit GPT-4, hatte eine große Codebase zur Review eingefügt. Die Antwort hat einfach… aufgehört. Mitten im Satz abgeschnitten. Und ich hatte keine Ahnung warum, weil ich nicht wusste, was Tokens sind oder dass es ein Limit gibt.
Wenn dir das bekannt vorkommt, ist dieses Tool für dich.
Zähle deine Tokens
Tippe oder paste deinen Text unten. Token-Anzahl, Wortzählung und Kostenschätzungen aktualisieren sich in Echtzeit.
KI-Token-Zähler
Geschätzte Kosten
| Modell | Input | Output |
|---|
Was sind Tokens?
Tokens sind die grundlegenden Einheiten, die KI-Sprachmodelle zur Textverarbeitung nutzen. Es sind keine Wörter — es sind Textblöcke, in die der Tokenizer des Modells deinen Input aufteilt.
Eine Faustregel: 1 Token sind etwa 4 Zeichen auf Englisch, oder ungefähr 0,75 Wörter. Bei Deutsch sind es eher 3 Zeichen pro Token, weil deutsche Wörter tendenziell länger sind.
| Text | Tokens | Warum |
|---|---|---|
| “Hello” | 1 | Häufiges Wort = ein Token |
| “Unternehmensstrategie” | 6 | Lange/zusammengesetzte Wörter = mehr Tokens |
| “ChatGPT” | 2 | Markennamen werden aufgeteilt |
| “こんにちは” | 3 | Nicht-lateinische Schriften brauchen mehr Tokens |
{"key": "value"} | 7 | Code/JSON hat strukturelle Tokens |
Der Tokenizer zerlegt Text in Stücke, die er während des Trainings gelernt hat. Häufige englische Wörter sind oft ein einzelnes Token. Seltene Wörter, Code und nicht-englischer Text brauchen typischerweise mehr Tokens pro Wort.
Warum Token-Zahlen wichtig sind
1. Context-Window-Limits
Jedes KI-Modell hat ein maximales Context Window — die Gesamtzahl an Tokens, die es in einer einzelnen Konversation verarbeiten kann (Input + Output zusammen):
| Modell | Context Window |
|---|---|
| GPT-4o | 128K Tokens |
| GPT-4o mini | 128K Tokens |
| o3-mini | 200K Tokens |
| Claude Sonnet 4 | 200K Tokens |
| Claude Haiku 3.5 | 200K Tokens |
| Gemini 2.0 Flash | 1M Tokens |
| Copilot (GPT-4o) | 128K Tokens |
| Mistral Large | 128K Tokens |
| DeepSeek V3 | 64K Tokens |
Wenn dein Prompt das Limit überschreitet, bekommst du abgeschnittene Antworten oder Fehler.
2. API-Kostenkontrolle
Wenn du KI-APIs nutzt (nicht nur das Chat-Interface), zahlst du pro Token. Die Kosten unterscheiden sich deutlich zwischen Input und Output:
| Modell | Input (pro 1M) | Output (pro 1M) |
|---|---|---|
| GPT-4o | 2,10 € | 8,40 € |
| GPT-4o mini | 0,13 € | 0,50 € |
| o3-mini | 0,92 € | 3,70 € |
| Claude Sonnet 4 | 2,52 € | 12,60 € |
| Claude Haiku 3.5 | 0,84 € | 4,20 € |
| Gemini 2.0 Flash | 0,08 € | 0,34 € |
| Copilot (GPT-4o) | 2,10 € | 8,40 € |
| Mistral Large | 1,68 € | 5,04 € |
| DeepSeek V3 | 0,24 € | 0,35 € |
Ein 1.000-Token-Prompt an GPT-4o kostet ca. 0,0021 € für den Input. DeepSeek V3 ist am günstigsten mit ca. 0,00024 € pro 1.000 Tokens. Die Antwort kostet immer mehr als der Prompt.
3. Prompt-Optimierung
Die Token-Anzahl zu kennen hilft dir:
- Überflüssiges zu kürzen in System-Prompts, um Kosten zu sparen
- Response-Budgets abzuschätzen vor API-Aufrufen
- Innerhalb der Limits zu bleiben beim Einfügen großer Dokumente
- Effizienz zu vergleichen zwischen verschiedenen Prompt-Ansätzen
Wie die Token-Schätzung funktioniert
Dieses Tool nutzt die Zeichen ÷ 4 Heuristik, die Standard-Annäherung für englischen Text. Für deutschen Text ist die Genauigkeit etwas geringer, da deutsche Wörter im Schnitt länger sind.
Für exakte Zahlen bräuchtest du einen modellspezifischen Tokenizer (OpenAIs tiktoken, Anthropics Tokenizer usw.), da jedes Modell leicht anders tokenisiert. Aber für Schätzungen und Kostenplanung funktioniert die ÷4-Regel gut.
Wann die Schätzung weniger genau ist:
- Code und JSON (mehr Tokens als erwartet)
- Nicht-englischer Text (deutlich mehr Tokens)
- Text mit vielen Zahlen oder Sonderzeichen
- Sehr kurze Prompts (Rundung hat größeren Einfluss)
Praktische Tipps zum Token-Management
Für ChatGPT/Claude/Copilot-Nutzer (Chat-Interface):
- Bei Abo-Plänen zahlst du nicht pro Token, aber Context-Limits gelten trotzdem
- Lange Gespräche sammeln Tokens an — starte neu, wenn es langsam wird
- Füge den relevantesten Kontext ein, nicht ganze Dokumente
Für API-Nutzer:
- Setze
max_tokensbei Antworten, um Output-Kosten zu kontrollieren - Nutze günstigere Modelle (GPT-4o mini, Haiku) für einfache Aufgaben
- Cache System-Prompts wenn möglich
- Streame Antworten, um frühzeitig abzubrechen wenn der Output nicht nützlich ist
Für Prompt-Engineers:
- Kürzere Prompts sind nicht immer günstiger — ein guter System-Prompt spart Geld bei Retries
- Teste erst mit Mini/Flash-Modellen, upgrade nur wenn nötig
- Nutze die Kostentabelle oben, um vor Batch-Jobs abzuschätzen
Häufig gestellte Fragen
Ist die Token-Zählung exakt? Es ist eine Schätzung basierend auf der Standard-Heuristik Zeichen÷4. Für exakte Zahlen bräuchtest du modellspezifische Tokenizer. Die Schätzung liegt typischerweise innerhalb von 10% für englischen Text.
Warum haben verschiedene Modelle verschiedene Preise? Größere Modelle mit mehr Parametern kosten mehr im Betrieb. Die Preisgestaltung spiegelt den Rechenaufwand wider. Mini/Flash-Modelle sind günstiger, weil sie kleiner und schneller sind.
Was ist der Unterschied zwischen Input- und Output-Tokens? Input-Tokens sind, was du sendest (dein Prompt). Output-Tokens sind, was die KI generiert (ihre Antwort). Output-Tokens kosten typischerweise 3-5x mehr, weil Generierung rechenintensiver ist als Lesen.
Funktioniert das für nicht-englischen Text? Das Tool zählt Zeichen und schätzt Tokens. Für nicht-englischen Text werden die tatsächlichen Token-Zahlen höher sein als die Schätzung, da nicht-lateinische Zeichen typischerweise 2-3 Tokens benötigen.
Wird mein Text gespeichert? Nein. Alles läuft client-seitig in deinem Browser. Kein Text wird an irgendeinen Server gesendet.