OpenAI hat gestern Nachmittag drei neue Echtzeit-Sprachmodelle ausgeliefert. GPT-Realtime-2 mit GPT-5-Reasoning. GPT-Realtime-Translate mit Live-Übersetzung in 70+ Eingangs- und 13 Ausgangssprachen — Deutsch ist dabei — für 0,034 € pro Minute. GPT-Realtime-Whisper für streamende Transkription für 0,017 € pro Minute. Die Realtime-API ist auf GA, mit MCP, Bildeingabe und SIP-Telefonie.
Anthropic war zwei Tage live auf der Bühne in San Francisco — und hat zur Sprache nichts angekündigt. Kein Modell. Keine API. Keine Roadmap-Zeile. Die Eröffnungs-Keynote sagte den stillen Teil sogar offen: “No new model today. Today is about how we are making our products work better for you.”
Wer in Deutschland diese Woche eine Sprach-Pipeline plant, hat damit die Antwort auf eine Frage bekommen, die seit Q1 in der Luft hing: Bauen wir auf OpenAI, oder warten wir noch auf Anthropic? Die ehrliche Antwort heute lautet: bauen.
Was am 7. Mai wirklich kam
GPT-Realtime-2 ist Speech-to-Speech — Audio rein, Audio raus, kein separater Transkriptions-Schritt dazwischen. Das Reasoning ist auf GPT-5-Niveau, das Kontextfenster ist von 32K auf 128K gewachsen. Du kannst das Reasoning-Effort von minimal bis xhigh stufen — genau wie bei einem Text-Modell. Es unterstützt Preambles (“Lass mich das mal nachschauen”) und parallele Tool-Calls mit hörbarem Status — der Nutzer hört, dass der Agent denkt, statt im Stillstand zu warten. Es gibt auch einen Stop-until-wake-word-Modus für ambiente Deployments. Preise: 32 $ pro 1M Audio-Input-Tokens (0,40 $ für Cached Input), 64 $ pro 1M Audio-Output-Tokens.
GPT-Realtime-Translate macht Live-Übersetzung von 70+ Eingangssprachen in 13 Ausgangssprachen — Deutsch dabei — für 0,034 € pro Minute. Das ist genau die Komponente, die unauffällig den Vier-Anbieter-Stack tötet, den die meisten internationalen Support-Teams seit anderthalb Jahren zusammenkleben.
GPT-Realtime-Whisper ist Streaming-STT für 0,017 € pro Minute. Live, mit Sprechtempo.
Außerdem ist die Realtime-API selber jetzt GA. Du bekommst Remote-MCP-Server-Support innerhalb der Sprach-Sessions, Bild-Eingaben (dein Agent kann sehen, was der Nutzer ihm zeigt) und SIP-Integration, also Anbindung an eine echte Telefonnummer.
OpenAI hat drei Produktionskunden live genannt: Zillow für Immobilien-Termine, Priceline für Hotelbuchungen, Deutsche Telekom für mehrsprachigen Kundensupport. Genau — die Telekom ist Referenzkunde. Das ist der größte deutsche Telco-Stempel, den dieses Modell heute hat.
Was Anthropic in San Francisco gezeigt hat — und was nicht
Code with Claude SF lief am 6.-7. Mai. Hier ist die echte Liste:
- Doppelt so hohe Rate-Limits für Claude Code auf Pro, Max, Enterprise
- Multi-Agent-Orchestrierung in Public Beta
- Outcomes (deklarative Erfolgskriterien für Agenten)
- Dreaming in Research Preview
- Code Review, Remote Agents, CI Auto-Fix, Security Reviews
- Claude Code Routines (Higher-Order-Prompts)
- Claude Design (visuelle Design-Funktionen in Opus 4.7)
- Die SpaceX-Colossus-1-Infrastruktur-Partnerschaft (Hardwareluxx und das deutsche Handelsblatt haben über letzteres ausführlich berichtet)
Was in dieser Liste fehlt, ist genau das, was heute zählt. Kein Sprachmodell. Keine Sprach-API. Keine Roadmap. Auch kein Datum für London am 19. Mai.
Zwei Bühnentage, sechs Monate nachdem Mike Krieger Bloomberg von der Konsumenten-Strategie erzählt hatte — und Sprache hat es nicht in die Keynote geschafft. Das ist ein echtes Signal, kein zufällig schwacher Newscycle.
Der 5-Fragen-Q3-Routing-Rahmen
Wer diese Woche entscheidet, wo die Produktions-Sprach-Pipeline läuft, sollte diese fünf Fragen in dieser Reihenfolge durcharbeiten.
1. Braucht dein Agent ein hörbares Pause-on-Tool-Call?
GPT-Realtime-2s Preambles sind das UX-Highlight, aber sie sind eine Design-Entscheidung, kein Free-Upgrade. Das Modell sagt “Moment, ich schaue das nach”, während es ein Tool ausführt, und es streamt parallele Tool-Call-Status hörbar.
Für einen Kundensupport-Agenten, der eine Bestellung nachschlägt, ist das ein Quantensprung — Stille hat in der Vergangenheit als “Agent ist kaputt” gewirkt. Für einen klinischen Sprachagenten oder eine Finanzberatung, wo der Nutzer überlegtes Schweigen erwartet, sind die Preambles Lärm, den du erst rauskonfigurieren musst.
Wenn du Stille willst, schalte Preambles ab und plane zwei Tage für Prompt-Tuning ein. Wenn du das hörbare Feedback willst, hast du heute den einfachsten Weg im Markt.
2. Wo liegt deine Reasoning-Tiefe-Decke?
Der Reasoning-Effort-Regler geht von minimal bis xhigh. Minimal ist das alte ChatGPT-Voice — schnell, flach, billig. xhigh ist GPT-5-Reasoning mit Audio.
Stelle den Regler nach Anruftyp ein:
- FAQ-Deflection, Passwort-Resets, Terminbuchungen: minimal
- Mehrstufige Buchungen mit Constraints, Eskalations-Routing: medium
- Klinische Vorab-Triage, juristische Erstberatung, komplexe Finanzfragen: high
- xhigh: nur, wenn dein Latenz-Budget über 4 Sekunden Reasoning erlaubt
Wenn dein Agent für jeden Anruf xhigh braucht, zahlst du Tokens, deren Latenz der Nutzer nicht akzeptieren wird. Das realistische Produktions-Pattern ist minimal Voice-Frontend + Text-Reasoning-Modell im Hintergrund — dazu kommen wir gleich.
3. Bist du multilingual gefordert?
Hier zeichnet Translate die Karte still neu. Der Standard-International-Support-Stack heute heißt Whisper für STT, DeepL oder Google Translate für die Übersetzung, Claude oder GPT fürs Reasoning, ElevenLabs oder Cartesia für TTS. Vier Anbieter, vier Verträge, vier Audit-Trails, vier Prompt-Caches, vier Latenz-Budgets, die sich auf 800-1500ms Ende-zu-Ende stapeln.
Translate komprimiert das auf einen einzigen 0,034-€-pro-Minute-API-Call. Für ein Support-Team mit 1.000 Minuten am Tag macht das 34 € am Tag, ~1.020 € im Monat. Für ein Mid-Market-Team mit 5.000 Anrufen am Tag: 510 € am Tag, ~15.300 € im Monat. Beide Zahlen liegen drastisch unter den realen Kosten des Vier-Anbieter-Stacks, sobald du die Integrations-Engineering-Zeit dazu rechnest.
Zwei DACH-spezifische Tore vor der Migration. Erstens: Prüf die Liste der 13 Ausgangssprachen gegen deinen Support-Footprint — wenn du Schweizerdeutsch, Niederländisch oder skandinavische Sprachen direkt brauchst, ist das im Launch-State noch nicht sauber abgedeckt; verifiziere für deine Sprachpaare. Zweitens: Wenn du DSGVO-Pflicht oder eine Datenresidenz-Anforderung in der EU hast, lass dir OpenAIs Daten-Handling-Story (Schrems-II-konform? AVV? US-Cloud-Act-Risiko?) dokumentieren, bevor du umstellst. Die Telekom als Referenzkunde gibt dir hier einen Anker, aber jeder Vertragspartner muss seinen eigenen DSGVO-Check machen.
4. Bist du auf den Rest deines Stacks Anthropic-gebunden?
Das ist die ehrliche Frage für Claude-anker-Teams. Wenn dein Retrieval, dein Tool-Routing, dein Prompt-Caching und dein Audit-Trail alle auf Claude laufen — gibt es echte Brückenkosten, OpenAI auf dem Voice-Pfad zu fahren und Claude auf Text. Plane drei bis fünf Sprint-Wochen für ein kleines Team ein: separate Prompt-Caches, separate Observability, separate Tool-Permission-Scopes, separate Eval-Harnesses.
Die Brücke ist baubar. Wir haben Teams gesehen, die sie geschickt gebaut haben. Aber wenn du diese Woche mit der Annahme reingegangen bist, “Claude macht alles” sei ein gangbarer Bet bis Q3 — die gestrige Stille bedeutet, dass diese Annahme überarbeitet werden muss.
5. Wartest du wirklich auf Anthropics Sprach-Antwort?
Code with Claude London ist am 19. Mai. Tokyo am 10. Juni. Wenn Sprache kommt, sind das die wahrscheinlichsten Bühnen — aber London ist elf Tage entfernt, und Anthropics Track-Record dieses Jahr bei previewed-then-shipped-Features ist gemischt.
Elf Tage auf einen Vielleicht-Launch zu warten, ist für die meisten Teams das riskantere Bet. Du verbrennst das Erst-im-Markt-Fenster für Production-Voice in deiner Branche, und falls Anthropic in London tatsächlich liefert, kannst du immer noch migrieren — Sprachmodelle sind abstraktions-freundlich genug, dass die Wechselkosten real, aber nicht prohibitiv sind.
Der ehrliche Call: Heute auf GPT-Realtime-2 starten. Wenn London liefert, dann beim London-Launch neu evaluieren. Wenn London nichts bringt, bist du schon in Produktion, während Claude-anker-Teams noch in der Planung sitzen.
Was das für dich heißt
Solo-Dev oder 2-3-Personen-Team
Bau auf GPT-Realtime-2 mit minimal Effort. WebRTC-Quickstart. Skip Remote-MCP für die erste Version — das ist eine Q2-Kostenoptimierung, kein v1-Requirement. Zielwert: zwei Wochen bis zur ersten Produktion.
10-50-Personen-Engineering-Team in Deutschland
Mach diese Woche das Vier-Anbieter-Head-to-Head: GPT-Realtime-2, Cartesia, ElevenLabs, dein bestehender Whisper-plus-LLM-Eigenbau. Such dir den schmerzhaftesten Anruftyp aus (multilingualer Support, falls vorhanden; FAQ-Deflection, falls nicht) und fahr eine einwöchige Pilotphase mit 5% des Traffics. Die Preis-Mathe entscheidet für dich.
Enterprise mit regulierten Voice-Workflows (Krankenversicherung, Behörden, Banken)
Warte. GPT-Realtime-2 ist für unregulierten Voice-Bereich produktionsreif, aber die Audit-Trail-Story für klinische, juristische oder finanzielle Voice-Use-Cases — wo jedes Wort des Modells replayfähig, attribuierbar und compliance-fest sein muss — reift noch. Pilotier in nicht-regulierten Bereichen (HR-Triage, internes IT-Helpdesk, Vendor-Management) und lass die regulierten Workflows warten, bis das Audit-Tooling nachzieht.
Engineering-Manager mit Claude-anker-Stack
Dein Call diese Woche: Brückenkosten vs. Wartezeit. Brücke kostet drei bis fünf Sprint-Wochen. Warte mindestens elf Tage auf London ohne Garantie. Wenn dein Voice-Use-Case hochgehebelt ist (Top-3-Kostenpunkt im Support, oder ein umsatzgenerierender Outbound-Voice-Flow), bau die Brücke jetzt. Wenn es ein Q4-Nice-to-have ist, warte London ab und entscheide am 20. Mai.
Multilinguales Support-Team auf dem Vier-Anbieter-Stack
Du bist das Team, für das gestern am meisten passiert ist. Die Integrations-Steuer auf dem Whisper + DeepL + Claude + ElevenLabs-Stack ist genau die Sache, die deine Engineering-Org seit 18 Monaten still mitschleppt. Translate ist die Konsolidierungs-Wette. Rechne diese Woche die Kostenmathe gegen dein echtes Anrufvolumen — sie wird nicht knapp.
Was das nicht löst
Fünf ehrliche Limits.
Es halluziniert immer noch. GPT-5-Reasoning im Voice-Loop macht das Modell nicht faktisch geerdet. Es macht das Modell nur fließend, während es Dinge erfindet. Jeder Produktion-Sprachagent braucht Retrieval, das in deinen Daten verankert ist, und einen Fallback-Pfad, wenn Retrieval daneben liegt. Liefere keinen Sprachagenten ohne Fallback auf Mensch, E-Mail oder Web-Suche aus.
Latenz unter Last ist noch nicht stress-getestet. Day-1-Launches haben immer saubere Latenz-Zahlen gezeigt; der echte Stresstest kommt, wenn r/OpenAIDev und LinkedIn-DACH-Engineers in den nächsten 14 Tagen Throughput-Daten posten. Wenn dein Agent auf einem SLA läuft, fahr einen synthetischen Last-Test, bevor du einen Kunden festklemmst.
Die 13-Sprachen-Liste ist kurz. Vietnamesisch, Thai, Indonesisch, Tagalog, Hindi und die meisten afrikanischen Sprachen sind beim Launch nicht dabei. Auch Schweizerdeutsch musst du sehr genau prüfen. Wenn dein Support-Footprint diese Sprachen einschließt, ersetzt Translate deinen Stack noch nicht.
SIP-Integration debuggen wird wehtun. OpenAIs SIP-Integration ist Day 1. Die ersten Throughput-vs-Promised-Reports der ersten Woche werden dir sagen, ob du dein Telefon-Trunking jetzt anschließt oder zwei Wochen auf die Stabilitäts-Patch-Welle wartest.
Die Audit-Trail-Story ist für regulierte Branchen unvollständig. Voice-Replay, Attribution und Compliance-Beweise brauchen Tooling, das nicht Teil der API ist. Du musst (oder kaufst) die Aufnahme-Schicht, die Tagging-Schicht und die Schwärzungs-Schicht separat bauen — gerade unter DSGVO ist das nicht trivial.
Was die Community gerade dazu sagt
Der Launch ist die viralste OpenAI-Ankündigung des Monats auf X. Der offizielle OpenAI-Post knackte in den ersten 18 Stunden 11.300+ Likes, 1.000+ Reposts, 4.000+ Bookmarks. Was Entwickler-Threads als das eigentliche Highlight feiern, ist nicht der Headline-Preis — sondern der Sprung von 32K auf 128K Kontext und das GPT-5-Reasoning im Voice-Loop. Bei den Preisen geht der Stimmungsboden durch: viele Devs nennen den Per-Token-Preis “teuer aber akzeptabel” angesichts des gebündelten Reasonings; eine relevante Minderheit ruft eine 4-5-fach-Lücke zu xAIs Voice-Äquivalenten aus und sagt, ~0,24 €/Min für eine voll gebündelte Session sei “noch zu hoch für Production-All-Round-Voice-Agenten.”
Auf der Anthropic-Sprach-Stille-Frage gibt es leise Signale — aber keine harte Bestätigung —, dass Sprach-Arbeit bei Anthropic läuft. Mehrere Analysten-Reads zeigen auf Code with Claude London am 19. Mai als wahrscheinlichste Bühne, falls etwas Voice-mäßiges kommt. Die ehrliche Lesart für DACH-Teams diese Woche: nicht darauf wetten, dass London Sprache liefert.
Das Wesentliche
Gestern war kein Sprachmodell-Launch. Es war OpenAI, das die Production-Voice-Kategorie für sich beansprucht hat, während Anthropic sein größtes Dev-Event des Jahres auf Text-Agenten und Infrastruktur-Deals ausgerichtet hat. Das ist ein strategischer Call von Anthropic — Sprache ist möglicherweise nicht der Bereich, wo die nächste Wette landet — aber für ein Team, das diese Woche einen Stack auswählt, macht es die Routing-Entscheidung einfacher als in den vergangenen zwölf Monaten.
Falls Sprache auf deiner Q3-Roadmap steht, ist die Antwort heute GPT-Realtime-2. Klein pilotieren, die 14-Tage-Production-Reports beobachten und nach Code with Claude London am 19. Mai neu evaluieren. Falls Sprache nicht auf deiner Q3-Roadmap steht, war gestern trotzdem der Moment, an dem die Kategorie still von “abwarten” auf “production-ready für die meisten Use-Cases” gewechselt ist — was wahrscheinlich heißt, dass du dich fragen solltest, ob sie es nicht doch sein sollte.
Möchtest du eine tiefere Tour durch das, was Sprach-Agenten in Produktion können? Unser Kurs KI-Grundlagen deckt die Grundlagen ab. Für eine vollständige Tour durch den ChatGPT-Stack — inklusive der Realtime-API — schau in den ChatGPT-Meisterkurs. Und für Teams, die bei der Frage hängen, ob Workspace-Agents oder Voice-Agents als nächstes ranmüssen, ist ChatGPT Workspace Agents für Nicht-Engineers der Fast-Track.
Quellen
- Introducing gpt-realtime and Realtime API updates for production voice agents — OpenAI
- Advancing voice intelligence with new models in the API — OpenAI
- OpenAI’s new voice model brings GPT-5-level reasoning to real-time conversations — The Decoder
- Alle OpenAI-Modelle 2026: GPT-5, o3, Sora und mehr — eesel AI
- Die größten Sprachmodelle (LLMs) — moin.ai
- Anthropic verbündet sich mit Elon Musks SpaceX — Handelsblatt
- Anthropic und SpaceXAI: Claude bekommt Zugriff auf deutlich mehr KI-Rechenleistung — Hardwareluxx
- OpenAI launches new voice intelligence features — TechCrunch
- Code with Claude San Francisco — Anthropic
- Live blog: Code w/ Claude 2026 — Simon Willison