Anthropic hat am 28. Mai 2026 Claude Opus 4.8 veröffentlicht, und sofort lief das übliche Spiel los: Benchmark-Charts, Ranglisten, „X schlägt Y um 1,8 Punkte". Die ehrliche Antwort für deine Arbeit ist langweiliger und nützlicher zugleich – es gibt kein bestes Modell, es gibt nur das richtige Modell für die jeweilige Aufgabe.
Wer drei Frontier-Modelle nach einer einzigen Zahl sortiert, optimiert das Falsche. Die drei liegen im Gesamtindex so dicht beieinander, dass die Reihenfolge kaum zählt – aber ihre Stärkenprofile sind unterschiedlich genug, dass die Zuteilung sehr wohl zählt.
Was die Benchmarks wirklich sagen
Im Gesamtprofil liegt Opus 4.8 knapp vorn – grob 93 zu 91 gegenüber GPT-5.5. Ein echter Vorsprung, aber klein.
Der eigentliche Unterschied steckt in den Kategorien:
- Agentisches Coding: Opus 4.8 ist hier am schärfsten. Auf SWE-Bench Pro landet es bei 69,2 % – Mehrschritt-Aufgaben über echte Codebasen, nicht nur Snippets.
- Autonomes Arbeiten im Terminal: GPT-5.5 hält dagegen. Es ist darauf gebaut, lange Aufgaben eigenständig durchzuziehen – Tools aufrufen, Zustand halten, sich aus Fehlern selbst herausarbeiten.
- Tempo und Kosten: Gemini 3.5 Flash ist rund 4× schneller und kostet etwa ein Drittel. Für reines Schlussfolgern in der Masse ist Gemini 3.1 Pro das einzige Frontier-Modell, das sich rechnet.
„Welches Gemini?" ist die entscheidende Rückfrage
Hier stolpern die meisten Vergleiche. „Gemini" ist kein Modell, sondern eine Familie. Flash ist der schnelle, günstige Arbeiter für hohes Volumen. Pro ist der teurere Denker für harte Reasoning-Aufgaben. Wer beide in einen Topf wirft, vergleicht Äpfel mit einem ganzen Obstkorb. Sag immer dazu, welches du meinst – sonst ist das Ergebnis wertlos.
Nach Aufgabe wählen, nicht nach Rangliste
Der Punkt: Du musst dich nicht entscheiden. Die meisten produktiven Teams fahren ein Hauptmodell plus gezielten Einsatz der anderen – das Routine-Volumen läuft günstig über Flash, die kniffligen Brocken über Opus oder GPT-5.5.
Die Preis-Realität
| Modell | Input / 1 Mio. | Output / 1 Mio. |
|---|---|---|
| Claude Opus 4.8 | 5,00 $ | 25,00 $ |
| GPT-5.5 | 5,00 $ | 30,00 $ |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ |
Bei niedrigem Volumen ist der Preisunterschied egal. Ab dem Punkt, wo du Anfragen in Masse schickst, entscheidet er alles – und genau dann zahlt sich die Zuteilung nach Aufgabe in barer Münze aus.
Was das für dich heißt
- Einzelentwickler:innen: Ein gutes Hauptmodell reicht. Nimm Opus 4.8, wenn du viel in echten Codebasen arbeitest; GPT-5.5, wenn du Aufgaben gern über Nacht durchlaufen lässt.
- Kleine Teams: Lass das Volumen über Flash laufen und hebt euch Opus/GPT-5.5 für die schweren Fälle auf. Das senkt die Rechnung spürbar, ohne Qualität zu kosten.
- Nicht-Techies: Im Alltag (claude.ai, ChatGPT, Gemini-App) merkst du von den Benchmark-Zehnteln nichts. Wähl das Tool, dessen Oberfläche dir liegt – und wechsle nur, wenn eine konkrete Aufgabe es verlangt.
Was ein Benchmark nicht misst
Wie sich ein Modell im Gespräch anfühlt. Wie verlässlich es zugibt, dass es etwas nicht weiß. Wie gut es in deinen Arbeitsfluss passt. Genau diese Dinge entscheiden im Alltag mehr als zwei Punkte auf einer Rangliste – und kein Chart der Welt bildet sie ab. Teste an deiner eigenen Arbeit, nicht an fremden Tabellen.
Fazit
Hör auf, nach der Rangliste zu wählen, und fang an, nach der Aufgabe zu wählen. Opus 4.8 fürs anspruchsvolle Coding, GPT-5.5 fürs autonome Durchziehen, Gemini Flash fürs günstige Volumen – und im Zweifel ein Hauptmodell plus gezielter Einsatz der anderen. Wer die Unterschiede systematisch verstehen will, findet im Kurs ChatGPT-Alternativen im Vergleich den roten Faden dazu.