Wenn du das KI-PR-Review-Tool wählst, das in deinem Q3-Budget-Antrag landet, hat diese Woche die Entscheidung gleichzeitig leichter und schwerer gemacht.
Leichter, weil Anthropic Code Review zum Headline-Launch von Code with Claude SF am 6. Mai gemacht hat — mit fixierter Pricing, Auto-Fix in den gleichen Workflow integriert, und der Glaubwürdigkeitslinie „Anthropic nutzt es selbst auf nahezu jedem PR" als Anker. (Code Review for Claude Code — Anthropic)
Schwerer, weil das jetzt sechs grundsätzlich vergleichbare Produkte in dieselbe Q3-Budget-Diskussion bringt — und sie konkurrieren tatsächlich nicht auf derselben Achse. Per-PR-Abrechnung gegen Per-Sitz-Abrechnung. Multi-Agent gegen Single-Pass. Spezialisten-Features (Security-Review, Codebase-Kontext, IDE-Integration), die wild unterschiedlich gewichtet werden, je nachdem, wo der Engpass deines Teams tatsächlich liegt.
Dieser Artikel ist der Direktvergleich: Pricing-Modelle, was jedes Tool ehrlich am besten kann, und eine Routing-Regel pro Team-Profil, die dich vor dem nächsten Kaffee zu „wir wissen, was in den Antrag kommt" bringt.
Was Anthropic gestern tatsächlich ausgeliefert hat
Der gestrige Launch war die GA-Trajektorie-Erweiterung des Code-Review-Features, das im März als Preview lief. Fünf Punkte, bevor der Vergleich Sinn ergibt. (Code Review docs — Claude Code)
Multi-Agent. Fünf spezialisierte Agenten auditieren jeden PR unabhängig: CLAUDE.md-Compliance-Check, Bug-Detection, Git-History-Kontextanalyse, Review-vorheriger-PR-Kommentare, Code-Kommentar-Verifikation. Jeder Findings bekommt einen Confidence-Score von 0-100. Der Default-Surface-Threshold ist 80 — Findings darunter werden per Default gefiltert und sind pro Repo konfigurierbar.
$15-25 pro Pull Request, getrennt abgerechnet. Reviews werden über „Extra-Usage" außerhalb des im Plan enthaltenen Claude-Code-Kontingents berechnet. Drei Faktoren bewegen einen PR von $15 Richtung $25: PR-Größe und -Komplexität (mehr Dateien, längere Diffs → mehr Analyse-Passes); Review-Tiefe (Multi-Agent-Cross-Checking + höhere Opus-„Effort"-Stufen erzeugen mehr Tokens auf schwierigen Problemen); und Re-Runs nach Pushes (jede Iteration verbrennt zusätzliche Tokens). Für einen typischen 200-Zeilen-PR mit einem Single-Standard-Run kalkuliere $15. Für große oder Multi-Pass-Reviews auf kritischen Repos kalkuliere $25. Reviews dauern etwa 20 Minuten und brennen deutlich mehr Compute als die ursprüngliche Code-Generierung.
Nur Team- und Enterprise-Pläne. Free und Pro können Code Review nicht aktivieren. Zero-Data-Retention-Organisationen sind ebenfalls ausgeschlossen.
Auto-Fix ist in denselben Workflow integriert. Wenn die CI auf einem PR fehlschlägt, liest Claude den Error-Output, untersucht die Ursache, schreibt einen Fix und pusht ihn auf den PR-Branch mit einer Erklärung. Dasselbe, wenn Reviewer-Kommentare Code-Änderungen erfordern.
GitHub-first. Anthropic Managed Product ist heute GitHub-only. GitLab-Teams können Code Review über self-hosted CI/CD mit Extra-Setup laufen lassen.
Die 6-Anbieter-Pricing-Übersicht
Pricing-Modelle zählen mehr als Per-Einheit-Preise. Ein Per-Sitz-Tool mit $40/Dev für ein kleines Team ist dramatisch günstiger als ein Per-PR-Tool mit $20 für ein high-velocity-Team — und dramatisch teurer für ein low-velocity-Team. Lies das Modell zuerst, die Zahl danach.
| Tool | Pricing-Modell | Listenpreis | Am besten für | Am schlimmsten für |
|---|---|---|---|---|
| Claude Code Review | Per-PR (Extra-Usage) | $15-25/PR | Low-bis-medium-velocity Teams; kritische Repos | High-velocity Merge-Kadenz (Kosten stapeln sich) |
| Cursor Bugbot | Per-Sitz | ~$40/Dev/Monat | Cursor-IDE-Teams (zahlst Cursor schon) | Teams ohne Cursor-Standardisierung |
| Greptile | Per-Sitz + Overage | ~$30/Dev/Monat + $1/Review über 50 | Codebase-Kontext-lastige Reviews; Monolithen | Kleine Repos mit flachem Kontext |
| CodeRabbit | Per-Sitz | ~$24/Dev/Monat (Pro) | Höchst-velocity Merge-Teams; GitHub-Marketplace-Default | Teams, die Multi-Agent-Tiefe brauchen |
| GitHub Copilot Workspace | Im Copilot Enterprise gebündelt | Per Copilot-Lizenz | Microsoft-Tenant-Shops mit Copilot Enterprise | Teams ohne Copilot Enterprise |
| Sweep | Open Source / Self-Host | Frei + Infra | Teams mit starker Ops-Kapazität | Teams ohne Ops-Kapazität |
Kostenkurven bei typischen Team-Größen
Pricing-Modelle verhalten sich sehr unterschiedlich, wenn die Merge-Kadenz skaliert. Die Zahlen unten sind Daumen-Regel-Monatstotale für ein hypothetisches 10-Engineer-Team bei drei Merge-Velocity-Profilen.
| Velocity | PRs/Dev/Monat | Total PRs/Monat | Claude Code Review (~$20/PR ⌀) | CodeRabbit ($24/Dev) | Cursor Bugbot ($40/Dev) |
|---|---|---|---|---|---|
| Low | 3 | 30 | ~$600 | $240 | $400 |
| Medium | 10 | 100 | ~$2.000 | $240 | $400 |
| High | 20 | 200 | ~$4.000 | $240 | $400 |
Das Muster ist sauber: bei niedriger PR-Velocity pro Dev kann Claude Code Reviews Per-PR-Pricing nahe oder unter Per-Sitz-Tools liegen, besonders wenn die meisten Reviews Richtung $15-Ende fallen. Bei medium-bis-hohem Volumen gewinnen Per-Sitz-Tools auf rohen Kosten — manchmal um Faktor 5-10×. Die Entscheidung ist nicht „was ist abstrakt günstiger"; sondern „welche Merge-Kadenz pro Dev haben wir, und welche Bereitschaft, für Multi-Agent-Tiefe auf den PRs zu zahlen, die zählen?"
Ein pragmatisches Zwei-Tool-Pattern, auf das viele DACH-Teams landen: Per-Sitz-Tool (CodeRabbit oder Bugbot) auf jedem PR per Default, plus Claude Code Review auf den 10-15% PRs, die durch eine CODEOWNERS-Regel als hoch-stakes markiert werden. Das hält die Per-Sitz-Ökonomie für die Mehrheit der Merges intakt und reserviert die Per-PR-Ausgabe für die Änderungen, wo Multi-Agent-Tiefe sich rechnet.
Die 4 Routing-Empfehlungen nach Team-Profil
Nach den Dimensionen fällt die tatsächliche Entscheidung üblicherweise in einen von vier Eimern.
Profil 1 — High-Merge-Kadenz Anthropic-Enterprise-Shop
Dein Team merged 50+ PRs pro Woche. Du bist schon auf Anthropic Enterprise für Claude Code. Kritische Repos laufen Claude-Review auf jedem Merge.
Primary: Claude Code Review (Team-Plan oder höher) auf kritischen Repos mit hohem Confidence-Threshold (85-90), um Lärm niedrig zu halten. Fallback: Greptile auf den wenigen Large-Context-Repos, wo Claude Code Reviews Git-History-Agent nicht reicht. Skip: CodeRabbit (du würdest doppelt für dieselbe Review-Surface zahlen). Skip: Bugbot, außer deine Devs leben auch in Cursor.
Kosten-Form: Per-PR-Kosten auf Claude Code Review × Merge-Kadenz. Beobachte die Spend-Cap-Konfiguration in den Admin-Einstellungen; setze sie als Gate.
Profil 2 — Cursor-IDE-anchored Shop
Dein Team hat sich vor 18 Monaten auf Cursor IDE standardisiert. Du zahlst für Cursor-Sitze. Die PR-Review-Surface ist „was in der Cursor-Inline-Erfahrung erscheint plus die PR-Kommentare danach".
Primary: Bugbot für das In-IDE-Review (du zahlst Cursor schon; es ist gebündelt). Add: Claude Code Review nur auf security-flagged PRs — zahle $15-25 pro security-kritischen PR für die Multi-Agent-Tiefe, wo sie zählt. Skip: CodeRabbit, Greptile (überlappende Surface).
Profil 3 — GitHub-Marketplace-Default-Shop
Dein Team arbeitet auf GitHub. Dein PR-Review-Tool wurde wahrscheinlich vor 12-18 Monaten aus dem GitHub Marketplace gewählt. Höchstwahrscheinlich CodeRabbit oder einer seiner Peers. Das Team ist an den bestehenden Flow gewöhnt.
Primary: CodeRabbit (was funktioniert, behalten). Pilot: Claude Code Review auf einem kritischen Repo für 30 Tage, um zu sehen, ob die Multi-Agent-Tiefe die Per-PR-Kosten auf eurem Merge-Volumen rechtfertigt. Skip: Bugbot, außer ihr adoptiert auch Cursor.
Profil 4 — Microsoft-365-Copilot-anchored Shop
Dein Enterprise-Vertrag ist Microsoft Copilot Enterprise. Das PR-Review-Feature in Copilot Workspace ist enthalten.
Primary: Copilot Workspace (du hast schon dafür gezahlt). Add: Claude Code Review nur, wenn deine AWS- oder Anthropic-direkt-Routing-Entscheidung dich auf Bedrock für Claude bringt — dann liefert Code Review auf Bedrock für security-kritische PRs eine Multi-Agent-Tiefe, die Copilot Workspace nicht matcht. Skip: den Rest.
Die 3 „bei-manuellem-Review-bleiben"-Gates
Drei Muster, in denen KI-PR-Review wirklich schlecht passt. Sei ehrlich, ob du in einem davon bist.
Gate 1 — Dein Repo ist in einer Sprache oder Framework außerhalb der Modell-Stärkezone. Alle sechs Tools sind am stärksten auf TypeScript, Python, Go, Java, Rust. Sie werden progressiv schwächer auf Elixir, Clojure, OCaml, COBOL, Verilog usw. Wenn dein Repo in einer Nischensprache ist, kann die False-Positive-Rate auf KI-Review den Wert übersteigen. Pilotiere einmal, bevor du committest.
Gate 2 — Du hast einen dedizierten Security-Engineer auf kritischen Pfaden. KI-PR-Review ist Komplement zur menschlichen Security-Review auf kritischen Pfaden, kein Ersatz. Wenn dein bestehender Prozess schon einen Security-Engineer hat, der jede Änderung am Auth-Modul reviewed, fügt KI-Review auf diesen PRs Lärm hinzu, kein Signal. Nutze KI auf den routinemäßigen 95% PRs; behalte menschliche Review auf den kritischen 5%.
Gate 3 — Org-Policy verlangt menschliche-only Sign-off auf bestimmten Änderungs-Klassen. Manche Branchen (Gesundheitsakten, Zahlungsverarbeitung, bestimmte staatliche Verträge) haben Policy-Ketten, die einen identifizierbaren menschlichen Reviewer auf spezifischen Änderungs-Klassen verlangen. KI-Review kann laufen, aber das menschliche Sign-off bleibt erforderlich. Stelle sicher, dass dein Audit-Trail den Menschen, nicht die KI, als verantwortlichen Reviewer für diese Änderungen ausweist.
Was das nicht löst
Fünf Dinge, die KI-PR-Review nicht löst, egal welches der sechs du wählst.
- Es ersetzt nicht menschliche Review auf Architektur-Entscheidungen. KI-Review fängt Bugs, Style-Issues und flache Security-Flaws. Es sagt dir nicht, dass die Architektur, zu der du committest, falsch für die 18-Monats-Evolution des Systems ist.
- False Positives existieren weiter. Auch Multi-Agent-Review bei 80+ Confidence-Threshold flaggt Findings, die keine echten Bugs sind. Kalibriere den Threshold pro Repo; rechne mit 5-15% False-Positive-Rate auf den meisten Teams.
- Die „Anthropic nutzt es selbst auf nahezu jedem PR"-Glaubwürdigkeit ist real, aber begrenzt. Anthropics Codebase ist stark Python und KI-Forschung-shaped. Eure TypeScript/Go/Java-Enterprise-Mischung kann sich anders verhalten. Lauf einen 30-Tage-Pilot auf euren Repos, bevor du extrapolierst.
- Auto-Fix ist mächtig, braucht aber CI/CD-Permission-Scoping. Aktiviere es nicht auf Production-Config oder Release-Config-Repos am Tag 1. Starte mit test-only und lint-only Failure-Klassen; expandiere von dort.
- Per-PR-Pricing skaliert mit deiner Merge-Kadenz. Ein Team, das seine Merge-Velocity über Q3 verdoppelt, sieht die Claude-Code-Review-Rechnung sich verdoppeln. Setze den Spend-Cap in den Admin-Einstellungen als Gate, bevor das eine Budget-Überraschung wird.
Die Quintessenz
Die sechs Tools konkurrieren nicht tatsächlich auf derselben Achse. Claude Code Review gewinnt bei Multi-Agent-Reasoning-Tiefe und der Auto-Fix-Integration; CodeRabbit gewinnt bei Track Record und Per-Sitz-Ökonomie für high-velocity Teams; Greptile gewinnt bei Codebase-Kontext für Monolithen; Bugbot gewinnt für Cursor-anchored Shops; Copilot Workspace gewinnt im Microsoft-Tenant; Sweep gewinnt für Teams mit starkem Ops, die Volle Kontrolle wollen.
Für einen Q3-Budget-Antrag, der diesen Monat landen muss: wähle das Profil, das zu eurem Shop passt, schlag einen 30-Tage-Pilot des empfohlenen Primaries vor, und beantrage Expansions-Budget abhängig vom Pilot-Ergebnis. Tu nicht so, als könntest du das richtige Tool aus einer Vergleichstabelle wählen, ohne es auf euren tatsächlichen Repos laufen zu lassen.
Wenn du tiefer in Claude Code als Daily Driver einsteigen willst (inkl. Auto-Fix-Workflow und der Ratenlimit-Math, die die 6.-Mai-Cap-Verdopplung nun ändert), deckt unser ChatGPT Meisterkurs das vollständige Setup ab.
Quellen
- Code Review for Claude Code — Anthropic
- Code Review docs — Claude Code
- Anthropic Introduces Agent-Based Code Review — InfoQ
- The 5 Best CodeRabbit Alternatives in 2026 — Surmado
- Bugbot vs CodeRabbit: Best AI Code Review Tool in 2026 — Panto
- Best AI for Code Review 2026 — Verdent Guides
- Live blog: Code w/ Claude 2026 — Simon Willison
- Claude Code Auto-Fix: The PR That Fixes Itself — paddo.dev