Devin vs Claude Code: Was Cognitions Milliarde für deutsche Teams bedeutet

Cognition holt eine Milliarde. Devin öffnet 89% der eigenen PRs. Welche 30% der Tickets im DACH-Team rechtfertigen Cloud-Kosten und DSGVO?

Am 27. Mai 2026 hat Cognition AI eine Series-D-Finanzierung über mehr als eine Milliarde US-Dollar bei einer Bewertung von 26 Milliarden geschlossen. In neun Monaten hat sich die Bewertung damit mehr als verdoppelt. Die Schlagzeile, die in den deutschen Tech-Newsfeeds heute Morgen die Runde gemacht hat, war aber nicht die Zahl. Sie lautete: 89 Prozent der Pull Requests bei Cognition werden inzwischen von Devin geöffnet — der eigenen KI.

Wer in DACH ein 10-Personen-IT-Team führt, hat heute Morgen vermutlich eine E-Mail vom CTO bekommen. Oder vom Geschäftsführer. Oder von der Einkaufsabteilung, die sich gerade fragt, ob das nächste KI-Budget bereits zu spät ist.

Bevor du antwortest, ein paar Datenpunkte aus dem deutschen Markt, die im US-Diskurs fehlen.

Was hier wirklich passiert

Bitkom meldet für 2026, dass 41 Prozent der deutschen Unternehmen KI aktiv einsetzen — der Anteil hat sich seit 2024 etwa verdoppelt. Weitere 48 Prozent diskutieren den Einsatz konkret. So weit, so gut. Die KfW zeigt aber für den Mittelstand ein anderes Bild: 20 Prozent KI-Nutzung zwischen 2022 und 2024, bei Firmen mit mehr als 50 Beschäftigten 36 Prozent. Bei Coding-Agenten — also der Klasse, in die Devin und Claude Code fallen — sind wir am Anfang.

Und dann der Kostendruck. Eine Auswertung des Instituts der deutschen Wirtschaft (IW Köln) zeigt: 27 Prozent der Unternehmen schätzen Nutzen und Aufwand von KI als gleich hoch ein, bei knapp 16 Prozent übersteigt der Aufwand den Nutzen bereits. Auf gut Deutsch: ein Drittel des Marktes sagt „KI ist teurer als gedacht", fast jedes fünfte Unternehmen hat deswegen schon Stellen abgebaut. Wer jetzt unreflektiert die Cognition-Pressemitteilung als Roadmap nimmt, wird in dieser Statistik landen.

Die verbreitete Fehl-Lesart in den Newsfeeds heute lautet: „KI ersetzt Entwickler:innen". Das ist falsch.

Der ehrliche Befund: KI ersetzt eine bestimmte Ticket-Klasse — die mechanische, Multi-File-, „lieber-warten-als-stundenlang-tippen"-Arbeit. Dependency-Updates. Renames über 80 Aufrufstellen. Boilerplate-Tests. Diese Klasse macht in einem typischen Sprint vielleicht 30 Prozent aus.

Die anderen 70 Prozent — neue Endpunkte mit vier aufrufenden Services, der Flaky-Test, der in der dritten Woche in Folge rot ist, die Architektur-Entscheidung zwischen zwei Microservices — brauchen weiterhin eine Person mit Urteilsvermögen am Keyboard.

Die DACH-spezifische zweite Frage: DSGVO + Datenhoheit

Wo der US-Diskurs aufhört, fängt der deutsche Diskurs erst an. Heise, t3n und Golem haben Devin in den letzten Monaten als stark Cloud-zentrierten Agenten beschrieben: eigene Entwicklungsumgebung mit Shell, Editor und Browser in einer Cloud, die Devin selbstständig nutzt, um Informationen aus dem Internet nachzuladen.

Für den deutschen Mittelstand heißt das: welche deiner Code-Daten verlassen die EU? Quellcode, der Geschäftsgeheimnisse enthält. Konfigurationsdateien mit Endpunkten interner Systeme. Test-Daten, die personenbezogene Daten enthalten könnten. Logs.

Devin läuft in einer von Cognition betriebenen Cloud-Umgebung. Claude Code läuft als Client lokal auf der Maschine der Entwickler:in, die Verarbeitung der Modell-Anfragen passiert aber ebenfalls auf Anthropic-Servern. Beide Tools brauchen für eine produktive Nutzung in einer DSGVO-pflichtigen Firma eine Auftragsverarbeitungsvereinbarung (AVV) und eine klare Regelung zur Datenresidenz — am liebsten EU-Regionen.

Das ist kein Argument gegen die Tools. Es ist das DACH-spezifische Sortier-Kriterium, das in der US-Debatte schlicht nicht auftaucht.

Vier Ticket-Typen — und welcher Agent welchen erledigt

So sortierst du heute Nachmittag dein Sprint-Board.

Ticket 1 — Flaky-Test, der seit drei Wochen rot ist

  • Claude Code im Pair-Programming-Modus: Datei auf, Claude erzählt dir, was wackelt. Race Condition? Timing-Dependency? Du siehst es mit. Kosten: vielleicht 50 Cent von deinem Max-5x-Abo. 15-30 Minuten Wanduhr.
  • Devin autonom: GitHub-Issue an eine Devin-Session. Du gehst Kaffee holen. Devin instrumentiert den Test, findet die Quelle, öffnet einen PR. ACU-Verbrauch: 2-3. Kosten: 4,50-6,75 USD. 45 Minuten — aber du warst nicht da.

Sieger: Claude Code, sowohl beim Preis als auch beim Verständnis. Du lernst, woran der Test gewackelt hat. Beim nächsten Mal erkennst du es schneller.

Ticket 2 — Dependency-Upgrade über 30 Dateien

  • Claude Code: Upgrade-Befehl. Du fixt die Breakages von Hand. Stundenlang Babysitting.
  • Devin: Issue zuweisen, Mittag essen gehen, PR steht. ACU-Verbrauch: 15-25. Kosten: ~50 USD. Du hast etwas anderes gemacht.

Sieger: Devin, eindeutig. Das ist der Klassiker für „lieber-warten-als-sitzen". 50 USD für drei zurückgewonnene Senior-Stunden ist ein guter Deal.

Ticket 3 — Neuer Endpunkt mit vier Aufrufstellen

  • Claude Code: Hier solltest du sitzen. Endpunkt-Form, Auth, Error-Handling, vier Caller-Integrationen — das ist Architektur, keine Mechanik.
  • Devin: Devin entwirft den Endpunkt. Das Ergebnis funktioniert vermutlich. Aber: passt es zu eurer Service-Konvention? Praktiker berichten, dass agentische Tools gerne signalisieren „fertig", obwohl Teile noch fehlen oder Bugs lauern.

Sieger: Claude Code, mit Vorbehalt. Devin gewinnt nur, wenn euer Codebase so uniform ist, dass externe Konventionen passen. Bei den meisten 10-Personen-Mittelstand-Teams ist das (noch) nicht so.

Ticket 4 — Multi-File-Refactor (Signaturwechsel an 80 Aufrufstellen)

  • Claude Code: Schmerzhaft. Entweder Babysitting oder du nutzt ein deterministisches Refactoring-Tool und Claude räumt nur die Edge Cases auf.
  • Devin: Hand off. ACU: 30-50. Kosten: 70-115 USD. Wieder: du machst was anderes.

Sieger: Devin, wenn eure Testabdeckung ehrlich ist. Das Risiko: stille Regressionen an Aufrufstellen, deren Tests die geänderte Logik nicht erwischen. Devin kombinierst du am besten mit einem strikten CI-Gate.

Was das in Euro für ein DACH-Team mit zehn Entwickler:innen kostet

Eine typische Woche: 4 Flaky-Tests, 2 Dependency-Upgrades, 3 neue Endpunkte, 1 großer Refactor.

StrategieDevin-AusgabenClaude-Code-AusgabenGesamt pro MonatAnmerkung
Komplett Devin~200 USD/Woche pro Dev + 20 USD Sockel = ~820 USD/Dev × 10 = 8.200 USD~8.200 USDDie Pressemitteilungs-Lesart
Komplett Claude Code200 USD/Mo × 10 = 2.000 USD2.000 USDReines Abo, keine ACU-Spitzen
Hybrid (Devin für #2 + #4, Claude Code für #1 + #3)~300 USD/Mo pro Dev × 10 = 3.000 USD200 USD/Mo × 10 = 2.000 USD5.000 USDDer ehrliche DACH-Mittelweg
OpenHands + Claude Sonnet 4.5 API~6 USD/Tag × 22 Arbeitstage × 10 Devs = 1.320 USD1.320 USDDie budget-disziplinierte Variante

Bei aktuellem Wechselkurs sind 5.000 USD circa 4.600 EUR — etwa ein Drittel eines Junior-Gehalts pro Monat für die KI-Infrastruktur eines 10-Personen-Teams. Komplett-Devin (8.200 USD ≈ 7.600 EUR) ist die Lesart aus der Pressemitteilung. Hybrid ist die Lesart aus dem Sprint-Board.

Was das konkret für dich bedeutet

  • Wenn du ein 5-15-Personen-IT-Team führst: Hybrid. Devin für mechanische Multi-File-Tickets, Claude Code (Max 5x oder Max 20x) für Urteils-Tickets. Budget: ~5.000 USD/Mo.
  • Wenn du im Mittelstand mit 50+ Entwickler:innen sitzt: Die ACU-Rechnung wird bei großen Teams günstiger. Sprich mit Cognition über Enterprise-Konditionen — der 20-USD-Sockelpreis ist der Consumer-Tarif; ernsthafte Kunden verhandeln.
  • Wenn ihr in einer DSGVO-pflichtigen Branche arbeitet (Finanzen, Versicherung, Gesundheit, Behörden): Bevor irgendein Tool produktiv geht, frag nach AVV, Datenresidenz (EU-Region), Logging-Aufbewahrung. Cognition gewinnt Citi, Goldman Sachs und die US Army, weil ihre Compliance-Posture dafür gebaut ist — fragt für DACH explizit nach EU-Optionen.
  • Wenn du Solo-Entwickler:in oder Zwei-Personen-Team bist: Claude Code Pro oder Max 5x deckt 80 Prozent. ACU-Pricing rechnet sich für dich nicht.
  • Wenn euer Vorstand „kein Vendor-Lock-in" verlangt: OpenHands + Sonnet-4.5-API. Der 72%-SWE-Bench-Wert ist real, die Docker-Sandbox ist real, der Preis (~6 USD/Tag bei Heavy-Use) ist günstiger als jedes Abo. Die Kosten zahlst du am Wochenende — das Setup ist nicht trivial.

Was die Tools nicht ersetzen

Die ehrlichen Grenzen, bevor du den Stack umstellst:

  1. Kein Agent ersetzt das Code-Review. Dass 89 Prozent der PRs bei Cognition von Devin geöffnet werden, heißt nicht, dass elf Prozent unreviewt mergen. Es heißt, ein Mensch sitzt weiterhin an jedem davon. Bei euch auch.
  2. Die „Vor einem Jahr probiert, war Müll"-Erinnerung ist veraltet. Wer Devin im April 2025 gesehen hat, hat ein anderes Produkt gesehen. Re-Test vor Entscheidung.
  3. ACU-Verbrauch ist unvorhersehbar — bis du zwei Wochen Daten hast. Ein vermeintlich einfacher Bugfix kann 12 ACU verbrennen, weil eure Test-Suite langsam ist. Erfasse die ACUs pro Ticket für die ersten zehn Tickets, bevor du dem Budget vertraust.
  4. DSGVO ist kein Häkchen. Eine BAA oder AVV mit dem Anbieter reicht nicht, wenn euer Source-Code Personendaten enthält und Devin das mitlesen würde. Datenminimierung im Repo (Test-Fixtures statt echter Daten) ist der eigentliche Hebel.
  5. Devin ist (noch) kein Frontend-Agent. Die ehrlichen Praxis-Stacks setzen Devin für Backend- und Cloud-Tasks ein, Codex oder Claude Design für Frontend, Claude Code für die lokale Pair-Arbeit. Pixel-perfekte UI ist nicht Devins Stärke.

Fazit

Die Milliardenrunde ist die Schlagzeile. Die wirkliche Geschichte sind die vier Ticket-Typen oben — und im DACH-Markt die zusätzliche DSGVO-Frage, die der US-Diskurs nicht stellt. Für ein typisches Zehn-Personen-Team gewinnt Hybrid: bei den Kosten und beim Outcome. Reines Devin ist die Pressemitteilungs-Variante. Reines Claude Code lädt Dependency-Updates und Multi-File-Refactors auf die Senior-Schultern ab. OpenHands ist ein echtes Argument, wenn du das Setup-Wochenende mitbringst.

Wenn du den geführten Weg willst — wie du Claude Code in einen täglichen Team-Workflow einbettest (Sessions, Hooks, Agents, die Patterns, die im echten Codebase überleben) — findest du den strukturierten Einstieg in unserem Kurs „KI-Programmieren lernen".

Welcher der vier Ticket-Typen hat in eurem letzten Sprint die meiste Senior-Zeit gekostet — und was wäre der günstigste Stack, der dieses eine Ticket zuverlässig erledigt?

Quellen

Echte KI-Skills aufbauen

Schritt-für-Schritt-Kurse mit Quizzes und Zertifikaten für den Lebenslauf