OpenAI Codex auf dem Mac: 48 Stunden im Realitätstest

OpenAI hat am Donnerstagabend das größte Codex-Update seit dem Rebranding rausgehauen — ziemlich genau eine Stunde nach Anthropics Opus-4.7-Ankündigung. Das Timing war, na ja, offensichtlich. Was ausgeliefert wird, ist es auch: Codex Desktop kann ab sofort deinen Mac-Bildschirm sehen, Apps anklicken, in Fenster tippen und im Hintergrund weiterarbeiten, während du dich um etwas anderes kümmerst.

48 Stunden später haben Leute damit ihren Posteingang sortiert, Musik über die Music-App gestartet, Bug-Reproduktionen parallel laufen lassen und in einer viralen Demo eine Runde Slay the Spire 2 mit einem einzigen Prompt durchgespielt. Gleichzeitig: Auf Intel-Macs ist das Feature kaputt. In Deutschland, Österreich und der Schweiz ist Computer Use zum Launch gar nicht freigeschaltet. Und die Memory-Funktion bremst die App aus, sobald du sie aktivierst.

Hier ist, was wirklich funktioniert, was nicht, und ob sich die Installation dieses Wochenende überhaupt lohnt.

Was ist Codex Desktop eigentlich?

Kurzfassung: Codex ist OpenAIs Coding-Agent. Stell dir einen fähigeren Cousin von ChatGPT vor, der in einer Mac-App lebt, mit deinem Editor spricht, eigene Tests ausführt und seit dem 16. April jede andere App auf deinem Rechner mit einem eigenen Cursor bedienen kann.

Für die Profis: Wir reden von Version 26.415. Läuft auf macOS (Intel-Support ist neu dabei, hat aber Bugs), nutzt gpt-image-1.5 für die Bildgenerierung, bringt 90+ Plugins von Atlassian Rovo über Remotion bis Microsoft Suite mit — und eine Preview-Version von persistent Memory. Dazu kommt ein neuer Codex-Pro-Tarif für 100 Dollar im Monat mit der fünffachen Nutzungsgrenze vom 20-Dollar-Plus-Plan.

Der eine Satz, der für die meisten zählt: Codex kann jetzt deinen Computer bedienen. Nicht im Sinne von „wir haben einen Tool-Call wie einen Klick aussehen lassen". Ein echter Cursor auf deinem echten Bildschirm, der sich durch echte Apps klickt. Parallel zu dir. Ohne die Tastatur zu kapern.

So die Theorie. Die Praxis ist spannender.

Die EU-Lücke: Warum der Launch an dir vorbeigeht (vorerst)

Gleich vorweg, weil es für deutsche Leser die wichtigste Info ist: Computer Use ist im EWR, in Großbritannien und in der Schweiz zum Launch nicht freigeschaltet. OpenAI sagt „coming soon", nennt aber keinen Termin. Das heißt: Wer aus Deutschland, Österreich, Frankreich, Italien, Spanien, den Niederlanden oder der Schweiz einloggt, sieht das Feature gar nicht erst im Menü.

Auf X posten schon die ersten Workarounds mit ProtonVPN (Schritt 4: „VPN ausschalten, genießen"). Das ist — sagen wir mal — ein Terms-of-Service-Risiko, das du bewusst eingehen würdest. Wenn OpenAI merkt, dass dein ChatGPT-Account plötzlich aus der Schweiz spricht, während die Abrechnung aus Berlin läuft, landest du halt im Sperr-Bucket. Muss man abwägen.

Ehrlicher Tipp: Entweder du hast eh schon einen US-Account mit US-Zahlungsmethode (manche Enterprise-Kunden), oder du wartest. Die Freischaltung für EU/UK/CH wird kommen, wenn OpenAI das DSGVO-Gespräch mit seinen Anwälten durchhat.

Der Rest dieses Artikels geht davon aus, dass du das Feature testen kannst — ob du nun dieses Wochenende wartest oder einen Freund in New York anrufst, ist deine Sache.

Einrichtung (und das Berechtigungs-Gehampel)

Die Installation selbst ist schnell. Codex öffnen, Einstellungen, Computer Use, „Install". Dann zerrt dich macOS durch die übliche Choreografie: Sicherheitseinstellungen > Datenschutz > Bildschirmaufnahme > Codex aktivieren > App beenden und neu starten. Dann nochmal für Bedienungshilfen. Dann nochmal App-Neustart.

Ein Mac-Entwickler hat es auf X ausgesprochen, was viele dachten: Dieser Berechtigungs-Flow ist halt nicht das, was man 2026 noch als gute UX bezeichnen sollte. Nicht Codex’ Schuld — macOS zwingt jede App, die gucken und klicken will, durch dieses Multi-Screen-Drag-and-Drop-Ritual. OpenAI hat gemacht, was ging (die Onboarding-Screens sind hübscher als bei den meisten Apps), aber du klickst dich trotzdem durch fünf Panels, um eine Sache zu erlauben.

Danach kommt Schicht zwei: Codex fragt beim ersten Zugriff auf jede App, ob es reindarf. Du kannst „Immer erlauben" sagen für Apps, denen du vertraust. Du kannst die Whitelist eng halten — nur Safari und Keynote — oder die Schleusen komplett öffnen.

Zwei Dinge gehen trotzdem nie, egal wie viele Haken du setzt: Codex kann sich nicht selbst automatisieren (kein Durchschummeln durch eigene Approval-Prüfungen), und es darf keinen sudo-Prompt für dich bestätigen. Wenn das System nach deinem Admin-Passwort fragt, bleibt das dein Job.

5 Sachen, die Leute in 48 Stunden damit gemacht haben

Keine Demos, die OpenAI ausgesucht hat. Echte Aufgaben aus der ersten Wochenhälfte.

1. Mac-Mail-Inbox nach Thema und Priorität sortieren

Eine der frühesten Demos war von einer Wissenschaftlerin, die Codex bat, Mac Mail zu öffnen, alle Mails vom Vortag zu lesen und nach Thema und Dringlichkeit zu gruppieren. Es öffnete die App, scrollte durch die Threads und kam mit einer sauberen Zusammenfassung zurück — die Art Aufgabe, für die man normalerweise einen Assistenten einstellt.

Was hier anders ist als bei Claudes Computer Use oder Perplexitys Personal Computer: Codex bleibt im Hintergrund. Federico Viticci von MacStories nannte es „das beste [Computer-Use]-Feature, das ich je getestet habe" — unter anderem, weil es den macOS-Accessibility-Baum ausliest (das Gleiche nutzt VoiceOver), statt nur Screenshots zu machen und Klicks zu schätzen. Präziser. Und Mail muss nicht in den Vordergrund, du kannst parallel an deiner eigentlichen Arbeit weitermachen.

2. Parallel in Messages klicken lassen, während du E-Mails schreibst

Ein anderer User ließ Codex einen Screenshot vom aktuellen Chat machen, Messages öffnen und das Bild an einen Freund schicken. Nichts Weltbewegendes — aber der User schrieb auf derselben Maschine weiter eine Mail, während der Cursor sich durch Messages bewegt hat.

Das ist der „magische" Teil, der in den ersten Reaktionen immer wieder auftaucht. Zwei Cursor, zwei Agenten, ein Mac. Parallel, nicht seriell. Anthropics Claude Code hat einen Tag vorher (15. April) die Agent Teams gelauncht — ähnliche Idee, andere Umsetzung. Bei Codex fühlt es sich eher nach „Background-Job" an als nach „schau mir beim Arbeiten zu".

3. Mehrere Bug-Reproduktionen gleichzeitig laufen lassen

Ein Entwickler postete einen Workflow, der bei der Dev-Community gut ankam: drei Agenten, jeder reproduziert einen anderen Bug, alle laufen parallel, während er Mittag isst. Einer nutzt das Slack-Plugin, um Kontext aus einem Thread zu ziehen. Einer GitHub. Einer bedient direkt die App.

Die 90+ Plugins sind hier der Hebel. Jedes ist praktisch eine vorverdrahtete Anbindung an einen Dienst — Jira, Linear, Notion, GitHub, CircleCI, GitLab, Render, Remotion, Vercel, Microsoft Suite. Du richtest nicht für jeden OAuth ein, Codex erledigt das. OpenAIs Antwort auf das Claude-Skills-Ökosystem rund um obra/superpowers und ui-ux-pro-max. Beide Firmen kämpfen jetzt darum, wer den „Agent plus Ökosystem"-Stack besitzt.

4. iPhone spiegeln und Apps auf dem Handy fernbedienen

Das hat mich überrascht. Mit macOS’ iPhone Mirror-Feature klappt Codex’ Computer Use auch auf dem Handy. Ein User hat Codex durch eine iOS-App tippen lassen — per Mirror-Fenster. Funktioniert. Langsamer und etwas ungenauer als bei nativen Mac-Apps, aber es funktioniert.

Ist eine Automatisierungs-Kategorie, über die vor einer Woche noch niemand gesprochen hat. Wenn du was in einer iOS-only-App brauchst, die keine API hat, gibt’s jetzt einen Weg.

5. Eine Keynote aus einem Outline bauen, während du in einem Meeting bist

Keinen öffentlichen Demo dazu gesehen, aber der Use Case taucht immer wieder auf: Du gibst Codex eine Bullet-Point-Liste, zeigst auf Keynote, lässt es die Folien bauen, während du in einem Call sitzt. Die App öffnet sich, dein Text wird getippt, Templates werden gepickt, Bilder generiert gpt-image-1.5 dazu.

Hier hört Codex auf, ein reines Coding-Tool zu sein, und wird zum allgemeinen Mac-Assistenten. Was — um fair zu sein — genau die Positionierung von OpenAI ist: „Codex for (almost) everything".

Was nicht funktioniert (und wo es hakt)

Den Abschnitt lässt jede Launch-PR weg. Hier ist er.

Intel-Macs sind kaputt. OpenAI hat in diesem Release Intel-Support nachgeschoben — gute Nachricht für alle, die noch auf einem 2019er MacBook Pro sitzen. Aber ein japanischer User meldet, dass das eigentliche Computer-Use-Feature auf Intel gar nicht anspringt — „sollte laut Specs gehen, läuft aber nicht". Wenn du auf Apple Silicon bist, gut. Wenn nicht: auf 26.416 warten.

Memory bremst die App aus. Das Preview-Memory-Feature (das sich deine Präferenzen über Threads hinweg merken soll) verursacht spürbare Slowdowns. Ein User hat’s aktiviert, zugesehen, wie Codex im Schneckentempo lief, und wieder abgeschaltet. Die Befehle zum Rückgängigmachen hat er gepostet. Memory ist halt ein „einschalten, wenn die Produktionsversion da ist"-Feature.

Rate-Limits treffen auf dem 20-Dollar-Plus-Tarif hart. Schon vor Computer Use haben Leute das Plus-Limit regelmäßig überzogen. Jetzt, wo jede Aufgabe mehrere parallele Agenten und dutzende Bildschirm-Reads pro Minute bedeuten kann, ist die Beschwerde lauter. Der neue 100-Dollar-Codex-Pro-Tarif bringt die fünffachen Limits — aber wenn du den Sprung nicht machen willst, merkst du die Decke.

Asana hat nicht funktioniert. Ein User hat versucht, ein Asana-Projekt per Computer Use aufzusetzen. Codex hat sich lang damit beschäftigt. Und ist gescheitert. Er ist dann auf „mach mir ein CSV für den Import" umgestiegen, hatte das in unter einer Minute und das Projekt in fünf Minuten live. Lektion: Computer Use ist für Sachen, die sich nicht anders lösen lassen. Wenn es eine API oder einen Import-Pfad gibt, nimm den.

Coding-Tasks brechen weiterhin mittendrin ab. Ein Entwickler hat Codex gebeten, eine React-Komponente zu editieren, Tests zu fahren und zu committen. Zwei von drei Versuchen blieben im Test-Schritt hängen. Im Demo-Video sieht’s glatt aus, im Alltag holpert’s. Ist nicht Codex-spezifisch — jeder Agent macht das —, aber Computer Use löst es nicht.

Manchmal kapert es den Bildschirm. OpenAIs Pitch ist, dass Computer Use im Hintergrund läuft. Meistens tut es das auch. Aber ein User meldete, dass Codex seinen Mac effektiv übernommen hat — bis zu dem Punkt, dass er überlegt, sich einen dedizierten Rechner dafür zu holen. Hängt von der App ab.

Japanischer Input ist buggy. Ein User aus Japan berichtet, dass Computer Use japanischen Text nicht korrekt tippt. Arbeitest du in einer Nicht-Lateinschrift-Sprache — Kyrillisch, CJK, Arabisch — vorher testen.

Terminal und Codex selbst sind tabu. Du kannst Computer Use nicht den Terminal bedienen lassen (Security-Design — keine Sandbox-Bypässe über Umwege). Und Codex darf nicht Codex steuern. Ist eigentlich okay, das willst du auch nicht wirklich.

Codex vs Claude Code nach diesem Update

Vor dieser Woche war der Vergleich ungefähr: Codex ist günstiger pro Token und besser in Terminal-Benchmarks; Claude Code schreibt saubereren Code in Blind-Evaluations. Stimmt immer noch größtenteils.

Was sich geändert hat: Codex hat jetzt Computer Use und Parallel-Agenten und persistent Memory und 90+ Plugins in einer polierten Mac-App. Claude Code hat zwei Tage vorher Agent Teams gelauncht und hat Computer Use seit März. Die Feature-Parität ist ungefähr da, wo die Presse sie vorhergesagt hat. Was die Entscheidung interessanter macht, nicht einfacher.

Dimension	Codex Desktop (17. April)	Claude Code (aktuell)
Computer Use auf Mac	Ja — Hintergrund-Cursor, AX-Tree-Zugriff	Ja — Screenshot-basiert
Parallel-Agenten	Ja — mehrere Cursor gleichzeitig	Ja — via Agent Teams
Plugin/Skill-Ökosystem	90+ offizielle Plugins	Obra/superpowers, Community-Skills
Persistent Memory	Preview (aktuell buggy)	Ja — ausgereifter
macOS-Politur	Eigens gebaute Mac-App	Cross-Platform, läuft im Terminal
Bildgenerierung	Built-in (`gpt-image-1.5`)	Nein — externe Tools
Wert auf 20-Dollar-Tarif	Mehr Nutzung pro Dollar im Plus	Reicht für eine fokussierte Session
SWE-bench Pro	Ähnlich Claude Code	Ähnlich Codex
Terminal-Bench 2.0	Deutlicher Vorsprung	Leicht dahinter
Blind-Eval Code-Qualität	25 % bevorzugt	67 % bevorzugt
Verfügbarkeit	Mac zuerst, EU/UK/CH gesperrt	Überall

Die Kurzform: Bist du auf Mac und hängst an Apps ohne API, ist Codex diese Woche das bessere Werkzeug. Shippst du Production-Code, wo Review-Qualität wichtiger ist als Tempo, schreibt Claude Code immer noch den Code, den Entwickler in Blind-Tests bevorzugen.

Und du musst dich nicht entscheiden, übrigens. OpenAI hat am selben Tag ein offizielles codex-plugin-cc-Repo veröffentlicht, mit dem Claude-Code-User Aufgaben an Codex als Sub-Agent delegieren können. Der Feature-Parity-Krieg wird still zu Cross-Ecosystem-Plumbing.

Was das für dich bedeutet

Wenn du Solo-Entwickler auf dem Mac bist (und nicht im EWR sitzt): Du hast jetzt ein Tool, das dein Frontend über echte Apps testen kann (Chrome, Safari, dein Electron-Build), ohne dass du dafür ein Test-Suite bauen musst. Der 48-Stunden-Test ist den Samstagvormittag wahrscheinlich wert.

Wenn du Prosumer bist — Berater, Indie, Solo-Operator: Lass den Coding-Winkel komplett weg. Die E-Mail-, Messages-, Keynote- und Research-Workflows holen den 20-Dollar-Einsatz rein. Gib Codex Zugriff auf deinen Posteingang und Slack, reich ihm deinen Outline rüber, lass es entwerfen, während du im Call bist.

Wenn du auf ChatGPT Plus bist und überlegst, auf Pro umzusteigen: Bleib zwei Wochen auf Plus. Nutz, was da ist. Wenn du mehr als zweimal pro Tag ans Limit kommst, über Pro nachdenken. Wenn nicht, brauchst du Pro noch nicht.

Wenn du in Deutschland/EU sitzt, auf Intel-Mac arbeitest oder CJK-/Kyrillisch-Workflows baust: Warten. Der Launch hat OpenAI mit drei ziemlich rauhen Kanten erwischt — die werden glattgeschliffen. Das Feature verschwindet nicht.

Unterm Strich: Installieren (falls verfügbar), einen Nachmittag mit echten Aufgaben füttern, die zwei, drei Sachen finden, die es wirklich besser macht als du, und diese in die Woche einbauen. Den Hype ignorieren. Die „ersetzt deinen Job"-Takes ignorieren. Es wie das behandeln, was es ist: ein Junior-Assistent, der für dich in Apps rumklickt. Die Aufgaben, die Junior-Assistenten gut machen, sind die, die Codex gut macht.

Wer sollte dieses Wochenende installieren?

Kurz: Jeder auf Apple Silicon mit ChatGPT Plus oder Pro (und außerhalb des EWR), der mindestens einen wiederkehrenden Multi-App-Workflow hat, den er schon länger automatisieren wollte.

Länger:

Jetzt installieren wenn: Du bist auf macOS 14+, M1 oder neuer, hast einen US-Account (oder bist in den USA/Asien) und hast eine konkrete Aufgabe im Kopf.
Installieren, aber nicht gleich vertrauen wenn: Du hast die Hardware, aber keinen konkreten Workflow — die Demos werden dich beeindrucken, aber ROI kommt erst mit einer echten Aufgabe.
Eine Woche warten wenn: Du bist auf Intel, im EWR/UK/CH oder verlässt dich auf Memory.
Erstmal überspringen wenn: Du bist mit Claude Code glücklich und machst hauptsächlich Production-Code. Der Codex-Computer-Use-Vorteil ist real, aber schlägt heute nicht Claude Codes Qualitäts-Vorsprung bei reinem Coding.

Unterm Strich

Das hier ist das größte Codex-Update seit dem Rebranding, und es hat die „Agent-für-Prosumer"-Kategorie in 48 Stunden wahrscheinlich mehr nach vorn gebracht als die letzten sechs Monate zusammen. Es ist kein Claude-Code-Killer — beide haben jetzt dieselbe Feature-Liste, und die echten Unterschiede stecken in Politur und Urteilskraft. Aber wenn du auf dem Mac bist und dein Job Apps berührt, die keine sauberen APIs rausgeben, ist Codex Desktop das fähigste Ding, das du heute installieren kannst.

Die 90+ Plugins sind der versteckte Teil. Computer Use macht die Schlagzeilen der nächsten Woche. Aber das Plugin-Ökosystem — drei Agenten über Slack, Jira und deine Codebase in einem Workflow laufen lassen — ist das, was den Kleber in sechs Monaten liefert.

Geh es installieren (sobald EU-Freischaltung da ist). Einen Nachmittag investieren. Eine Aufgabe finden. Die automatisieren. In einem Monat zurückkommen und entscheiden, ob es seinen Platz verdient hat.