OpenAI Codex on Mac:48時間使って分かった、壊れてる場所

OpenAI Codex Desktop、Macアプリを自分で操作できるように。48時間試して分かった動くもの、動かないもの、Intel Macでのバグの話。

OpenAIが、リブランド後最大規模となるCodexのアップデートを木曜の午後に突然公開した。タイミングはAnthropicの「Opus 4.7」発表からちょうど1時間後。偶然の一致とは到底思えない。中身も同様だ。Codex Desktopがついに、Macの画面を認識し、アプリを操作し、ウィンドウに文字を入力できるようになった。しかも、ユーザーが別の作業をしている間も、バックグラウンドで動き続ける。

公開から48時間が経過した今では、すでに現場からの様々な活用事例が上がり始めている。メールの仕分け、Musicアプリでの曲再生、複数のバグを並列で再現するワークフロー、そして「プロンプト1つで『Slay the Spire 2』を1ラウンドプレイさせた」という話題のデモまで。一方で「Intel Macでは動作しない」という日本ユーザーからの報告も出ている。また、EU・英国・スイス地域では現時点で利用できない。さらに、Memory機能を有効にするとアプリの動作が著しく重くなる現象も確認されている。

この記事では、実際に何ができて何が制限されているのか、そして今週末にインストールする価値があるのかを整理していく。

Codex Desktopって何?

ざっくり言うと:CodexはOpenAIが開発するコーディングエージェントだ。ChatGPTをさらに強化した「有能な親戚」とでも言えばいいだろうか。Macアプリとして動作し、コードエディタと連携してテストを自動実行する。そして4月16日のアップデート以降は、独自のカーソルを画面に持ち、他のアプリの操作までこなせるようになった。

少し詳しく:バージョンは26.415。macOS専用で、Intel Mac向けサポートが追加されたものの現時点ではバグが多い。画像生成にはgpt-image-1.5モデルを採用。Atlassian RovoやRemotion、Microsoft Suiteなど、90以上のプラグインを標準で搭載し、永続メモリ機能のプレビュー版も収録されている。料金体系では月100ドルの「Codex Pro」プランが新設され、従来20ドルの「Plus」プランの5倍となるレート制限が適用される。

つまり、「CodexがあなたのMacを自由に操れるようになった」ということだ。単に「ツールコールを擬似的にクリックさせているだけ」という話ではない。実際のカーソルが実際の画面上を動き、実際のアプリを操作する。しかも並列で。ユーザーのキーボード操作を奪うこともない。

そういった位置づけだ。だが、実際の使い勝手はさらに興味深い。

日本のユーザーは要注意:いくつか動かない

導入に先立ち、まず最初に伝えておくことがある。

Intel Macでは動作しないという報告が、日本のユーザー(@sushiTakahashi)から上がっている。「仕様上は動くはずだが、何らかの障害が発生しているようだ」。OpenAIは今回のリリースでIntel Mac対応を謳っているものの、肝心のComputer Use機能だけが起動しない状態だ。Apple Silicon搭載機であれば問題なく動作する。Intel Macユーザーはバージョン26.416の修正を待つのが賢明だろう。

日本語入力にバグがあるという指摘も出ている。別の日本人ユーザー(@nyanco_pass)は「CodexのComputer Useで日本語入力が正常に機能しない」と報告。Computer Use経由での日本語テキスト入力に失敗するケースが確認されている。日本語でワークフローを構築する場合は、確定(コミット)前に必ず動作確認を行いたい。

EU・英国・スイスではローンチ時点で利用できない。日本からは問題なくアクセス可能なので、これは参考情報として捉えてほしい。逆に、欧州にサーバーを構えるチームは、当面は日本側の環境でテストを回す必要があるかもしれない。

ここからは、それ以外の詳細を見ていこう。

セットアップ(と、パーミッションの儀式)

インストール自体はあっという間だ。Codexを開き、設定から「Computer Use」を選択してインストールをクリックする。そこから待っていたのが、macOS独特の権限付与の儀式だ。システム設定 > プライバシーとセキュリティ > 画面収録 > Codexを有効化。一旦アプリを閉じて再起動。次にアクセシビリティ権限。またアプリを再起動する。

X(旧Twitter)上でMac開発者が本音を漏らしていた。この権限付与フローは2026年のUXとして——正直、褒められたものではない。ただし、責任をCodexに転嫁するのは適切ではない。macOS自体が「画面の表示・操作」を行うアプリに対して、このマルチウィンドウをまたぐドラッグ&ドロップ形式の儀式を強制しているからだ。OpenAIもオンボーディング画面などでできる限りの改善は図っている(他アプリと比較すればマシな方だ)。それでも、権限1つ授予するために5つの設定パネルを行き来する手間が変わるわけではない。

権限付与の第2段階として、初めてアクセスするアプリに対してCodexが「操作してもよろしいですか?」と確認を求めてくる。信頼できるアプリは「常に許可」で構わない。SafariとKeynoteのみを許可する厳格なホワイトリスト設定も可能だし、すべてのアプリを許可する設定も選べる。

ただし、権限を付与しても自動処理できないケースが2つある。1つはCodex自身の自動化だ(自己承認を防止するため)。もう1つはsudoプロンプトの承認だ。管理者パスワードの入力を求められた場合は、ユーザー自らキーボードから入力する必要がある。

みんなが48時間でやったこと、5つ

OpenAIが公式に選定したデモではない。ローンチから48時間で実際にユーザーが行ったタスクだ。

1. Mac Mailを優先度とトピック別に仕分ける

初期段階から話題となったのが、ある研究者の事例だ。Codexに「Mac Mailを開き、昨日以降のメールをすべて読み込んで、トピックと緊急度でグループ分けして」と指示した。Codexはアプリを起動し、スレッドをスクロールしながら処理し、見やすく整理されたサマリーを返してきた。普段であれば事務担当者に依頼するような作業だ。

ClaudeのComputer UseやPerplexityのPersonal Computerと大きく異なるのは、Codexがユーザーの作業を妨げない点だ。MacStoriesのFederico Vittici氏は「これまでテストした[Computer Use]機能の中で最高だ」と評価している。その理由の1つは、単なるスクリーンショットとクリック推定だけでなく、macOSのアクセシビリティツリー(VoiceOverが使用している構造データ)を直接読み込んでいるからだ。精度が高く、Mailアプリを最前面に出す必要もない。つまり、普段の作業を続けながら裏側でタスクを回せるのだ。

2. メールを書きながら、並行でMessagesを操作させる

あるユーザーが試していたのは、現在のチャット画面をスクリーンショットさせてMessagesを開き、友人へ送信するというワークフローだ。地味だが、ユーザーが同じMac上で別のメールを書き続けている間、カーソルはMessages内で勝手に動き回り送信処理を進めていた。

これが初期の反応で繰り返し「マジックだ」と称賛される理由だ。カーソル2つ、エージェント2つ、Mac 1台。直列処理ではなく並列実行だ。AnthropicのClaude Codeも1日前(4月15日)に「Agent Teams」機能を公開している——似た発想だが実装は異なる。Codexの実態は「見守るアシスタント」ではなく、「バックグラウンドで動くジョブ」に近い感覚だ。

3. 複数のバグ再現を同時進行で走らせる

ある開発者が投稿したワークフローが大きな話題を呼んだ。3つのエージェントで3つの異なるバグを同時に再現するというものだ。すべて並列で実行され、昼食を食べている間に完了する。1つはSlackプラグインを使ってスレッドからコンテキストを取得し、もう1つはGitHubを参照し、3つ目は実際にアプリを操作してデバッグを進める。

ここで活きてくるのが、90以上のプラグインだ。それぞれJira、Linear、Notion、GitHub、CircleCI、GitLab、Render、Remotion、Vercel、Microsoft Suiteといったサービスに事前接続されている。毎回OAuth認証を設定する必要はなく、Codexが裏側で処理してくれる。これは、obra/superpowersやui-ux-pro-maxといったClaude Skillsエコシステムに対するOpenAIの回答だ。両社が「エージェント+エコシステム」の主導権を巡って、本気で競り合い始めているのだ。

4. iPhoneをミラーリングして、スマホのアプリを操作させる

驚くべきは、macOSの「iPhoneミラーリング」機能と連携できる点だ。ミラーリングを有効にすれば、CodexのComputer UseはそのままiPhoneの画面まで届く。あるユーザーはミラー画面経由でCodexにiOSアプリの操作をさせていた。動作はネイティブなMacアプリより遅く、精度も多少落ちるが、確かに動く。

1週間前まではほとんど語られていなかった自動化のカテゴリーだ。APIが存在しないiOS専用アプリで何かを実現したい場合、今や確実な経路が用意された。

5. ミーティング中に、アウトラインからKeynoteを作らせる

公式デモでは紹介されていなかったが、裏側で頻繁に報告されているユースケースだ。箇条書きのアウトラインを渡してKeynoteを指定し、ミーティングに入る。するとCodexが勝手にスライドを構成してくれる。アプリを起動し、テキストを入力し、テンプレートを適用し、gpt-image-1.5で生成した画像を差し込むまでを一任できる。

ここでCodexは単なるコーディングツールから脱し、汎用的なMacアシスタントへと進化している。正直、OpenAIの発表文にある「Codex for (almost) everything」をそのまま体現している。

動かないこと(と、ハマる場所)

各社のローンチ記事が避けがちな、ネガティブな側面だ。ここには正直に書く。

Intel Macは動作しない。前述の通り、@sushiTakahashiの報告どおりだ。Apple Silicon搭載機であれば問題ない。そうでない場合は修正を待とう。

Memory機能を有効にすると動作が重くなる。スレッドを跨いでユーザーの好みを学習するプレビュー版のMemory機能をオンにすると、動作が著しく低下する。あるユーザーが試したところCodexのレスポンスが極端に遅くなったため、すぐに無効化し、その解除方法を投稿していた。Memory機能は「正式版リリース後にオンにする」ものだ。今すぐ有効にする必要はない。

20ドルのPlusプランではレート制限にすぐに引っかかる。Computer Use以前からCodex Plusの制限は議論を呼んでいたが、今や1つのタスクが複数の並列エージェントと、分あたり数十回の画面読み取り処理を含む可能性がある。不満の声はさらに大きくなっている。新設された100ドルのCodex Proプランは5倍のレート制限を提供するが、20ドルの価格帯を維持したいユーザーはすぐに上限に達してしまうだろう。

Asanaの操作では失敗した。あるユーザーがComputer Use経由でAsanaのプロジェクトセットアップを試みたが、処理がループして失敗に終わった。代わりに「Asanaインポート用のCSVを作成して」と指示したところ、1分でCSVが生成され、5分でプロジェクトが完成した。教訓:Computer Useは「他に手段がない場合」の最後の砦だ。APIやインポート機能が用意されているなら、そちらを優先すべきだ。

コーディングタスクでも処理が中断される。ある開発者がCodexにReactコンポーネントの編集、テスト実行、コミットを依頼したところ、3回中2回がテスト実行フェーズで停止した。デモでは滑らかに見えても、日常使いではまだ荒削りだ。これはCodex固有の問題というより、現時点のエージェント全体に言える傾向だが、Computer Use機能ではこの問題を補完できない。

稀に画面を占有する。OpenAIは「Computer Useはバックグラウンドで動作する」と説明している。大半の場合はその通りだが、あるユーザーはCodexの操作でMacの画面がほぼ占領され、「Codex専用に別のMacを買おうか迷った」と投稿していた。アプリやタスクの内容によるだろう。

TerminalとCodex自身は操作できない。セキュリティ上の理由(サンドボックスから外部に抜けられないよう設計されているため)で、TerminalはComputer Useの対象外だ。Codex自身を操作することもできないが、そちらはそもそも自動化する必要がないだろう。

Codex vs Claude Code、アップデート後の比較

今週以前の比較はこうだ。Codexはトークン単価が安価で、ターミナル関連のベンチマークで高いスコアを出していた。一方Claude Codeはブラインドテストにおいて、よりクリーンなコードを生成する傾向があった。現時点でも、だいたいこの評価は変わっていない。

変わったのは、CodexにComputer Use、並列エージェント、永続メモリ、90以上のプラグインが洗練されたMacアプリに統合された点だ。Claude Codeも2日前にAgent Teamsを公開しており、Computer Use機能は3月から搭載済み。機能面での差(パリティ)は、メディアが予想していた水準に達した。どちらを選ぶべきかの判断が楽になったわけではなく、むしろ選択肢を楽しむ段階に入ったと言える。

項目Codex Desktop(4月17日)Claude Code(現行)
MacでのComputer Useあり——バックグラウンドカーソル、AX Tree利用あり——スクリーンショットベース
並列エージェントあり——複数カーソル同時あり——Agent Teams経由
プラグイン/スキルエコシステム公式90以上obra/superpowers、コミュニティスキル
永続メモリプレビュー(今はバグあり)あり——成熟している
macOSの完成度専用Macアプリクロスプラットフォーム、ターミナル上
画像生成内蔵(gpt-image-1.5なし——外部ツールに委ねる
20ドル帯のコスパPlusで1ドルあたりの使用量が多い1回の深いセッションで使い切る
SWE-bench ProClaude Codeと同水準Codexと同水準
Terminal-Bench 2.0明確なリードやや劣る
ブラインド評価のコード品質25%で選ばれる67%で選ばれる
可用性Mac先行、EU/UK/CH未対応どこでも

短く言えばこうだ。Mac上でAPIを持たないアプリと連携して作業するなら、現時点ではCodexの方が適している。プロダクションコードを生成しており、レビュー品質がスピードより優先されるなら、Claude Codeの方が「どっちが書いたか分からない状態で選べば、間違いなく選ばれる」クオリティのコードを出してくれる。

ちなみに、どちらか片方だけを選ぶ必要はない。OpenAIは同日にcodex-plugin-ccという公式リポジトリも公開している。Claude Codeのセッション内でCodexをサブエージェントとしてタスクを投げられる仕組みだ。機能の奪い合いは、静かにクロスエコシステム間の連携インフラ構築へとシフトしている。

読者別、これが何を意味するか

Macの個人開発者にとって:テストハーネスを自作しなくても、フロントエンドをChrome、Safari、自作のElectronビルドで横断的にテストできるツールが手に入った。48時間の「とりあえず入れて触ってみる」検証は、土曜の午前に時間を割く価値が十分にあるだろう。

プロシューマー、コンサル、インディークリエイター、個人事業主にとって:まずはコーディングの話題は脇に置こう。メール、Messages、Keynote、リサーチ系のワークフローで、月20ドルのコストは余裕で回収できる。CodexにSlackと受信箱の権限を与え、アウトラインを渡すだけで、ミーティング中にドラフトが完成する。

ChatGPT Plusユーザーで、Proへのアップグレードに迷っている場合:まずは2週間、Plusプランのまま使い倒そう。1日に2回以上レート制限に引っかかるようなら、その時点でProの検討に入ればいい。そうでなければ、現時点では不要だ。

Intel Mac、EU/UK/CH在住者、または日本語ワークフローが中心の場合:今は待とう。今回のローンチでは3つの荒削りな課題が表面化した。いずれ修正され磨かれるが、機能そのものが消えるわけではない。

結論:(環境が許すなら)インストールし、半日かけて実タスクを投げてみよう。Codexが自分より明らかに上手くこなしてくれるタスクを2〜3個見つけ、それを毎週のルーチンに組み込めばいい。 hype(話題性)は無視し、「仕事が奪われる」的な過剰反応にも乗っ取られないこと。これは何なのかと言えば、アプリ内部を自動でクリックしてくれる「ジュニアアシスタント」だ。ジュニアアシスタントが得意とする単純作業は、Codexも得意とする。

この週末、インストールすべきなのは誰?

短く:Apple Silicon Macを持ち、ChatGPT PlusかProプランを契約しており、「自動化したかったが後回しにしていた」複数アプリをまたぐワークフローが少なくとも1つある人。

詳しく

  • 今すぐ入れる:macOS 14以降(M1以降のApple Silicon)。具体的なタスクが頭に浮かんでいる人(メールの仕分け、フロントエンドの横断テスト、リサーチ作業の統合、アウトラインからのKeynoteスライド作成など)。
  • 入れるが、まだ完全には信頼しない:ハードウェアは問題ないが、具体的なワークフローがまだ定まっていない人。デモには感動するが、ROI(投資対効果)が実感できるのは、実際にタスクを流してみれてからだ。
  • 1週間待つ:Intel Mac、EU/UK/CH在住者、Memory機能に大きく依存する予定の人。日本語入力バグが業務に直接響く可能性があるからだ。
  • 今はスキップ:Claude Codeで満足しており、業務の大半がプロダクションコードの生成である人。Codexのコンピュータ操作優位性は確かに本物だが、純粋なコーディング品質においてClaude Codeの優位性を、現時点では上回ることはない。

結論

リブランド以降、最大規模となるCodexのアップデートだ。起動から48時間で、「プロシューマー向けエージェント」というカテゴリを、過去6ヶ月分の進化を凌駕する段階まで押し上げた可能性がある。Claude Codeを倒す「キラーアプリ」ではない。両者とも同じ機能リストを持ち、本当の違いは生成物の仕上がりや判断基準にある。しかし、Macで業務をこなしており、クリーンなAPIを提供しないアプリと連携する必要があるなら、Codex Desktopは現時点でインストール可能なツールの中で最も有能な選択肢だろう。

90以上のプラグインが徐々に効果を発揮していく部分にも注目だ。Computer Use機能は今週のヘッドラインを独占するだろう。だが、実際に6ヶ月後に残るのは、プラグインエコシステムだ。SlackやJira、自社コードベースを跨いで3つのエージェントを1つのワークフローで回す仕組みこそが、次のステージを支える基盤になる。

インストールして(EU対応が来るのを待って)、半日ほど触ってみて、自動化したいタスクを1つ見つけ、実行してみよう。そして1ヶ月後に「本当に必要だったか」を自問すればいい。それで十分だ。

ソース

Build Real AI Skills

Step-by-step courses with quizzes and certificates for your resume