OpenAI Codex on Mac:48時間使って分かった、壊れてる場所

OpenAI Codex Desktop、Macアプリを自分で操作できるように。48時間試して分かった動くもの、動かないもの、Intel Macでのバグの話。

OpenAIがリブランド以来最大となるCodexのアップデートを、木曜日の午後にいきなり出してきた。タイミングとしては、AnthropicのOpus 4.7発表のちょうど1時間後。偶然では、ないですよね。内容も偶然ではない。Codex Desktopが、Mac画面を見て、アプリをクリックして、ウィンドウに文字を打ち込めるようになった。しかも、あなたが別のことをしている間、バックグラウンドで動き続ける。

48時間経った今、すでに色々な使い方が報告されている。メールの仕分け、Musicアプリでの曲再生、並列でのバグ再現、そして「プロンプト1つでSlay the Spire 2を1ラウンド遊ばせた」というバズったデモまで。一方で、Intel Macでは動かないという日本のユーザーからの報告が出ている。EU・英国・スイスでは今のところ使えない。Memoryをオンにするとアプリの動作がガクッと遅くなる。

この記事では、何が実際に動いて、何がダメで、週末にインストールする価値があるのかを見ていきます。

Codex Desktopって何?

ざっくり:CodexはOpenAIのコーディングエージェントです。ChatGPTのより有能な従兄弟のような存在で、Macアプリの中に住み、あなたのエディタと会話し、自分でテストを走らせる。そして4月16日から、自分のカーソルを持って他のアプリも操作できるようになった。

ちょっと詳しく:バージョン26.415。macOS向け(Intel対応は新しく追加されたけどバグあり)。画像生成にはgpt-image-1.5モデルを使う。Atlassian Rovo、Remotion、Microsoft Suiteなど90以上のプラグインが付属。永続メモリのプレビュー版も搭載。そして月100ドルの新しいCodex Proプランが追加され、20ドルPlusプランの5倍のレート制限になる。

要は「Codexがあなたのコンピュータを使えるようになった」ということ。「ツールコールをクリックっぽく見せました」という話じゃない。実際のカーソルが、実際の画面上で、実際のアプリの中を動く。しかも並行で。キーボードを奪うこともなく。

そういうピッチ。でも実態はもうちょっと面白い。

日本のユーザーは要注意:いくつか動かない

まず先に伝えておきます。

Intel Macで動かないという報告が、日本のユーザー(@sushiTakahashi)から上がっている。「仕様としては使えるはずらしいが、何らかの不具合」。OpenAIはこのリリースでIntel対応を謳っているけど、肝心のComputer Useだけが立ち上がらない。Apple Siliconなら問題なし。そうでなければ26.416を待つのが賢明。

日本語入力にバグがある。別の日本人ユーザー(@nyanco_pass)が「codexのcomputer use、日本語入力に問題がある」と投稿している。Computer Useで日本語のテキストを正しく打ち込めないケースがある模様。日本語でワークフローを組む場合は、コミット前に必ず動作確認を。

EU・英国・スイスではローンチ時点で使えない。日本からは普通にアクセスできるので、これは参考情報。逆に言えば、ヨーロッパにサーバーを置いてるチームは、しばらくは日本サイドでテスト回すことになるかもしれない。

じゃあ、それ以外の部分を見ていきましょう。

セットアップ(と、パーミッションの儀式)

インストール自体は早い。Codexを開いて、設定 → Computer Use → インストール。そこからmacOSのいつものダンスに巻き込まれる。システム設定 > プライバシーとセキュリティ > 画面収録 > Codexを有効化 > アプリを終了して再起動。次にアクセシビリティ。次にまたアプリ再起動。

Macの開発者がX上で本音を言っていた。このパーミッションフローは2026年のUXとしては——まあ、褒められたものじゃない。Codexのせいじゃない。macOSが「見る・クリックする」系のアプリ全部にこのマルチスクリーンのドラッグ&ドロップ儀式を強制している。OpenAIはできる範囲のことはやっている(オンボーディング画面は他のアプリよりはマシ)。でも、1つの権限を与えるために5枚のパネルをクリックして回ることは変わらない。

パーミッションの第2層:初めて使うアプリには、Codexが「使っていいですか?」と聞いてくる。信頼できるアプリは「常に許可」でOK。SafariとKeynoteだけのタイトなホワイトリストにも、全部オープンにもできる。

チェックを入れてもできないことが2つある。Codex自身を自動化することはできない(自分自身のapprovalを勝手に通させないため)。sudoプロンプトを承認してあげることもできない。admin パスワードを求められたら、それは自分で打つ。

みんなが48時間でやったこと、5つ

OpenAIが選んだデモじゃない。ローンチから48時間のリアルなタスク。

1. Mac Mailを優先度とトピック別に仕分ける

最初期のデモの1つが、研究者の人。Codexに「Mac Mailを開いて、昨日からのメール全部読んで、トピックと緊急度でグループ分けして」と頼んだ。Codexはアプリを開き、スレッドをスクロールして、きれいなサマリーを返してきた。普段なら秘書にお願いするようなタスク。

ClaudeのComputer UseやPerplexityのPersonal Computerと違うのは、Codexが邪魔をしないこと。MacStoriesのFederico Vitticiは「これまでテストした[Computer Use]機能の中で最高」と評した。理由のひとつは、スクリーンショットとクリック推定だけじゃなく、macOSのaccessibility tree(VoiceOverが使っているやつ)を読んでいるから。より精確。そしてMailを前面に出す必要がない。つまり、本来の作業を続けながらでも動かせる。

2. メールを書きながら、並行でMessagesを操作させる

別のユーザーがやっていたのは、今のチャットをスクリーンショットさせて、Messagesを開いて、友達に送信させる、というフロー。地味だけど、ユーザーは同じMacで別のメールを書き続けている間、カーソルがMessages内で勝手に動いていた。

これが初期リアクションで繰り返し出てくる「マジカル」な部分。カーソル2つ、エージェント2つ、Mac 1台。直列じゃなくて、並列。AnthropicのClaude Codeは1日前(4月15日)にAgent Teamsを出した——似た発想、違う実装。Codexの感覚は「見守る」じゃなくて「バックグラウンドジョブ」に近い。

3. 複数のバグ再現を同時進行で走らせる

ある開発者が投稿したワークフローがバズった。3つのエージェントで3つの別々のバグを再現する。全部並行。昼ご飯食べてる間に。1つはSlackプラグインでスレッドからコンテキストを取ってくる。もう1つはGitHub。3つ目は実際にアプリを操作する。

90以上のプラグインがここで効いてくる。それぞれが事前配線されたサービスへの接続——Jira、Linear、Notion、GitHub、CircleCI、GitLab、Render、Remotion、Vercel、Microsoft Suite。毎回OAuthを設定する必要はない。Codexが処理してくれる。obra/superpowersやui-ux-pro-maxのClaude Skillsエコシステムに対する、OpenAIの答え。両社が「エージェント+エコシステム」スタックの主導権をかけて、本気でぶつかり始めている。

4. iPhoneをミラーリングして、スマホのアプリを操作させる

これは驚いた。macOSのiPhone Mirror機能がオンなら、CodexのComputer UseがそのままiPhoneまで届く。あるユーザーは、ミラー画面経由でCodexにiOSアプリをタップさせていた。動く。ネイティブのMacアプリより遅いし、精度も落ちる。でも動く。

1週間前は誰も話してなかった自動化カテゴリ。APIのないiOSオンリーのアプリで何かやりたいとき、今や経路がある。

5. ミーティング中に、アウトラインからKeynoteを作らせる

公開デモでは見てない。でも、裏で何度も出てくるユースケース:箇条書きのアウトラインを渡す。Keynoteを指定する。ミーティングに入る。Codexが勝手にデッキを組む。アプリを開き、テキストを打ち込み、テンプレートを選び、gpt-image-1.5で生成した画像を差し込んでくれる。

ここでCodexは単なるコーディングツールじゃなくなり、汎用的なMacアシスタントに変わる。正直、OpenAIの発表文の「Codex for (almost) everything」そのもの。

動かないこと(と、ハマる場所)

各社のローンチ記事が避ける段落。ここに書きます。

Intel Macは壊れている。前述の通り、@sushiTakahashiの報告どおり。Apple Siliconなら大丈夫。そうじゃないなら待つ。

Memoryをオンにするとアプリが遅くなる。プレビュー版のMemory機能(スレッドを跨いで好みを覚える機能)を有効にすると、目に見えて動作が遅くなる。あるユーザーが試して、Codexの動きが這うように遅くなったので元に戻し、元に戻すためのコマンドを投稿していた。Memoryは「正式版が出たらオンにする」機能。今じゃない。

20ドルのPlusプランはレート制限にすぐ刺さる。Computer Use以前からCodex Plusの制限は熱い話題だった。今や1つのタスクが複数の並列エージェントと、分あたり数十回の画面読み取りを含む可能性がある。不満はさらに大きい。新しい100ドルのCodex Proプランは5倍のレート制限を出す——でも20ドルを維持したいなら、天井に当たる。

Asanaはダメだった。あるユーザーがComputer Use経由でAsanaのプロジェクトをセットアップしようとした。グルグル回った。失敗した。彼は「Asanaインポート用のCSVを作って」に切り替えて、1分以内にCSVができ、5分以内にプロジェクトが立ち上がった。学び:Computer Useは「他の方法がない」タスク用。APIやインポートパスがあるなら、そっちを使う。

コーディングタスクは今も途中で壊れる。ある開発者がCodexにReactコンポーネントを編集して、テストを走らせて、コミットしろと頼んだ。3回中2回がテストのステップで止まった。デモは滑らかでも、日常使いはガタつく。Codex固有じゃなくて、どのエージェントもこうなる。でもComputer Useが解決はしてくれない。

たまに画面を占拠する。OpenAIのピッチは「Computer Useはバックグラウンドで動く」。ほとんどの場合、そう。でもあるユーザーはCodexにMacをほぼ乗っ取られ、「Codex用に別の1台買おうかな」と投稿していた。アプリによる。

Terminalと、Codex自身は対象外。Computer UseでTerminalは動かせない(セキュリティ設計——横道経由でサンドボックスを抜けられないように)。Codex自身を操作することもできない。まあ、そっちは必要ない。

Codex vs Claude Code、アップデート後の比較

今週以前の比較はこうだった:Codexはトークン単価が安くて、ターミナル系ベンチマークで強い。Claude Codeはブラインド評価でよりクリーンなコードを書く。今もだいたいその通り。

変わったこと:CodexにComputer Useと並列エージェントと永続メモリと90以上のプラグインが、洗練されたMacアプリに全部入った。Claude Codeはその2日前にAgent Teamsを出していて、Computer Useは3月から持っている。機能パリティは、プレス予想どおりのラインに到達。意思決定は楽になったんじゃなく、面白くなった。

項目Codex Desktop(4月17日)Claude Code(現行)
MacでのComputer Useあり——バックグラウンドカーソル、AX Tree利用あり——スクリーンショットベース
並列エージェントあり——複数カーソル同時あり——Agent Teams経由
プラグイン/スキルエコシステム公式90以上obra/superpowers、コミュニティスキル
永続メモリプレビュー(今はバグあり)あり——成熟している
macOSの完成度専用Macアプリクロスプラットフォーム、ターミナル上
画像生成内蔵(gpt-image-1.5なし——外部ツールに委ねる
20ドル帯のコスパPlusで1ドルあたりの使用量が多い1回の深いセッションで使い切る
SWE-bench ProClaude Codeと同水準Codexと同水準
Terminal-Bench 2.0明確なリードやや劣る
ブラインド評価のコード品質25%で選ばれる67%で選ばれる
可用性Mac先行、EU/UK/CH未対応どこでも

短く言えば:Macで、APIのないアプリを相手に仕事してるなら、今週時点でCodexの方が良い道具。プロダクションコードを出していて、レビュー品質がスピードより大事なら、Claude Codeの方が「どっちが書いたか分からない状態で選ぶと選ばれる」コードを書く。

ちなみに、どちらか片方を選ぶ必要はない。OpenAIが同日にcodex-plugin-ccという公式リポジトリも出した。Claude CodeユーザーがセッションからCodexにサブエージェントとしてタスクを振れる。機能争奪戦は静かにクロスエコシステムの配管工事に変わっている。

読者別、これが何を意味するか

Macの個人開発者の場合:テストハーネスを自分で組まなくても、フロントエンドをChrome、Safari、自作のElectronビルドで横断的にテストできる道具が手に入った。48時間の「まず入れて触ってみる」検証は、土曜の午前中をかける価値が多分ある。

プロシューマー、コンサル、インディー、個人事業主の場合:コーディングの切り口はいったん忘れる。メール、Messages、Keynote、リサーチ系のワークフローで、20ドルの月額は余裕で元が取れる。CodexにSlackと受信箱のアクセスを与え、アウトラインを渡し、ミーティング中にドラフトさせる。

ChatGPT Plusユーザーで、Proへのアップグレードを迷っている場合:2週間Plusのまま。今あるものを使い倒す。1日に2回以上レート制限に当たるようならPro検討。そうじゃないなら、今はいらない。

Intel Mac、またはEU/UK/CH、または日本語ワークフローが中心の場合:待つ。ローンチは3つの荒いエッジを露呈した。磨かれる。機能は消えない。

結論:(使える環境なら)インストールして、半日かけて実タスクを投げる。Codexが自分より明らかに上手くやる2〜3個を見つける。それを毎週のルーチンに組み込む。ハイプは無視。「仕事が奪われる」系の熱狂も無視。これは何かというと——アプリの中をクリックして回ってくれる、ジュニアアシスタント。ジュニアアシスタントが得意な仕事は、Codexも得意。

この週末、インストールすべきなのは誰?

短く:Apple Silicon Macで、ChatGPT PlusかProを持っていて、「自動化したかったけど後回しにしていた」複数アプリのワークフローが少なくとも1つある人。

長く:

  • 今すぐ入れる:macOS 14+、M1以降、Apple Silicon。具体的なタスクが頭にある(メールの仕分け、フロントエンドテスト、リサーチ統合、アウトラインからのKeynote組み立て)。
  • 入れるけど、まだ全幅の信頼は置かない:ハードは揃ってるけど、具体的なワークフローはまだ決まっていない。デモには感動するけど、ROIは実タスクがあって初めて出てくる。
  • 1週間待つ:Intel、EU/UK/CH、Memory機能に依存するつもり。日本語入力バグが業務に直結する。
  • 今はスキップ:Claude Codeで満足していて、仕事の大半がプロダクションコード。Codexのコンピュータ操作の優位は本物だけど、純粋なコーディングでのClaude Codeの品質優位を、今日時点では上回らない。

結論

リブランド以降で最大のCodexアップデート。48時間で、「プロシューマー向けエージェント」カテゴリを、過去6ヶ月の合計より前に進めた可能性がある。Claude Codeキラーではない——両ツールとも同じ機能リストを持ち、本当の違いは仕上がりと判断にある。でもMacで仕事していて、クリーンなAPIを提供しないアプリを扱うなら、Codex Desktopは今日インストールできるツールの中で最も有能な選択肢。

90以上のプラグインがジワジワ効いてくる部分。Computer Useは来週のヘッドラインを持っていく。でも、プラグインエコシステム——Slack、Jira、自分のコードベースを跨いで3エージェントを1ワークフローで走らせる——こそが、6ヶ月後に残るもの。

インストールして(EU対応が来たら)、半日触ってみて、1つタスクを見つけて、それを自動化して、1ヶ月後に「本当に必要か」を自問する。それでOK。

ソース

Build Real AI Skills

Step-by-step courses with quizzes and certificates for your resume