OpenAI Codex Mac 데스크톱: 48시간 써보고 깨진 것들

OpenAI가 목요일 오후에 리브랜딩 이후 가장 큰 Codex 업데이트를 터뜨렸다. 타이밍이 공교롭게도 Anthropic의 Opus 4.7 발표 정확히 1시간 후였다. 우연은 아니다. 탑재된 기능도 우연이 아니다. Codex Desktop이 이제 Mac 화면을 보고, 앱을 클릭하고, 창에 타이핑하고, 사용자가 다른 일을 하는 동안 백그라운드에서 계속 작업을 이어간다.

48시간이 지난 지금, 사람들은 이미 이걸로 메일함을 정리했고, Music 앱에서 곡을 재생시켰고, 버그 재현을 병렬로 돌렸고, 단일 프롬프트로 Slay the Spire 2를 한 판 플레이시킨 바이럴 데모까지 찍었다. 동시에: Intel Mac에서는 작동하지 않고, EU·영국·스위스에서는 아예 막혀 있고, 메모리 기능을 켜면 앱이 거의 기어다닌다.

이 글은 실제로 뭐가 되고, 뭐가 안 되고, 이번 주말에 설치해야 하는지를 판단하기 위한 글이다.

Codex Desktop이 정확히 뭔데?

짧게: Codex는 OpenAI의 코딩 에이전트다. ChatGPT의 더 유능한 사촌이라고 생각하면 된다. Mac 앱 안에 살면서, 에디터와 대화하고, 자체 테스트를 실행하고, 이제는 4월 16일부로 자기만의 커서로 다른 앱도 조작한다.

좀 더 자세히: 버전 26.415. macOS 전용 (Intel 지원은 이번에 추가됐지만 버그 있음). 이미지 생성에는 gpt-image-1.5 모델 사용. Atlassian Rovo부터 Remotion, Microsoft Suite까지 90개 이상의 플러그인 탑재. 영구 메모리 프리뷰 버전 포함. 월 100달러짜리 새로운 Codex Pro 티어 출시 — 20달러 Plus 플랜 대비 5배 사용량.

대부분의 독자에게 중요한 한 줄: Codex가 이제 네 컴퓨터를 사용할 수 있다. “우리가 tool call을 클릭처럼 보이게 만들었어요” 수준의 이야기가 아니다. 실제 화면 위에서 실제 커서가 실제 앱 사이를 움직인다. 사용자와 병렬로. 키보드를 뺏지 않고.

그게 OpenAI의 피치다. 실제는 좀 더 흥미롭다.

한국 개발자 입장에서 먼저 체크할 것들

Intel Mac에서 주요 기능이 안 돌아간다. 일본 사용자가 올린 리포트에 따르면 “스펙상 돌아가야 하는데 어떤 버그가 있어서” Computer Use가 아예 켜지지 않는다. Apple Silicon이면 문제없음. 그게 아니면 26.416 패치를 기다리는 게 낫다.

EU·영국·스위스 접속은 막혀 있다. 한국에서는 정상 접속 가능하므로 로컬 이슈는 없다. 오히려 유럽 쪽 팀과 협업 중이라면 한국/일본 타임존에서 먼저 테스트를 돌리는 식으로 역할 분담이 가능하다.

$20 Plus 요금제 레이트 리밋이 훨씬 빨리 터진다. Computer Use 이전에도 빡빡했다. 이제 한 태스크가 여러 병렬 에이전트 + 분당 수십 번의 화면 읽기를 포함할 수 있으니 더 빨리 터진다. 새로 나온 $100 Codex Pro 티어가 5배 한도를 준다. Plus에 머물 거라면 천장이 훨씬 낮게 느껴질 것이다.

Claude Code 유저는 다음 섹션의 비교표를 꼭 보자. 4월 17일 이후로는 판이 달라졌다. 특히 Claude Code 입장에서 Codex를 “서브 에이전트"로 부를 수 있는 공식 플러그인(codex-plugin-cc)이 이미 나와 있다. 한국 개발자 커뮤니티에서 “개발은 클로드 코드에게, 리뷰는 코덱스에게"라는 워크플로우가 4월 16일부터 돌고 있는 건 우연이 아니다.

설치와 권한 설정의 의식

설치 자체는 빠르다. Codex 열고, 설정 → Computer Use → 설치 클릭. 그러면 macOS가 평소의 권한 설정 행진을 시작한다. 시스템 설정 > 개인정보 보호 및 보안 > 화면 기록 > Codex 체크 > 앱 종료 후 재시작. 그리고 손쉬운 사용도 똑같이. 그리고 또 앱 재시작.

X에서 Mac 개발자들이 다들 하고 싶었던 말을 했다. 이 권한 플로우는 2026년의 UX 기준으로 — 음, 좋다고 하기엔 힘들다. Codex 잘못은 아니다. macOS가 “보고 클릭하는” 모든 앱한테 이 다단계 드래그 앤 드롭 의식을 강요한다. OpenAI는 할 수 있는 건 했다 (온보딩 화면은 다른 앱들보다 훨씬 예쁘다). 하지만 하나의 권한을 주기 위해 패널 5개를 거쳐야 하는 건 그대로다.

그 다음에 두 번째 레이어가 있다. Codex는 처음 만지는 앱마다 “이 앱 써도 돼?“라고 물어본다. 신뢰하는 앱은 “항상 허용” 가능. Safari와 Keynote만 허용하는 타이트한 화이트리스트도, 모든 앱을 허용하는 것도 선택할 수 있다.

아무리 체크를 눌러도 안 되는 두 가지: Codex는 자기 자신을 자동화할 수 없다 (자기 approval을 스스로 우회하지 못하게). 그리고 sudo 프롬프트를 대신 승인해줄 수 없다. 시스템이 관리자 비밀번호를 물어보면, 그건 여전히 네가 쳐야 한다.

48시간 동안 사람들이 실제로 한 것 5가지

OpenAI가 고른 데모가 아니다. 출시 후 48시간 내 실제 사용 사례들.

1. Mac Mail 받은편지함을 주제와 우선순위로 정리

가장 이른 데모 중 하나는 연구자가 Codex한테 “Mac Mail 열어서, 어제 이후 모든 메일 읽고, 주제와 긴급도로 그룹 지어줘"라고 부탁한 케이스다. Codex는 앱을 열고, 스레드를 스크롤하고, 깨끗한 요약을 들고 돌아왔다. 보통 비서한테 시킬 만한 종류의 일.

Claude Computer Use나 Perplexity Personal Computer와 다른 점은, Codex가 방해하지 않는다는 것. MacStories의 Federico Viticci는 “내가 테스트해본 [Computer Use] 기능 중 최고"라고 평했다. 이유 중 하나는 스크린샷 + 클릭 추정 대신 macOS의 accessibility tree (VoiceOver가 쓰는 그것)를 읽기 때문. 더 정확하다. 그리고 Mail을 전면에 띄울 필요가 없다. 즉 본래 하던 작업을 계속하면서 Codex를 돌릴 수 있다.

2. 이메일 쓰면서 Messages도 조작시키기

다른 사용자는 Codex한테 현재 채팅 창을 스크린샷 찍게 하고, Messages를 열게 하고, 스크린샷을 친구한테 보내게 시켰다. 별것 없어 보이지만, 그 사용자는 같은 Mac에서 계속 이메일을 쓰고 있었고 커서는 Messages에서 자기 할 일을 하고 있었다.

초기 반응에서 계속 튀어나오는 “매직” 포인트다. 커서 둘, 에이전트 둘, Mac 하나. 순차가 아니라 병렬. Anthropic의 Claude Code는 하루 전(4월 15일)에 Agent Teams를 냈다 — 비슷한 아이디어, 다른 구현. Codex 쪽은 “지켜보기"보다는 “백그라운드 잡"에 가깝게 느껴진다.

3. 여러 버그 재현을 동시에 돌리기

@rudrank라는 개발자가 올린 워크플로우가 개발자 커뮤니티에 꽂혔다. 에이전트 3개, 각자 다른 버그 재현, 전부 병렬, 점심 먹으면서. 하나는 Slack 플러그인으로 스레드에서 컨텍스트 가져오고. 하나는 GitHub. 세 번째는 실제로 앱을 조작.

90개 이상 플러그인이 여기서 결정적인 역할을 한다. 각 플러그인은 서비스로의 미리 연결된 링크 — Jira, Linear, Notion, GitHub, CircleCI, GitLab, Render, Remotion, Vercel, Microsoft Suite. 일일이 OAuth 설정할 필요 없다. Codex가 알아서 처리한다. obra/superpowers, ui-ux-pro-max가 만들어온 Claude Skills 생태계에 대한 OpenAI의 답이다. 두 회사가 “에이전트 + 에코시스템” 스택을 누가 가져갈지를 놓고 진짜로 붙기 시작했다.

4. iPhone 미러링으로 폰 앱 조작시키기

이건 놀라웠다. macOS의 iPhone Mirror 기능을 켠 상태면, Codex의 Computer Use가 폰까지 이어진다. 어떤 사용자는 미러 창을 통해 Codex한테 iOS 앱을 탭하게 시켰다. 된다. 네이티브 Mac 앱보다 느리고 정확도도 떨어지지만, 된다.

일주일 전만 해도 아무도 얘기하지 않았던 자동화 카테고리다. API 없는 iOS 전용 앱에서 뭔가 해야 할 때, 이제 길이 있다.

5. 미팅 중에 아웃라인으로 Keynote 만들기

공개 데모로 본 건 아니지만, 백채널에서 반복해서 나오는 사용 사례: 불릿 포인트 아웃라인을 넘겨주고, Keynote를 지목하고, 미팅 들어가는 동안 Codex가 덱을 짜게 한다. 앱을 열고, 텍스트 타이핑하고, 템플릿 고르고, gpt-image-1.5로 생성한 이미지를 박아 넣는다.

여기서 Codex는 순수 코딩 툴에서 벗어나 범용 Mac 어시스턴트가 된다. 사실 OpenAI 발표 문구 “Codex for (almost) everything” 그대로다.

안 되는 것들 (솔직하게)

런칭 PR이 생략하는 섹션. 여기서 쓴다.

Intel Mac은 깨져 있다. OpenAI가 이번 릴리스에서 Intel 지원을 추가했다 — 2019년식 MacBook Pro 쓰는 사람한텐 반가운 소식. 그런데 일본 사용자가 메인 기능인 Computer Use가 Intel에서 그냥 안 뜬다고 올렸다. “스펙상으로는 지원인데 어떤 버그가 있다.” Apple Silicon이면 괜찮다. 아니면 26.416을 기다려라.

메모리는 앱을 느리게 만든다. 프리뷰 단계인 메모리 기능 (스레드를 가로질러 사용자 선호도를 기억하는 것)을 켜면 눈에 띄게 느려진다. 어떤 사용자가 켜봤다가 Codex가 기어다니는 걸 보고 끄고, 끄는 명령어까지 올려놨다. 지금 시점의 메모리는 “정식 버전 나오면 그때 켠다” 기능.

$20 Plus 요금제는 레이트 리밋이 빨리 터진다. Computer Use 이전에도 이미 Plus에서 한도가 빡빡했다. 이제 한 태스크가 병렬 에이전트 + 분당 수십 회 화면 읽기를 포함하면서, 불만이 더 커졌다. 새 $100 Codex Pro 티어는 5배 한도. 점프를 안 할 거라면 천장이 느껴질 것이다.

Asana는 안 됐다. 어떤 사용자가 Computer Use로 Asana 프로젝트를 세팅하려다가, 한참 돌다가, 실패했다. “임포트할 CSV 만들어줘"로 바꿨더니 1분 만에 CSV 나오고, 5분 안에 프로젝트가 떴다. 교훈: Computer Use는 다른 방법이 없는 일에 쓰는 것. API나 임포트 경로가 있으면, 그쪽을 쓴다.

코딩 태스크는 여전히 중간에 깨진다. 어떤 개발자가 Codex한테 React 컴포넌트 편집, 테스트 실행, 커밋을 시켰다. 3번 중 2번이 테스트 단계에서 막혔다. 데모 영상에선 매끄럽지만 일상 사용에선 덜컹거린다. Codex만의 문제가 아니다 — 모든 에이전트가 이런다. Computer Use가 이걸 고쳐주지는 않는다.

가끔 화면을 점거한다. OpenAI의 설명은 “Computer Use는 백그라운드로 돈다.” 대부분은 그렇다. 그런데 한 사용자는 Codex가 사실상 Mac을 장악해버려서, Codex 전용 머신을 하나 살까 고민 중이라고 했다. 앱에 따라 다르다.

일본어 입력 버그. 일본 사용자가 “codex computer use, 일본어 입력에 문제가 있다"고 올렸다. 한국어 입력은 현재까지 큰 이슈 리포트가 없지만, 공식 출시 초기이고 CJK 입력 시스템이 유사하므로, 한국어로 중요한 워크플로우 돌리기 전에 짧은 테스트는 돌려보는 게 좋다.

Terminal과 Codex 자신은 금지. Computer Use로 Terminal을 조작할 수 없다 (보안 설계 — 옆길로 샌드박스 뚫기 금지). Codex가 Codex를 조작할 수도 없다. 사실 필요도 없다.

4월 17일 업데이트 이후 Codex vs Claude Code

이번 주 전의 비교는 대략 이랬다: Codex는 토큰당 더 싸고 터미널 벤치에서 강함. Claude Code는 블라인드 평가에서 더 깔끔한 코드. 지금도 대체로 그렇다.

바뀐 것: Codex가 이제 Computer Use, 병렬 에이전트, 영구 메모리, 90+ 플러그인을 잘 다듬어진 Mac 앱으로 가지고 있다. Claude Code는 2일 전에 Agent Teams 출시, Computer Use는 3월부터 보유. 기능 패리티는 대체로 프레스가 예측한 라인에 도달했다. 그래서 결정이 더 재미있어졌다.

항목	Codex Desktop (4월 17일)	Claude Code (현재)
Mac에서 Computer Use	지원 — 백그라운드 커서, AX Tree 접근	지원 — 스크린샷 기반
병렬 에이전트	지원 — 다중 커서 동시	지원 — Agent Teams 경유
플러그인/스킬 생태계	공식 90+ 플러그인	obra/superpowers, 커뮤니티 스킬
영구 메모리	프리뷰 (현재 버그)	지원 — 더 성숙
macOS 완성도	전용 Mac 앱	크로스 플랫폼, 터미널 실행
이미지 생성	내장 (`gpt-image-1.5`)	없음 — 외부 도구
$20 티어 가성비	Plus에서 달러당 사용량 많음	한 집중 세션에서 소진
SWE-bench Pro	Claude Code와 유사	Codex와 유사
Terminal-Bench 2.0	뚜렷한 리드	약간 뒤처짐
블라인드 코드 품질	25% 선택	67% 선택
가용성	Mac 우선, EU/UK/CH 미지원	모든 지역

한 문장으로: Mac에서 일하고, API 없는 앱을 다루는 작업이 많다면, 이번 주는 Codex가 더 나은 도구. 프로덕션 코드를 쏟아내고 있고 리뷰 품질이 속도보다 중요하다면, Claude Code가 여전히 “블라인드 테스트에서 선택되는” 코드를 쓴다.

그리고 사실 둘 중 하나만 쓸 필요 없다. OpenAI가 같은 날 codex-plugin-cc라는 공식 리포를 열었다. Claude Code 사용자가 세션 중에 Codex에 서브 에이전트로 태스크를 위임할 수 있다. “개발은 클로드 코드에게, 리뷰는 코덱스에게” — 이게 한국 개발자 X에서 이번 주에 돌기 시작한 워크플로우다. 기능 경쟁 전쟁이 조용히 크로스 에코시스템 배관 공사로 바뀌고 있다.

독자별로 무슨 뜻인가

Mac 1인 개발자라면: 테스트 하네스를 직접 만들지 않아도, 프론트엔드를 실제 앱 여러 개에서 (Chrome, Safari, Electron 빌드) 테스트할 수 있는 도구가 생겼다. 48시간 “일단 써보고 판단” 테스트는 토요일 오전 투자할 가치가 충분히 있다.

프로슈머 — 컨설턴트, 인디 개발자, 1인 운영자라면: 코딩 각도는 접고, 이메일, Messages, Keynote, 리서치 워크플로우에서 $20을 회수한다. Codex한테 받은편지함과 Slack 접근 권한 주고, 아웃라인 넘기고, 미팅하는 동안 초안 쓰게 시킨다.

ChatGPT Plus 사용자이고 Pro 업그레이드를 고민 중이라면: 2주는 Plus에 머문다. 있는 걸 다 써본다. 하루에 레이트 리밋을 2번 이상 치면 Pro 고려. 아니면 아직 필요 없다.

Intel Mac, EU/UK/CH, 일본어/다국어 워크플로우 중심이라면: 기다린다. 런칭이 OpenAI에게 세 가지 거친 모서리를 보여줬다. 다듬을 것이다. 기능은 사라지지 않는다.

결론: 설치하고 (사용 가능 지역이라면), 실제 태스크를 반나절 돌려보고, Codex가 자신보다 확실히 잘하는 두세 가지를 찾고, 그걸 일주일 루틴에 넣는다. 하이프는 무시. “네 일자리 뺏는다” 테이크도 무시. 이게 뭐냐면 — 앱 안에서 클릭해주는 주니어 어시스턴트. 주니어 어시스턴트가 잘하는 일이 Codex가 잘하는 일.

이번 주말 설치해야 하는 사람

짧게: Apple Silicon Mac에, ChatGPT Plus 또는 Pro가 있고, “자동화하려다 미뤄둔” 반복적인 멀티 앱 워크플로우가 최소 하나 있는 사람.

길게:

지금 설치: macOS 14+, M1 이상. 구체적인 태스크가 머릿속에 있음 (받은편지함 정리, 프론트엔드 테스트, 리서치 통합, 아웃라인에서 Keynote 짜기).
설치는 하되 아직 신뢰는 안 함: 하드웨어는 있지만 구체적인 워크플로우가 없음 — 데모엔 감탄하게 되지만, ROI는 실제 태스크가 있을 때 생긴다.
일주일 기다리기: Intel, EU/UK/CH, 메모리 기능에 의존 예정, 일본어/한국어 입력이 업무 핵심.
지금은 스킵: Claude Code로 충분하고 대부분 프로덕션 코드 작성. Codex의 Computer Use 이점은 진짜지만, 오늘 시점에서 순수 코딩 작업에서는 Claude Code의 품질 우위를 뒤집지 못한다.

결론

리브랜딩 이후 가장 큰 Codex 업데이트. “프로슈머를 위한 에이전트” 카테고리를 지난 6개월 합친 것보다 48시간에 더 많이 전진시켰을 가능성이 크다. Claude Code 킬러는 아니다 — 두 도구 모두 동일한 기능 리스트를 갖고 있고, 진짜 차이는 마감과 판단에 있다. 하지만 Mac에서 일하면서 깔끔한 API를 노출하지 않는 앱을 다뤄야 한다면, Codex Desktop이 지금 설치할 수 있는 가장 유능한 도구다.

90+ 플러그인이 은근히 효과를 내는 부분. Computer Use가 다음 주 헤드라인을 가져간다. 하지만 플러그인 생태계 — Slack, Jira, 자기 코드베이스를 가로질러 에이전트 세 개를 한 워크플로우에서 돌리는 것 — 가 6개월 뒤에도 남는다.

설치하고 (EU 풀리면), 반나절 써보고, 태스크 하나 찾고, 자동화하고, 한 달 뒤에 가치 있는지 다시 판단한다.