Mistral Vibe vs Claude Code vs Codex: 어디서 누가 이기는지 (3일차)

Mistral이 4월 29일에 Vibe Remote Agents 출시했어요 — 3일 됐는데 head-to-head 비교가 하나도 없어요. Vibe가 어디서 이기고, Claude Code가 어디서 이기고, Codex가 어디서 이기는지 정리했어요.

Mistral이 Vibe Remote Agents를 2026년 4월 29일에 출시했어요 — 3일 전이에요. 그 뒤에 있는 모델인 Mistral Medium 3.5(128B 덴스, 256k 컨텍스트)가 SWE-Bench Verified에서 77.6%를 기록했어요. Claude Sonnet 4.5의 77.2%랑 사실상 동률이에요. 가격은 거의 절반 — 백만 토큰당 $1.50/$7.50, Sonnet 4의 $3/$15에 비해서요. 통합도 다 들어있고요 (GitHub, Linear, Jira, Sentry, Slack, Teams). 라이선스는 modified MIT. GPU 4개에 셀프호스트 가능.

미국 단일 벤더에 게이트되지 않은 진짜 Codex / Claude Code 경쟁자를 기다리고 있었다면 — 올해 가장 신뢰할 만한 후보예요.

오늘 SERP에서 못 찾는 거 — 세 도구를 같은 작업에 두고 비교한 글이 단 하나도 없어요. Claude-Code-vs-Codex 글은 많고요. Mistral Medium 3.5 출시 리뷰도 많아요. Vibe Remote Agents를 Claude Code의 인터랙티브 흐름이랑 Codex의 클라우드-async 흐름이랑 같은 일에 놓고 언제 누가 이기는지 알려주는 글은 0개.

이 글이 그 비교예요 — 올해 모든 팀이 코딩 에이전트한테 시키는 4개 작업으로 anchor했고요. 며칠 더 진짜 사용 신호가 쌓여야 결정 안 굳어지는 부분도 솔직하게 적었어요.

Mistral이 4월 29일에 실제로 출시한 것

세 가지가 동시에 떨어졌고요, 같이 봐야 말이 돼요.

  1. Mistral Medium 3.5 — 128B 파라미터 덴스 멀티모달 모델, 256k 컨텍스트, Mistral API에서 백만 토큰당 입력 $1.50 / 출력 $7.50. Hugging Face에서 modified MIT로 오픈 가중치. GPU 4개에 셀프호스트 가능.
  2. Vibe Remote Agents — Vibe CLI나 Le Chat에서 spawn하는 async 클라우드 세션. 에이전트가 Mistral 클라우드에서 돌고 GitHub 코드/PR이랑 Linear/Jira 이슈랑 Sentry 인시던트랑 Slack/Teams 상태 업데이트에 연결돼요. Mistral 발표문에 따르면, “진행 중인 로컬 CLI 세션이 클라우드로 텔레포트될 수 있고, 세션 히스토리, 작업 상태, 승인이 함께 옮겨가요.”
  3. Le Chat Work Mode — Mistral 채팅 UI에서 비개발자 사용자를 위한 병렬 도구-호출 레이어. 다른 청중이라 이 비교에선 무시.

중요한 벤치마크: SWE-Bench Verified에서 77.6%. X의 @Singularabbit이 가장 깔끔한 평가를 했는데요 — “128B 모델이 700B-1000B 클래스 모델이랑 어깨를 나란히 한다. 파라미터 효율 측면에서 차트 전체에서 가장 인상적인 결과.” 이 파라미터 효율이 — 이게 또 하나의 출시가 아니라 — 신뢰할 만한 비교가 되는 이유예요.

리더보드 맥락 — Claude Opus 4.7이 SWE-Bench Verified 87.6%, GPT-5-Codex가 베이스라인 74.9%. Vibe는 그 사이, Codex 쪽에 더 가까워요. 에이전트 워크플로우에 가장 관련된 Terminal-Bench 2.0에선 GPT-5.4가 75.1%로 선두, GPT-5.3-Codex가 77.3%, Opus 4.7이 69.4%. Mistral은 Vibe의 Terminal-Bench 점수를 아직 공개 안 했어요.

어떤 도구를 골라야 할지 알려주는 4개 작업

코딩 에이전트한테 실제로 시킬 4개 작업을 walk through할게요. 각 작업마다 어떤 도구가 가장 잘하는지 — (a) 검증된 벤치마크, (b) 이번 주 X의 실제 사용자 신호, (c) 출시 hype가 건너뛰는 솔직한 트레이드오프 섞어서 — 설명할게요.

작업 1: 600라인 Python 모듈 리팩토링

일 — 18개월 동안 자란 600라인 모듈 가져다가, 클래스 3개 추출하고, 새 구조용 테스트 작성하고, PR ship.

Claude Code 승. 인터랙티브 모드의 Sonnet 4.6은 뭘 깨고 뭘 보존할지 신중한 판단이 필요한 long-context 리팩토링에 최강이에요. 200k 컨텍스트 윈도우가 모듈 전체 + 테스트 + import 그래프를 한 번에 잡아요. 대화형 루프가 우리가 생각 못 한 엣지 케이스를 잡아내고요.

Vibe가 맞먹는 곳: Mistral Medium 3.5의 256k 컨텍스트가 더 커요. 그리고 @Singularabbit의 파라미터-효율 인사이트 — 대부분 기계적인 리팩토링 작업이라면 Vibe + Medium 3.5가 Sonnet 4.5만큼 벤치마크되는 결과를 내요. 실제 사용자 @noctus91의 5월 1일 X 포스트 — “Mistral Medium 3.5에 vibe cli harness 진짜 좋다. 이미 그 위에 사이드 프로젝트 만들고 있는데 지금까지 단단해.” 그의 Mistral Study 앱(플래시카드, 보이스 모드, 퀴즈) 스크린샷 3장이 클레임 뒷받침.

Codex가 뒤지는 곳: GPT-5-Codex의 reasoning 스타일은 신중하고 아키텍처적으로 옳은 재작성을 선호해요. 새 아키텍처 필요 없는 순수 리팩토링 작업엔 그게 오버헤드. 더 좋은 답을 받지만, 더 느리고, 더 비싸게.

선택: 외과적 인터랙티브 흐름엔 Claude Code. API 비용 절반에 비슷한 품질 원하고 도구 전환할 의향 있으면 Vibe.

작업 2: Next.js 앱에 OAuth 추가

일 — 기존 Next.js 15 앱. Google OAuth 로그인 추가. 세션 쿠키까지 연결. 기존 이메일/비밀번호 흐름 안 깨고.

Codex 승. Codex가 정확히 이 작업 프로파일을 위해 설계됐어요 — 잘 문서화된 프레임워크, 잘 알려진 패턴(NextAuth.js v5 / Auth.js), 명확한 완료 정의. Codex의 신중한 아키텍처-우선 스타일이 자신감 갖고 머지할 수 있는 PR을 만들어요. artificialanalysis.ai 리더보드 기준, Codex의 GPT-5.4 베이스가 Terminal-Bench에서 75.1% — 셋 중 최고예요.

Vibe가 맞먹는 곳: Vibe의 async 흐름이 여기 흥미로워요 — OAuth 작업 시작, 점심 가, 돌아오면 PR 초안. @rayanabdulcader의 4월 29일 X 포스트 — “CLI에서 Remote agents 진짜 게임 체인저. GUI 안 열고 작업 시작해서 백그라운드에서 돌리는 거, 딱 필요한 거였음.” async 흐름 진짜고, 통합이 결과를 우리 GitHub PR 큐에 직접 떨어트려요.

Claude Code가 뒤지는 곳: 인터랙티브 모드는 우리를 루프 안에 두려고 설계됐어요. handoff 후 리뷰 선호하는 OAuth 통합엔 Codex나 Vibe가 async로 처리할 일에 30분 대화 쓰게 돼요.

선택: 품질 + 신중함이 속도보다 중요하면 Codex. async + 비용 절반 중요하면 Vibe.

작업 3: 플레이키 테스트 디버깅

일 — 8번 중 1번 실패하는 CI 테스트. 로그가 빈약. 팀 추측은 셋업의 race condition. 찾아야 함.

Claude Code 승. 플레이키 테스트 디버깅은 인터랙티브 모드의 정석 사용 사례예요. 에이전트 추론 보고, 교정하고, 방향 잡아요. Sonnet 4.6의 reasoning trace + 강한 코드 이해력이 이런 진단 루프에 최고 파트너예요. heavy reasoning 비용 spike는 진짜지만 정당화돼요.

Vibe랑 Codex가 둘 다 어려운 곳: async 모드는 에이전트가 가서 일하고 결과 들고 오는 거예요. 플레이키 테스트엔 worker가 아니라 생각하는 파트너가 필요해요. Vibe Remote Agents랑 Codex Cloud 둘 다 가설 만들어주는데, 각 “X면 어떡해?” 라운드가 원격 실행 round-trip이라 반복 사이클이 더 느려요.

Vibe Remote Agent 루프홀: 플레이키 테스트가 깔끔한 클라우드 샌드박스에서 결정론적으로 재현되면(보통 환경 의존이라 안 그렇긴 한데), Vibe가 100번을 병렬 async 샌드박스에서 돌려서 실패 패턴을 가장 빠르게 surface할 수 있어요. 그건 niche한 승.

선택: 거의 모든 플레이키 테스트 디버깅엔 Claude Code. 재현이 환경-깔끔하고 병렬성이 인터랙티브를 이기는 경우만 Vibe.

작업 4: 1,200라인 PR 리뷰

일 — 주니어 엔지니어가 새 기능 추가한 PR. 18개 파일 1,200라인. 두 시간 안 쓰고 꼼꼼히 리뷰.

Vibe 승. 이게 Vibe Remote Agents가 설계된 작업이에요. PR 리뷰를 Remote agent한테 핸드오프, 라인 코멘트 달린 구조화된 리뷰를 돌리게 하고, 몇 분 후 Slack에 결과 받아요. 통합 스토리(GitHub PR + Slack 보고)가 우리가 소비할 곳에 정확히 결과 떨어트려요.

Claude Code가 맞먹는 곳: X의 @ishanxtwt이 Codex vs Claude Code를 100시간 vs 20시간으로 자세히 분석한 게 있어요(아직 안 읽었으면 추천). PR 리뷰에서 Claude Code의 강점은 단일 패스 리뷰의 깊이 — Vibe의 더 빠른 패스가 놓치는 걸 잡아요. 비용: 시니어 엔지니어 한 명만큼의 주의력이 그 동안 들어가요.

Codex가 뒤지는 곳: Codex Cloud는 Vibe처럼 async지만 리뷰 출력 포맷이 Slack용보다 GitHub-comment용이에요. 팀이 Slack에서 리뷰 소비하면 Vibe 보고가 더 잘 맞아요.

선택: 일상적 PR 리뷰엔 Vibe. 깊이 중요한 high-stakes 아키텍처 리뷰엔 Claude Code.

누구한테 이게 의미가 있냐면

솔로 개발자나 2인 스타트업이라면: 수학은 대부분 비용. 월 5천만 토큰에서 Vibe의 $1.50/$7.50 vs Sonnet의 $3/$15는 진짜 돈이에요. 작업이 대부분 작업 1, 2, 4면, 벤치마크-동률 모델로 API 지출 ~50% 절약돼요. 작업 3(플레이키 테스트 / 인터랙티브 디버깅)이 워크플로우 지배하는 경우만 Claude Code 유지.

10-50명 팀이라면: 단일 도구 사고 그만. 대부분의 팀은 인터랙티브 개인 작업엔 Claude Code + async PR 리뷰랑 일상 통합 작업엔 Vibe Remote Agents + 잘 정의된 “기능 ship” 일엔 Codex Cloud로 끝나게 될 거예요. 도구들이 충분히 차별화돼서 하나만 고르는 건 의미 있는 생산성을 두고 가는 거.

EU 기반 회사고 sovereignty 우려 있으면: Mistral의 프랑스/EU 호스팅 인프라가 컴플라이언스팀이 그 질문 던지면 진짜 물질적 이점이에요. “코드가 EU에 머문다, 대서양 왕복 없음” 프레임이 이번 주 X에서 유럽 개발자랑 DACH SaaS shop들한테서 자연스럽게 떨어졌어요. Sonnet 4.6이랑 GPT-5.4는 동등한 답이 아직 없어요.

한국 enterprise IT 또는 CTO 관점에서 보면: Mistral이 Anthropic이나 OpenAI 외의 세 번째 진지한 옵션이 됐다는 건 — Claude API 데이터 잔류 / Pentagon 공급망 리스크 우려가 있는 한국 대기업한테 진짜 의미 있어요. Vibe CLI가 셀프호스트 Medium 3.5랑 hosted API랑 똑같이 작동해요. 그건 Anthropic이나 OpenAI가 제공 안 하는 배포 스토리예요.

한 가지 사용 사례 평가하면: 사용 사례를 위 표에 매칭하세요. 벤치마크로 고르지 마세요. 출시 hype로 고르지 마세요.

이 비교가 아직 못 알려주는 거

Day-3 평가의 솔직한 한계 5가지:

  1. 실제 파이프라인 비용 수학이 아직 없어요. 이번 주 X에서 “내 워크로드를 Vibe에서 돌렸더니 X% 절약됐다” 게시물 한 개도 못 찾았어요. $1.50/$7.50 vs $3/$15 수학은 누군가 프로덕션-스케일 토큰에서 돌릴 때까진 이론적이에요. 얼리어답터 청구 사이클 끝나면 비교 게시물 2주 후 예상.

  2. “로컬 CLI를 클라우드로 텔레포트” 기능이 Mistral 프로모 비디오 외에선 미검증. Mistral의 @mistralvibe 계정이 데모 게시. 텔레포트가 광고대로 작동하는 독립 개발자 스크린샷이나 비디오는 0개. 합리적 낙관 갖되, 확신은 노.

  3. 사용자 정의 MCP 커넥터에 초기 마찰 있음. 5월 1일 @KhazAkar(@htmx_org CEO)의 X — Mistral Vibe 좋아하는데 “사용자 정의 커넥터 추가에 이슈 있음 — forgejo-mcp(코드를 codeberg에 호스트하는데 AI 스크래퍼 차단함) — AI Studio에서. 인증 방법 선택 안 되고 create 버튼 회색 처리됨.” 셀프호스트 Git forge나 비표준 MCP 서버 쓰면, 거친 모서리가 다듬어질 때까지 몇 주 기다릴 계획.

  4. Vibe의 Terminal-Bench 점수 미공개. Mistral이 SWE-Bench(77.6%)는 공개했는데 Terminal-Bench는 안 했어요. 에이전트 워크플로우엔 Terminal-Bench가 더 관련 있는 벤치마크. 그 숫자 ship할 때까진 Codex의 Terminal-Bench 리드는 진짜고 안 풀린 갭.

  5. Day-3는 프로덕션 자신감엔 너무 일러요. 출시 후 3일은 사이드 프로젝트 테스트엔 충분, 팀 주력 도구 교체엔 부족. 데이터에 맞는 계획 — Vibe는 이번 주 사이드 프로젝트 트라이얼, 다음 주 단일 비-크리티컬 워크플로우, 6월 둘째 주에 최소 4주 파이프라인 데이터 후 진짜 도입 결정.

결론

도구 하나 고르는 거면, 인터랙티브 흐름 돌리는 솔로 개발자한텐 Claude Code가 여전히 가장 안전하고, async에 잘 정의된 기능 작업 돌리는 팀한텐 Codex가 여전히 가장 안전해요. Vibe Remote Agents는 2026년 가장 신뢰할 만한 신규 진입자고, async PR 리뷰 / EU sovereignty 제약 / 오픈 가중치 편향 있는 경우 우리 툴킷에 추가할 만한 도구예요.

이번 주 X에서 유럽 개발자들이 떨어트린 가장 솔직한 평가는 — *“Mistral이 이겼다”*가 아니라 *“마침내, 진짜 세 번째 옵션이 생겼다”*예요.

agentic-coding 풍경 전반 팀 업스킬링은 Claude Code Mastery 강좌가 인터랙티브 흐름, AI Agents Deep Dive 강좌가 async-PR + Remote Agent 패턴, Agentic AI 강좌가 도구 셋 사이에서 고를 때 중요한 아키텍처 결정 다뤄요.

크로스 링크 — Claude Code 2.1.126 업데이트 walkthrough(새 “project purge” 명령 + Linux subprocess sandboxing)는 클로드 코드 2.1.126 정리 보세요. 더 넓은 멀티모델 변화의 IT-buyer 측면은 Microsoft Agent 365 4-models 보고요.

출처

Build Real AI Skills

Step-by-step courses with quizzes and certificates for your resume