OpenAI가 런던에서 발표한 Codex 마스터클래스는 단순한 기술 설명이 아니었다.

Katia Gil Guzman과 Vaibhav Srivastav(VB)는 OpenAI 개발자 경험팀 담당자들이다. 이들은 1월 대비 3배 성장해 주간 300만 명을 넘긴 Codex 사용자들이 정확히 어떻게 쓰고 있는지를 보여줬다. 놀라운 건, 대부분의 개발자는 아직도 Codex를 “코딩 자동완성 도구” 정도로만 알고 있다는 점이었다.

이 글에서는 OpenAI가 직접 보여준 플러그인·자동화·서브에이전트·블리딩엣지 기능들을 정리했다. 이미 Codex를 쓰고 있는 사람도 처음 보는 내용이 대부분일 것이다.

OpenAI Codex — 300만 주간 사용자의 소프트웨어 엔지니어링 에이전트


Q. 그럼 Codex는 정확히 무엇인가요?

“코딩 자동완성”이라고 생각했다면 완전히 다르게 봐야 한다.

Codex는 소프트웨어 엔지니어링 에이전트예요. 코드를 작성하는 것만 아니라, 커맨드를 실행하고, 테스트를 돌리고, 코드베이스를 탐색하고, 파일을 조작한다. 실제 소프트웨어 엔지니어가 하는 모든 것을 할 수 있게 설계됐어요.

내부 구조는 두 층으로 나뉜다.

  • 모델 기반층: GPT 계열이 지식과 추론을 담당
  • Unified Agent Harness: 이 위에 툴 실행 래퍼, 환경 셋업, 에이전트 행동 평가, 안전 레이어를 한 덩어리로 묶음

접근 경로도 다양하다. Codex 앱(macOS, Windows), IDE 익스텐션, CLI, Slack, GitHub, Figma, Linear, Notion까지. OpenAI 내부에서도 매일 Slack에서 “hey Codex, 이거 고쳐줘”라고 쓴다고 했어요.

Codex: OpenAI의 소프트웨어 엔지니어링 에이전트 아키텍처


Q. 모델이 계속 업데이트되는데, 실제로 뭐가 달라지나요?

1월 GPT 5.2부터 지금 GPT 5.4까지, 벌써 5개 버전이 출시됐다. VB는 이렇게 말했어요.

“매번 모델이 좋아질 때마다, Codex 전체가 자동으로 좋아진다.”

구체적으로는 이렇다.

모델특징사용처
GPT 5.2 / 5.3기본 모델일반 작업
GPT 5.3 SparkCerebras 협업, 초고속빠른 탐색
GPT 5.4최신 SOTA복잡한 작업
GPT 5.4 mini/nano경량서브에이전트용 (비용 절감)

속도 개선도 따로 진행 중이다. WebSockets 기술로 1.75배 빠른 토큰 생성, 여기에 Fast Mode를 더하면 추가 2배 속도가 난다. 추가 비용 없이다.

Codex 기능 로드맵 — Plugins, Mini model, Subagents, Automations, Enterprise controls


Q. “플러그인”이 기존 MCP 서버와 달라요?

지금까지 Codex를 확장하려면 3가지를 각각 설치했어야 한다.

  • 스킬(Skills): 반복 작업 지시
  • 앱(Apps): 외부 서비스 연결 (Google Drive, Linear, Notion)
  • MCP 서버: 외부 시스템 툴 노출

플러그인은 이 3가지를 한 번에 번들로 제공하는 거예요. 스킬 설치 + 앱 연결 + MCP 설정을 따로 할 필요가 없다. 플러그인 하나 추가하면 끝.

OpenAI가 기본으로 제공하는 게 있다.

  • 게임 스튜디오 플러그인: Playwright Interactive(헤드리스 브라우저로 앱 직접 조작) + Image Generation 번들
  • 웹 앱 스튜디오 플러그인: 웹 개발용 번들

데모에서는 게임 스튜디오 플러그인으로 프롬프트 하나(「brick 플랫폼 플랫포머 게임 만들어줘」)만 주고, 스프라이트 5종, 완성된 게임까지 1시간 안에 생성했다. 개발자가 손 놓은 거다.

또 다른 데모는 Google Drive 플러그인. 코드베이스에 있는 57개 Codex 이벤트를 YAML 파일에서 읽어 자동으로 구글 스프레드시트에 채워넣었다. 소요 시간 2분.


Q. 자동화는 진짜 편한가요?

Codex 앱 안에서 크론 작업처럼 백그라운드 에이전트를 실행할 수 있다.

설정은 간단하다.

  1. 사용할 앱/플러그인 선택
  2. 실행 주기 설정 (매일 9시, 매주 월요일 등)
  3. 지시문 작성

Katia가 공개한 실제 자동화 두 가지.

첫째: Slack 자동 요약

  • 매일 오전 9시 실행
  • 답장이 필요한 메시지 자동 플래그
  • 어제 이후 발생한 회사 공지 요약 (토픽별 분류)

둘째: Gmail 트리아지

  • 실제로 답해야 할 메일 vs 스팸성 요청 구분
  • 긴급도 판단
  • “하루에 몇 시간씩 절약된다”고 Katia가 직접 말했어요.

Gmail 자동화 설정 예시 — 매일 오전 9시 Gmail 체크

그 외에도 “Slack에서 Codex 사용 사례 자동 수집”, “Linear 이슈 자동 트리아지” 같은 게 가능하다.


Q. 코드리뷰가 왜 그렇게 잘 된다고 하나요?

OpenAI는 전사 직원의 모든 PR을 Codex 코드리뷰로 먼저 검토한다. Greg Brockman(CEO)도 포함해서다.

왜 그럴까?

“여러 프로젝트를 동시에 돌리다 보면 코드 한 줄 한 줄을 다 보는 게 현실적으로 불가능해진다. 첫 번째 패스는 신뢰할 수 있는 자동 리뷰어가 필요하다.”

Codex 코드리뷰의 특징:

  • P0 / P1 / P2 우선순위로 분류
  • diff만 보는 게 아니라 연관 모듈의 2차 효과(side effect)까지 분석
  • GitHub PR에 직접 코멘트 자동 생성
  • CLI에서 /review 커맨드 지원
  • 최근 Claude Code 플러그인으로 Codex 리뷰를 Claude Code 세션에서도 호출 가능 (새 기능)

Codex가 코드 변경을 분석할 때, 자신이 건드리지 않은 다른 모듈까지 영향을 예측한다는 게 핵심이다.

Codex 앱에서 새 스레드 시작 — "Let's build developers-website"


Q. 서브에이전트는 언제 정말 필요한가요?

마스터 태스크를 독립적이고 병렬 가능한 단위로 쪼개서 각 에이전트에게 위임하는 기능이다.

기본 제공 페르소나가 3종 있다.

  • Default: 범용 폴백 에이전트
  • Worker: 피처 구현 등 실행 중심
  • Explorer: 코드베이스 탐색, read-only 모드

하지만 강력한 건 커스텀 서브에이전트를 직접 만드는 것.

TOML 파일로 정의한다.

[sub_agent.pr_explorer]
name = "PR Explorer"
model = "gpt-5.3-codex-spark"
sandbox = "read-only"
instructions = """
Exploration mode 유지
Execution path 추적
수정 제안 없음, 탐색만
"""

정의 가능한 항목:

  • 사용 모델 (mini/nano로 비용 절감)
  • 추론 강도
  • 샌드박스 모드 (read-only vs write)
  • MCP 서버 개별 접근 권한 (한 서브에이전트는 Sentry만, 다른 하나는 Linear만 접근 가능)
  • 스킬 부여

실제 데모는 정말 강력했어요.

45개 서브에이전트 페르소나 파일을 검토하는 작업. Codex가 자동으로 복잡도를 감지해서 플랜 모드에 진입 → 5개 태스크로 분해 → 20개 리뷰어 에이전트 동시 발사 (설정된 상한 6개만 먼저 실행) → 결과 취합.

발견한 이슈 예시:

  • “performance investigator 과도한 권한 (P1)”
  • “verifier sandbox 불일치”
  • “writer의 README 접근 권한 필요”

혼자 45개를 순차 리뷰하면 몇 시간인데, 병렬로는 몇 분이다.

Codex 서브에이전트 데모 — 6개 에이전트 동시 실행 중 스크린샷


Q. 아직도 실험 기능들이 있다고요?

이미 배포됐지만 잘 알려지지 않은 기능들이 몇 가지 있다.

Guardian Approvals (실험적)

Codex에게 모든 권한을 주는 “욜로 모드”의 위험을 줄이기 위한 기능. Codex가 권한이 필요한 작업(디렉토리 삭제, 서버 실행, 파일 외부 공개)을 마주칠 때:

  1. 새 서브에이전트를 자동으로 스폰
  2. 그 작업이 인간의 개입이 필요한지 판단
  3. 필요 없으면 자동 허가, 필요하면 물어봄

“모든 걸 허용하면 위험하고, 모든 걸 물어보면 피로하다. AI가 그 중간을 판단해주자” — VB

Hooks (실험적)

세 가지 훅을 지원한다.

  • pre-tool-use: 도구 사용 전 (각 단계마다 자동 문서화)
  • session-start: 세션 시작 (자동으로 GitHub pull)
  • stop: 세션 종료 후 (또는 사용자가 멈출 때)

stop 훅의 활용이 특이하다. 장시간 작업할 때 “한 번 더 패스 해줘” → “그다음 검증 커맨드 실행” → “결과 보고”를 자동으로 반복시킬 수 있다. 무한 루프처럼 실행되지만, 사용자가 결정한 횟수 후에 멈춘다.

Personality (개인화)

응답 스타일을 Friendly / Pragmatic으로 선택 가능. 커스텀 지시도 추가할 수 있어요. (“항상 출처 표기해줘” 등)

Codex Security

GitHub 레포 대상으로 취약점을 자동 탐지하고 패치를 생성한다. 커밋 단위로 분석.


결국 질문은 이것입니다

OpenAI가 “Codex는 소프트웨어 엔지니어링 에이전트”라고 계속 강조한 이유는, 개발자들의 일하는 방식이 이미 바뀌었기 때문이다.

더 이상 “무엇을 만들 수 있는가?”가 아니라, “무엇을 검증하고, 어디까지 자동화할 것인가?”로 질문이 바뀌고 있어요.

Codex의 300만 주간 사용자가 증명하는 것도 바로 이거다.

  • 플러그인으로 도구 통합이 얼마나 쉬워졌는지
  • 자동화로 반복 작업이 얼마나 사라지는지
  • 서브에이전트로 병렬 처리가 얼마나 가능해졌는지
  • 코드리뷰가 얼마나 자동화될 수 있는지

1인 개발자도, 팀 프로젝트도, 대규모 엔터프라이즈도 이걸 기본으로 깔고 간다는 뜻이다.

단순 코딩 도구 정도로 생각했다면, 이제 Codex 앱 열어서 플러그인 몇 개 연결하고, 자동화 하나 설정하고, 서브에이전트 몇 개 만들어보길 권한다.

당신의 일하는 방식이 바뀔 거예요.