OpenAI 개발자 경험팀의 Katia Gil Guzman과 Vaibhav Srivastav(VB)가 런던에서 진행한 Codex 마스터클래스 전체 내용을 정리했다. 이미 Codex를 쓰고 있는 사람도 몰랐을 내용들이 꽤 많이 나온다.

유튜브 원본: OpenAI Codex Masterclass


1. Codex는 “코딩 에이전트”가 아니라 “소프트웨어 엔지니어링 에이전트”

코드 작성만 하는 도구로 알고 있다면 다시 봐야 함.

Codex는 커맨드 실행, 테스트 수행, 코드베이스 탐색, 파일 조작까지 실제 소프트웨어 엔지니어가 하는 모든 것을 할 수 있도록 설계됐음.

구조는 두 층으로 나뉨:

  • 모델 기반층: GPT 계열 모델이 지식과 추론을 담당
  • Unified Agent Harness: 툴 실행 래퍼, 환경 셋업, 에이전트 행동 평가, 안전 레이어를 하나로 묶은 실행 엔진

접근 경로(서페이스)도 다양함:

  • Codex 앱 (macOS, Windows)
  • IDE 익스텐션
  • CLI
  • Slack 연동 (OpenAI 내부에서도 매일 사용)
  • GitHub 연동
  • Figma, Linear, Notion 통합

마스터클래스 기준으로 주간 활성 사용자 300만 명을 막 돌파했으며, 1월 대비 3배 이상 성장했다고 밝혔다.


2. 모델 진화 — GPT 5.2부터 GPT 5.4까지

VB가 합류한 작년 12월에는 GPT 5.2가 최신이었음. 그 이후 빠르게 이어진 라인업:

모델특징
GPT 5.2베이스라인
GPT 5.2 Codex장시간 작업 특화 변형
GPT 5.3 Codex성능 향상
GPT 5.3 Codex SparkCerebras 협업, 텍스트 전용, 초고속
GPT 5.4현재 최신 스탠다드 모델
GPT 5.4 mini / Nano단기 작업 및 서브에이전트 전용

속도 개선도 따로 진행 중:

  • WebSockets 도입 → 기존 대비 1.75배 빠른 토큰 생성 (추가 비용 없음)
  • Fast Mode → WebSockets 위에 추가 2배 속도 부스트

모델이 좋아질수록 Codex 전체가 자동으로 좋아지는 구조라고 강조했다.


3. Codex 앱 — 멀티프로젝트와 Work Tree

Codex 앱의 핵심 가치는 여러 프로젝트 × 여러 피처를 동시에 돌릴 수 있다는 점.

  • 왼쪽 사이드바에서 프로젝트 단위(Codex, ChatGPT, Sora 등)로 분리
  • 프로젝트 내에서도 git work tree로 피처별 독립 작업 가능
  • 컨텍스트 전환 없이 “A 버그 수정”하는 동안 “B 피처 개발” 병렬 진행

추가로 최근 업데이트된 내용:

  • Windows 네이티브 샌드박스 지원 — 타 에이전트 하네스 중 최초
  • 자동화(Automations) 내장
  • 네이티브 git 지원

4. 플러그인 — Skills + Apps + MCP를 하나로

플러그인은 세 가지를 번들로 묶는 개념:

Skills (스킬)

  • 반복 작업을 위한 재사용 가능한 지시 패키지
  • 스크립트, 리소스 포함 가능
  • “이 워크플로우 항상 이렇게 해줘”를 한 번 정의하면 끝
  • Codex에게 스킬 직접 생성을 요청할 수도 있음

Apps (앱 연동)

  • 외부 서비스 연결 커넥터
  • Google Drive, Notion, Linear, Figma 등
  • 데모: Google Drive 플러그인 연결 → Codex가 코드베이스 내 YAML 파일에서 57개 이벤트를 읽어 구글 스프레드시트에 자동 업데이트 (소요 시간 2분)

MCP 서버

  • 외부 시스템의 툴을 Codex에 노출
  • 기존 MCP 인프라 그대로 활용 가능

플러그인 없으면 스킬 설치 + 앱 연결 + MCP 서버 셋업을 각각 해야 함. 플러그인 하나 추가하면 전부 한 번에.

게임 스튜디오 플러그인 데모: Playwright Interactive(헤드리스 브라우저로 앱 직접 조작·스크린샷) + Image Generation을 묶은 번들. 프롬프트 하나(“brick 플랫폼 플랫포머 게임 만들어줘”)로 스프라이트 5종 이상을 생성하고 완성된 게임을 빌드했음. 약 1시간 소요.


5. 자동화(Automations) — 크론잡처럼 돌리는 백그라운드 에이전트

개인적으로 가장 즐겨 쓰는 기능이라고 소개. 설정 방법:

  1. Codex 앱에서 자동화 탭 진입
  2. 사용할 앱/플러그인 선택
  3. 실행 주기 설정 (매일 9시, 매주 월요일 등)
  4. 지시문 작성

실제 활용 예시:

  • Slack 자동 요약: 매일 오전 9시, 답장이 필요한 메시지 플래그 + 어제 이후 발생한 회사 공지 요약 (토픽별 분류)
  • Gmail 트리아지: 실제로 답해야 할 메일과 스팸성 요청 구분, 긴급도 판단

“하루에 몇 시간씩 절약된다”고 함.


6. 코드 리뷰 — 100% OpenAI 내부 PR에 기본 적용

코드리뷰 기능이 왜 중요한지 설명:

“여러 프로젝트를 동시에 돌리다 보면 코드 한 줄 한 줄을 다 보는 게 현실적으로 불가능해진다. 첫 번째 패스는 신뢰할 수 있는 자동 리뷰어가 필요하다.”

현재 OpenAI 전 직원(Greg Brockman 포함)의 모든 PR이 Codex 코드 리뷰를 기본으로 통과함.

접근 방법:

  • GitHub PR에 ChatGPT 계정 연결 → 자동 리뷰 세팅
  • CLI에서 /review 커맨드
  • Codex 앱에서 직접 리뷰 요청

특징:

  • P0 / P1 / P2 우선순위로 분류
  • diff만 보는 게 아니라 연관 모듈의 2차 효과(side effect)까지 분석
  • Claude Code 플러그인으로 Codex 코드 리뷰를 Claude Code 세션에서도 호출 가능 (최근 출시)

7. 서브에이전트 — 병렬 분산 실행

서브에이전트는 마스터 태스크를 독립적·병렬 가능한 단위로 쪼개서 각 에이전트에게 위임하는 기능.

기본 제공 페르소나 3종:

  • Default: 범용 폴백 에이전트
  • Worker: 피처 구현 등 실행 중심
  • Explorer: 코드베이스 탐색, read-only

커스텀 서브에이전트 (TOML 파일로 정의):

# 예시: PR Explorer 서브에이전트
name = "PR Explorer"
model = "gpt-5.3-codex-spark"   # 빠른 read-only 탐색에 적합
sandbox = "read-only"
instructions = """
exploration mode 유지
execution path 추적
수정 제안 없음, 탐색만
"""

정의 가능한 항목:

  • 사용 모델 (mini/nano → 비용 절감)
  • 추론 강도 (reasoning effort)
  • 샌드박스 모드 (read-only vs write)
  • MCP 서버 접근 권한 (Sentry, Linear 등 에이전트별 개별 부여)
  • 스킬 부여

데모: 45개 서브에이전트 페르소나 파일을 20개 리뷰어 에이전트에 분산 검토. Codex가 복잡도를 자동 감지하여 플랜 모드 자동 진입 → 5개 태스크로 분해 → 6개 에이전트 동시 실행(설정된 상한) → 결과 취합.

발견한 이슈 예시: “performance investigator 에이전트가 과도한 권한 보유(P1)”, “verifier sandbox 불일치” 등.

활용 아이디어:

  • 보안 취약점 분석: 동일 git 리포를 여러 관점에서 동시 분석 → 취약점 맵 생성
  • 기능 구현 전 브레인스토밍: “이 기능 구현 방식 10가지를 각 에이전트에게 검토시켜”
  • 빌드/테스트 병렬 실행
  • Linear 이슈 컨텍스트 자동 수집

8. 블리딩 엣지 — 이미 배포됐지만 잘 알려지지 않은 기능들

Guardian Approvals (실험적)

/experimental에서 활성화.

기존 “욜로 모드(모든 권한 허용)“의 문제를 해결하기 위한 기능. Codex가 권한이 필요한 작업(디렉토리 삭제, 서버 실행, 파일 외부 공개 등)을 마주칠 때:

  1. 새 서브에이전트를 스폰
  2. 해당 작업이 인간의 개입이 필요한지 판단
  3. 불필요하면 자동 승인, 필요하면 사용자에게 묻기

“모든 걸 허용하면 위험하고, 모든 걸 물어보면 피로해진다.” → 그 중간을 AI가 판단.

Hooks (실험적)

현재 지원하는 세 가지 훅:

  • pre-tool-use: 툴 사용 전
  • session-start: 세션 시작 시
  • stop: 세션 종료 시

활용 예시:

  • session-start 훅: 세션 시작 시 자동으로 GitHub 최신 pull
  • pre-tool-use 훅: 각 툴 사용 내역을 자동 문서화
  • stop 훅: 장시간 작업 시 “계속 하나 더 패스 해줘” 자동 지시 (무한 실행 루프)

stop 훅 구성 예:

# keep_going_ui.py
# stop 이벤트 발생 시 Codex에게 "계속, 검증 커맨드 하나 더, 그다음 결과 보고" 지시

Personality (개인화)

  • Codex 앱에서 응답 스타일 커스터마이징 가능
  • Friendly / Pragmatic 등 페르소나 선택
  • 커스텀 지시 추가 가능 (“출처 항상 표기해줘” 등)

Codex Security

GitHub 레포 대상 취약점 탐지 + 자동 패치 생성. 커밋 단위로 분석하여 취약점 패치를 Codex가 직접 적용.

Claude Code 플러그인

Codex 코드 리뷰를 Claude Code 세션 내에서 호출 가능. 적대적 리뷰(adversarial review) 또는 변경 사항 rescue 용도로 활용.


9. Q&A 핵심 요약

“과거 세션을 어떻게 스캔해서 추천을 받나?”~/.codex/.sessions 폴더에 전 세션이 저장됨. Codex에게 “내 세션 다 보고 유용한 자동화·서브에이전트 추천해줘”라고 하면 됨. CLI든 앱이든 상관없음.

“작업 중 노트북을 닫고 클라우드로 넘길 수 있나?” → 가능. Codex 앱에서 cloud 모드 선택. Best of N 기능으로 동일 작업을 N개 클라우드 에이전트에 병렬 실행 후 최선 결과 선택 가능. IDE 익스텐션과 웹 인터페이스에서도 지원.

“클라우드 태스크에서 로컬 스킬이 작동하나?” → 현재 제한적. 클라우드 샌드박스가 로컬 스킬의 신뢰 여부를 판단할 수 없는 구조적 문제 때문. 단, 코드베이스에 체크인된 스킬 파일은 읽을 수 있음. 신뢰된 MCP 서버 지원, SSH 에이전트 스폰 등 개선이 우선순위에 있다고 함.


정리

영역핵심
모델GPT 5.4 최신, mini/nano는 서브에이전트용, Spark는 빠른 탐색용
속도WebSockets 1.75x + Fast Mode 2x
플러그인Skills + Apps + MCP 번들, 게임/웹 스튜디오 내장
자동화크론 기반 백그라운드 에이전트, Slack/Gmail 트리아지
코드 리뷰P0/P1/P2 분류, 2차 효과 분석, OpenAI 전사 기본 적용
서브에이전트TOML 커스텀 페르소나, 모델·샌드박스·MCP 개별 설정, 자동 플랜 모드
GuardianAI가 권한 필요 여부 자동 판단
Hooks세션 시작/종료/툴 사용 전 훅, stop 훅으로 장시간 루프
보안Codex Security로 GitHub 취약점 자동 패치

Codex를 “코드 자동완성 도구”로만 쓰고 있었다면, 이번 마스터클래스는 생각을 바꿀 계기가 될 것이다.