Codex, 이제 폰에서도 됩니다 — OpenAI 5월 업데이트 총정리

5월 13일부터 14일 사이, OpenAI가 3개의 블로그 포스트를 연달아 냈다. 하나는 엔지니어링, 하나는 제품, 하나는 안전. 얼핏 따로 노는 것 같지만 실은 같은 방향을 가리키고 있다. Codex를 더 안전하게, 더 어디서나, 더 맥락 있게.

Q. Windows에서 Codex 쓰기가 왜 이렇게 오래 걸렸나요?

사실 Windows 사용자들은 꽤 오래 불편했다. macOS에서는 Seatbelt, Linux에서는 seccomp나 bubblewrap으로 프로세스를 격리하는 게 됐는데, Windows는 이에 해당하는 내장 도구가 없었다.

Codex 엔지니어링팀이 2025년 9월부터 이 문제에 매달렸고, 기존에 있던 세 가지 옵션을 차례로 검토했다.

AppContainer — 능력 기반 격리 모델인데, Codex처럼 “셸, Git, Python, 패키지 매니저를 자유롭게 쓰는 환경”에는 너무 좁다. 보안은 탄탄한데 모양이 안 맞는다.

Windows Sandbox — 처분 가능한 가벼운 VM이다. 강력하지만 “실제 사용자 작업 환경에서 직접 파일을 고쳐야 하는” Codex의 특성과 맞지 않는다. 게다가 Windows Home에선 아예 없다.

MIC(Mandatory Integrity Control) 레이블 — 워크스페이스를 low-integrity로 표시하면 Codex가 쓸 수 있다. 문제는 그 디렉터리 전체가 시스템 전체에서 low-integrity로 바뀐다는 것. Codex만 쓸 수 있게 하려다가 누구나 쓸 수 있게 만들어버리는 상황이다.

세 개 다 아니라는 결론이 나오자 자체 구현으로 전환했다.

Q. 직접 만든 샌드박스는 어떻게 작동하나요?

핵심 재료는 두 가지다. SID(Security Identifier) 와 쓰기 제한 토큰(Write-Restricted Token).

SID는 Windows가 권한을 붙이는 단위다. 실제 사용자뿐 아니라 합성 SID도 만들 수 있다. 팀은 Codex 전용 합성 SID를 생성해서, 이 SID에만 워크스페이스 쓰기 권한을 부여했다. 다른 어떤 프로세스도 해당 SID가 없으면 그 권한을 못 가져간다.

쓰기 제한 토큰은 프로세스를 실행할 때 “이 프로세스는 특정 조건이 맞을 때만 쓸 수 있다”는 추가 검사를 OS가 하도록 만드는 방식이다. Codex 프로세스와 그 자식 프로세스 전부가 이 토큰 아래서 실행된다.

결과적으로:

워크스페이스 내부: 자유롭게 읽고 씀
워크스페이스 외부: 쓰기 차단
인터넷: 사용자가 명시적으로 허용하지 않으면 차단
관리자 권한 불필요: 일반 사용자 계정에서 완전 동작

macOS나 Linux의 경험과 동등한 수준을 관리자 프롬프트 없이 달성했다는 게 핵심이다.

Q. 모바일 Codex, 단순히 “폰에서 보는 것” 아닌가요?

처음엔 그렇게 생각했다. 실제로 써보면 다르다.

ChatGPT 모바일 앱에 Codex가 들어가면서, 폰이 단순한 뷰어가 아니라 실제 조작 콘솔이 됐다. 연결된 머신(노트북, Mac mini, 원격 서버)에서 실행 중인 모든 스레드를 폰에서 실시간으로 볼 수 있고, 승인도 하고, 방향도 꺾을 수 있다.

흘러들어오는 것들: 스크린샷, 터미널 출력, diff, 테스트 결과.

할 수 있는 것들: 스레드 전환, 명령 승인, 모델 교체, 새 작업 시작.

실제 시나리오로 보면 이렇다.

커피 줄 서는 동안 — “이 버그 좀 조사해”라고 시작해놓으면, Codex가 관련 파일 검사, 이슈 재현, 테스트 실행을 알아서 진행한다. 중간에 판단이 필요한 포인트에서 폰으로 승인 알림이 온다.

출퇴근 중 — 리팩터링 작업이 두 갈래 방향에서 막혀 있다. Codex가 tradeoff를 정리해서 폰으로 보여준다. 선택 하나 누르면 도착 전에 작업이 이어진다.

고객 미팅 직전 — 슬랙, 이메일, 문서에 흩어진 이슈를 Codex가 종합해서 브리핑을 만들어준다.

보안이 문제가 되지 않냐고 할 수 있는데, 머신을 공개 인터넷에 직접 노출하지 않는 보안 릴레이 레이어를 쓴다. 파일, 자격증명, 권한은 전부 원래 머신에 있고, 업데이트만 폰으로 흐른다.

Q. 엔터프라이즈 팀에 새로 생긴 건 뭔가요?

5월 14일 업데이트에 세 가지가 함께 나왔다.

Remote SSH 정식 출시(GA) — Codex 데스크탑 앱이 SSH 설정에서 호스트를 자동 감지해서, 원격 환경에 로컬처럼 연결한다. 데스크탑에서 시작한 작업을 폰에서 이어받을 수도 있다.

Hooks GA — 레포지토리·디렉터리별로 Codex 동작을 커스터마이징하는 기능이 정식 출시됐다. 프롬프트 내 시크릿 스캔, 유효성 검사기 실행, 대화 로깅, 메모리 생성 등을 훅으로 연결할 수 있다.

프로그래밍 방식 액세스 토큰 — ChatGPT 워크스페이스 설정에서 직접 발급하는 범위 지정 자격증명이다. CI 파이프라인, 릴리스 워크플로우, 내부 자동화에 쓴다. Enterprise/Business 플랜 대상.

의료 분야 팀을 위한 HIPAA 준수 지원도 추가됐다. ChatGPT Enterprise 워크스페이스에서 Codex를 로컬 환경(CLI, IDE, App)으로 사용하는 경우에 한해 지원된다.

Q. ChatGPT가 “맥락”을 기억한다는 게 좀 무섭지 않나요?

솔직히 처음 들으면 그 생각이 드는 게 맞다. OpenAI도 그 지점을 직접 언급했다.

이번에 추가된 Safety Summary는 일반 메모리나 개인화 기능이 아니다. 드물지만 중요한 고위험 상황에만 적용되도록 매우 좁게 설계됐다.

작동 방식은 이렇다. 안전 추론 전용으로 훈련된 별도 모델이 대화를 모니터링한다. 자살, 자해, 타인 해악과 관련된 신호가 감지되면 짧고 사실적인 메모를 생성한다. 이 메모는 제한된 시간 동안만 보존되고, 다음 대화에서 관련 위험 신호가 나타날 때만 참조된다.

이게 왜 필요한가. 단독으로 보면 평범한 요청이 이전 대화의 고통 신호와 결합되면 완전히 다른 의미를 가질 수 있다. 이 패턴을 잡아야 적절히 대응할 수 있다.

결과는 내부 평가로 확인됐다.

시나리오	단일 대화 개선	GPT-5.5 Instant 복수 대화 개선
자살·자해	+50%	+39%
타인 해악	+16%	+52%

Safety Summary 자체의 품질도 측정했다. 4,000건 이상 평가에서 안전 관련성 4.93/5, 사실 정확도 4.34/5. 일반 대화 품질 저하는 내부 테스트 기준으로 유의미한 수준이 아니었다.

정신과 의사, 심리학자, 법의학 심리 전문가들과 2년 이상 협력해서 설계한 시스템이다. 언제 메모를 만들고, 얼마나 유지하고, 어떤 맥락에서 참조할지를 현장 전문가들과 함께 결정했다.

Q. 세 가지 업데이트를 한 줄로 정리하면?

Windows 샌드박스: 드디어 Windows 사용자도 승인 지옥 없이 Codex를 안전하게 쓸 수 있다.

모바일 Codex: 장기 실행 작업에서 폰이 진짜 조작 콘솔이 됐다. 뷰어가 아니다.

Safety Summary: ChatGPT가 대화 흐름의 맥락을 보고 드문 고위험 상황에서 더 적절하게 반응한다.

세 개 모두 같은 방향이다. Codex를 더 많은 환경에서, 더 안전하게, 더 오래 믿고 맡길 수 있도록.

참고 원문

Building a safe, effective sandbox to enable Codex on Windows (2026-05-13)
Work with Codex from anywhere (2026-05-14)
Helping ChatGPT better recognize context in sensitive conversations (2026-05-14)

코난쌤 블로그

탐색기