minWM: 비디오 diffusion을 실시간 인터랙티브 월드 모델로
비디오 diffusion 모델은 화질 면에서 이미 인상적인 수준에 도달했습니다. Sora, Kling, HunyuanVideo 같은 모델들이 보여주는 영상 품질을 보면 “이걸 게임 엔진처럼 실시간으로 쓸 수 있으면 좋겠다”는 생각이 자연스럽게 듭니다. 그런데 막상 해보면 간극이 꽤 큽니다. 생성은 잘하는데, 제어하려면? 실시간으로? 인과성까지 유지하면서? — 각각이 따로따로 어려운 문제인데 다 같이 해결해야 합니다.
ShengShu·THU·RUC 연합팀이 발표한 minWM은 이 간극을 메우는 풀스택 오픈소스 프레임워크입니다. 단순히 하나의 모델을 공개한 게 아니라, 기존 비디오 diffusion 모델을 실시간 인터랙티브 월드 모델로 변환하는 전체 파이프라인을 열어놓았습니다. 논문은 arXiv:2605.30263, 코드는 GitHub에서 확인할 수 있습니다.
Q. “인터랙티브 월드 모델”이라는 게 정확히 뭘 의미하나요?
비디오 생성 모델은 프롬프트를 주면 영상을 뽑아주는 방식이죠. 한 번 생성이 시작되면 중간에 개입할 수 없습니다. 인터랙티브 월드 모델은 다릅니다. 사용자가 카메라를 움직이면 그에 맞춰 다음 프레임을 즉각 생성합니다. 게임 엔진처럼 행동에 반응하는 거죠. 이게 되려면 세 가지가 필요합니다. 제어 가능성(controllability), 인과성(causality), 그리고 저지연(low-latency)입니다. 카메라 궤적을 입력으로 받아 그에 맞는 장면을 생성하고, 이전 프레임의 정보가 누출되지 않아야 하며, 실시간에 가까운 속도로 돌아가야 합니다.
Q. 기존 비디오 diffusion 모델을 그대로 쓰면 안 되나요?
양방향(bidirectional) diffusion 모델은 전체 프레임을 동시에 보고 노이즈를 제거하는 방식입니다. 품질은 좋지만, 이 구조로는 “이전 프레임만 보고 다음 프레임을 생성한다”는 인과적(causal) 생성이 불가능합니다. 미래 프레임 정보가 현재 프레임 생성에 영향을 주기 때문이죠. 그래서 구조적 변환이 필요합니다. 기존 모델의 학습된 표현 능력은 유지하면서, 인과적 자기회귀(autoregressive) 구조로 바꾸고, 여기에 few-step distillation을 얹어 속도까지 확보해야 합니다. minWM은 바로 이 변환 과정을 체계적으로 정리한 프레임워크입니다.
Q. minWM의 파이프라인은 구체적으로 어떻게 구성되어 있나요?
크게 두 단계로 나뉩니다. Phase 1에서는 기존 양방향 비디오 diffusion 모델에 카메라 제어 능력을 얹는 bidirectional SFT를 진행합니다. Phase 2에서는 이걸 인과적 few-step 생성기로 증류하는데, 여기서 Causal Forcing / Causal Forcing++ 파이프라인이 들어갑니다. 세부적으로는 Stage 1 Teacher Forcing AR Diffusion, Stage 2a Causal ODE, Stage 2b Causal Consistency Distillation, Stage 3 Asymmetric DMD with Self Rollout으로 이어집니다. 최종적으로 4-step 만으로 실시간 rollout이 가능한 모델이 완성됩니다.
Q. Causal Forcing과 Causal Forcing++의 차이가 뭔가요?
Causal Forcing은 AR diffusion 학습 후 causal ODE 증류를 수행하는 파이프라인입니다. 인과적 생성을 강제하는 핵심 아이디어인데, teacher forcing 방식으로 학습된 AR diffusion 모델을 causal ODE 솔버로 증류하는 과정을 거칩니다. Causal Forcing++은 여기에 causal consistency distillation(CD)을 추가한 확장판입니다. consistency distillation은 한 번에 여러 스텝을 건너뛸 수 있게 해주는 기법이죠. 결과적으로 동일한 4-step에서 더 나은 품질을 얻을 수 있습니다. 논문에서는 두 경로 모두 구현을 제공하고 성능을 비교합니다.
Q. Asymmetric DMD는 어떤 역할을 하나요?
DMD는 Distribution Matching Distillation의 약자입니다. few-step 생성기의 출력 분포를 teacher 모델의 분포에 맞추는 기법인데, minWM에서는 asymmetric 버전을 사용합니다. 핵심은 student가 자기 자신의 rollout 결과를 피드백으로 받는다는 점(self rollout)입니다. 증류 과정에서 teacher의 출력뿐 아니라 student가 직접 생성한 시퀀스를 기반으로 학습하므로, 실제 추론 시 발생할 수 있는 에러 누적(error accumulation)을 줄이는 효과가 있습니다. 실시간 환경에서 긴 시퀀스를 돌릴 때 안정성이 중요한데, 이런 설계가 그 부분을 보완합니다.
Q. 어떤 백본 모델을 지원하나요?
두 가지 대표적인 오픈 백본을 지원합니다. Wan2.1-T2V-1.3B는 텍스트-비디오 생성 모델로, cross-attention 기반 조건 주입 방식을 사용합니다. HY1.5-TI2V-8B는 HunyuanVideo 1.5 기반의 텍스트+이미지-비디오 모델로, MMDiT( Massive Multi-Modal Diffusion Transformer) 아키텍처를 사용합니다. 아키텍처가 다르기 때문에 조건 주입 방식도 다르고, 파이프라인 적용 방식도 달라집니다. minWM은 두 경로 모두에 대해 전체 4-stage 학습 코드와 체크포인트를 제공합니다. 또한 이미 카메라 제어가 가능한 HY-WorldPlay 같은 기존 월드 모델을 새로운 데이터 분포나 레이턴시 타겟에 맞게 적응시키는 것도 지원합니다.
Q. 실시간이라고 하면 구체적으로 어느 정도 속도인가요?
최종 4-step 모델 기준으로 실시간에 가까운 rollout이 가능합니다. 논문에서는 streaming inference를 지원하는데, 프레임 단위로 순차적으로 생성하면서 이전 프레임의 latent를 재사용하는 방식입니다. 정확한 FPS는 하드웨어와 백본에 따라 다르겠지만, 1.3B 모델 기준으로는 게임플레이 수준의 인터랙션이 가능한 것으로 보입니다. 8B 모델은 품질은 더 높지만 속도 면에서는 상대적으로 무거운 건 어쩔 수 없고, 여기서 few-step distillation의 중요성이 더 커집니다.
Q. 데이터 구축은 어떻게 하나요?
minWM은 데이터 구축 파이프라인까지 공개합니다. 카메라 포즈가 페어링된 학습용 데이터셋을 구성하는 방법부터, 이를 latent로 변환하는 전체 처리 파이프라인까지 문서화되어 있습니다. 비디오 월드 모델 학습에 필요한 데이터는 일반 비디오 생성과 달리 카메라 궤적 정보가 필수적입니다. 어떤 포즈 표현을 쓸지, 궤적의 품질이 모델 성능에 미치는 영향은 어떤지 — 이런 실용적인 부분을 ablation으로 제공합니다.
Q. 실용적인 ablation이 있다고 들었는데, 어떤 걸 확인할 수 있나요?
세 가지 주요 ablation을 제공합니다. 첫째, 카메라 궤적 품질에 따른 생성 결과 비교입니다. 궤적 정보의 정밀도가 모델의 제어 가능성에 미치는 영향을 정량화합니다. 둘째, controllability 훈련 단계 수에 따른 성능 변화입니다. 카메라 제어 fine-tuning을 얼마나 오래 해야 안정적인 제어가 가능한지 가이드를 줍니다. 셋째, 최소 배치 크기 요구사항입니다. FSDP + sequence parallelism을 활용한 분산 학습 환경에서 실제로 필요한 리소스를 정리해놓았습니다. 연구실에서 재현하려는 사람들에게 유용한 정보입니다.
Q. “풀스택 오픈소스”라고 강조하던데, 실제로 뭘 공개한 건가요?
단순히 모델 가중치만 공개한 게 아닙니다. 전체 4-stage 학습에 대한 실행 가능한 스크립트, 각 스테이지의 입력/출력 체크포인트, 문서, 추론 코드, 데모 스크립트를 모두 제공합니다. 각 스테이지마다 중간 체크포인트를 공개한 게 중요한데, 사용자가 원하는 스테이지에서 멈추거나, 다른 방법으로 교체하거나, 포크해서 변형할 수 있습니다. 데이터 처리 코드부터 학습, 추론까지 전체 과정이 열려 있고, Claude skills라는 형태로 실무 경험도 문서화해놓았습니다. 초보자도 따라할 수 있도록 설계된 튜토리얼 성격이 강합니다.
Q. 기존 월드 모델 연구와 비교하면 어떤 위치인가요?
DIAMOND, GameNGen, Oasis 같은 기존 연구들도 비디오 diffusion을 월드 모델로 활용하려는 시도였습니다. 하지만 대부분 특정 게임 환경에 맞춘 단일 모델 수준의 공개에 그쳤습니다. minWM의 차별점은 범용 프레임워크라는 점입니다. 백본을 교체할 수 있고, 증류 전략을 선택할 수 있고, 데이터를 바꿔서 새로운 환경에 적응시킬 수 있습니다. 그리고 전체 과정을 재현 가능한 레시피로 정리해놓았습니다. 연구자 입장에서는 “이 논문의 모델”이라기보다 “이 논문의 방법론”을 가져다가 쓸 수 있다는 게 큰 장점입니다.
Q. 어떤 사람이 이걸 쓰면 좋을까요?
비디오 생성 기반으로 인터랙티브 환경을 만들고 싶은 연구자, 시뮬레이션 환경 구축에 관심 있는 엔지니어, 월드 모델 아키텍처를 실험해보고 싶은 학생 모두 해당됩니다. 특히 기존에 공개된 비디오 diffusion 백본을 가지고 있고, 이걸 월드 모델로 바꾸는 방법을 찾고 있었다면 minWM이 거의 유일한 체계적 가이드입니다. 전체 학습 코드와 체크포인트가 제공되므로 밑바닥부터 시작할 필요 없이 원하는 스테이지부터 진입할 수 있습니다. Hugging Face 논문 페이지와 GitHub 저장소에서 바로 시작할 수 있습니다.
이 글은 arXiv:2605.30263 논문과 공개된 GitHub 저장소를 기반으로 작성되었습니다.