Qwen-VLA: 로봇 태스크를 하나로 통합하는 비전-언어-액션 모델

알리바라의 Qwen 팀이 로봇 조작(manipulation), 내비게이션(navigation), 궤적 예측(trajectory prediction)을 하나의 모델에서 처리하는 Qwen-VLA를 발표했습니다. 기존에는 태스크마다 전용 모델을 따로 쓰는 게 보통이었는데, 이걸 통합했다는 게 핵심입니다. 논문의 주요 내용을 Q&A로 정리해봤습니다.

Q1. Qwen-VLA가 풀고자 하는 문제가 뭔가요?

로봇 분야에서는 조작, 내비게이션, 궤적 예측 같은 태스크를 서로 다른 모델로 처리해왔습니다. 각각은 자기 영역에서 성능이 괜찮아도, 새로운 환경이나 다른 로봇 하드웨어로 옮기면 금방 성능이 떨어지는 게 문제였죠. 즉, 파편화된 능력과 제한된 일반화 성능이 embodied AI의 오랜 숙제였는데, Qwen-VLA는 이걸 단일 모델로 해결하겠다는 접근입니다.

Q2. 어떻게 하나의 모델로 여러 태스크를 처리하나요?

핵심은 Qwen의 비전-언어(Vision-Language) 스택을 기반으로, 여기에 DiT(Diffusion Transformer) 기반 액션 디코더를 붙여서 연속적인 액션과 궤적을 생성할 수 있게 확장한 겁니다. 기존 VLM이 이미지를 보고 텍스트로 답하는 데 그쳤다면, Qwen-VLA는 거기서 한 걸음 더 나아가 로봇이 취해야 할 구체적인 움직임까지 출력하는 셈이죠.

조작, 내비게이션, 궤적 예측을 모두 “액션-및-궤적 예측(action-and-trajectory prediction)“이라는 통일된 프레임워크 안에 넣어서, 비주얼 그라운딩·공간 추론·연속 액션 생성 능력이 태스크끼리 서로 전이되도록 설계했습니다.

Q3. 학습 데이터는 어떤 걸 쓰나요?

한 가지 소스에 의존하지 않고 여러 종류의 데이터를 대규모로 합쳐서 학습합니다.

로봇 조작 궤적 — 실제 로봇 팔이 물체를 다루는 데이터
인간 egocentric 데모 — 사람이 착용한 카메라 관점의 시연 영상
합성 시뮬레이션 데이터 — 가상 환경에서 생성한 데이터
VLN(Vision-and-Language Navigation) 데이터 — 언어 지시를 따라 이동하는 데이터
궤적 중심 지도(supervision) — 경로 정보가 라벨로 달린 데이터
보조 비전-언어 데이터 — 일반적인 VLM 성능 유지용

이런 다양한 소스를 섞어서 joint pretraining을 진행하는 게 특징입니다.

Q4. 서로 다른 로봇 플랫폼을 어떻게 구분해서 처리하나요?

여기서 재미있는 게 embodiment-aware prompt conditioning이라는 기법입니다. 로봇마다 물리적 구조나 제어 방식이 다르잖아요? 그래서 입력 프롬프트에 현재 사용 중인 로봇의 텍스트 설명을 넣어줍니다. “이건 6-DOF 로봇 팔이고 그립퍼로 물체를 집는 방식이다” 같은 식으로요. 모델이 이 설명을 보고 해당 로봇에 맞는 액션을 생성하는 원리입니다.

덕분에 새로운 로봇 플랫폼이 추가돼도 모델 구조를 바꿀 필요 없이 프롬프트만 수정하면 대응할 수 있습니다.

Q5. 벤치마크 성능은 어떤가요?

논문에서 보고하는 주요 수치는 이렇습니다.

벤치마크	지표	Qwen-VLA-Instruct
LIBERO	성공률	97.9%
Simpler-WidowX	성공률	73.7%
RoboTwin-Easy	성공률	86.1%
RoboTwin-Hard	성공률	87.2%
R2R	OSR	69.0%
RxR	SR	59.6%
ALOHA 실환경 OOD	평균 성공률	76.9%
DOMINO	zero-shot 성공률	26.6%

LIBERO 97.9%는 꽤 인상적인 수치입니다. 조작 태스크에서 거의 완벽에 가까운 성공률이죠. R2R과 RxR 같은 내비게이션 벤치마크에서도 준수한 성능을 보여주고, 특히 주목할 건 ALOHA 실환경 실험에서 OOD(Out-of-Distribution) 상황에서도 76.9%의 성공률을 기록했다는 점입니다.

Q6. DOMINO zero-shot 26.6%는 좀 낮지 않나요?

맞습니다. 동적인 물체 조작을 요구하는 DOMINO 벤치마크에서 zero-shot으로 26.6%라는 건 아직 갈 길이 있다는 의미입니다. 다만 여기서 중요한 건 “zero-shot”이라는 조건입니다. 해당 태스크에 대해 아무런 파인튜닝 없이, 학습 때 본 적 없는 환경에서 4건 중 1건은 성공한다는 건 오히려 일반화 능력의 신호로 볼 수도 있습니다. 앞으로 데이터와 학습 전략이 보완되면 개선 여지가 충분해 보입니다.

Q7. 기존 VLA 모델들과의 차이는 뭔가요?

기존 VLA 연구들은 대부분 조작 태스크 하나에 집중했습니다. OpenVLA, RT-2 같은 모델들이 대표적이죠. 이 모델들은 각자의 영역에서 좋은 성능을 내지만, 내비게이션이나 궤적 예측 같은 다른 태스크로 확장하려면 새로 모델을 만들어야 했습니다.

Qwen-VLA의 차별점은 조작·내비게이션·궤적 예측을 처음부터 통합해서 설계했다는 겁니다. 단일 아키텍처와 학습 파이프라인으로 여러 태스크를 커버하니, 한 태스크에서 학습한 시각적 이해나 공간 추론 능력이 다른 태스크로 자연스럽게 넘어가는 전이 학습 효과를 기대할 수 있습니다.

Q8. 실제 로봇에서도 잘 동작하나요?

ALOHA 로봇으로 실환경 실험을 진행했고, 학습 때와 다른 환경(OOD)에서 평균 76.9%의 성공률을 기록했습니다. 배경, 조명, 물체 배치가 달라져도 꽤 안정적으로 동작한다는 의미입니다. 또한 다양한 로봇 플랫폼에서 실험을 진행한 점도 눈에 띕니다. 시뮬레이션 성능만 좋고 실제로는 안 되는 경우가 많은 로봇 연구에서, 실환경 검증이 포함되어 있다는 건 중요한 의미가 있습니다.

Q9. 이 모델의 한계는 뭐라고 할 수 있나요?

논문에서도 직접적으로 드러나는 몇 가지가 있습니다. 먼저 앞서 언급한 DOMINO처럼 복잡한 동적 조작에서는 아직 성능이 낮습니다. 빠르게 움직이는 물체를 다루거나 정밀한 타이밍이 필요한 태스크에서는 한계가 있어 보입니다.

또한 34페이지짜리 논문인데도 불구하고, 데이터 규모나 학습에 소요된 컴퓨팅 자원에 대한 구체적인 공개가 아직 부족합니다. 실제 서비스나 연구에 활용하려면 이 부분이 더 투명해져야 할 것 같습니다.

Q10. Qwen-VLA가 의미 있는 이유는 뭔가요?

결국 “로봇 파운데이션 모델이 가능한가?”라는 질문에 한 발짝 다가간 결과라고 생각합니다. NLP에서 GPT가 등장하면서 개별 태스크별 모델이 하나의 대형 모델로 통합된 것처럼, 로봇 분야에서도 비슷한 전환이 일어나고 있습니다.

조작·내비게이션·궤적 예측을 하나의 모델로 처리하면서도 각 영역에서 경쟁력 있는 성능을 보여준 건, 태스크 간 전이 학습이 실제로 효과가 있다는 실증입니다. 앞으로 데이터가 더 쌓이고 아키텍처가 개선되면, 진정한 의미의 로봇 파운데이션 모델이 현실이 될 수도 있겠죠.

참고 자료

코난쌤 블로그

탐색기