스마트폰을 조작하는 AI… 평가 환경이 병목이었습니다

모바일 GUI 에이전트가 스마트폰 화면만 보고 앱을 조작하는 시대가 왔습니다. 문제는 “이 에이전트가 제대로 작동하는지 어떻게 검증하느냐”였어요. 에뮬레이터는 무겁고 느리고, 실제 기기는 재현이 불가능하죠. 중국과학원과 북경대 연구진이 발표한 MobileGym은 이 딜레마를 해결하는 브라우저 기반 시뮬레이션 플랫폼입니다.

MobileGym 플랫폼 구조: 브라우저에서 동작하는 병렬 안드로이드 시뮬레이션 환경

기존 평가 환경의 문제가 뭔가요?

모바일 GUI 에이전트 연구는 두 가지 극단 사이에서 갈팡질팡했습니다. 에뮬레이터 기반 환경(AndroidWorld, AndroidLab)은 재현 가능한 평가를 제공하지만, 주로 시스템 유틸리티와 간단한 오픈소스 앱만 다룹니다. 무거운 에뮬레이터 인스턴스를 여러 개 띄우는 것도 부답이고요.

반면 실제 기기를 사용하는 방식은 진짜 앱에서 테스트할 수 있지만, 상태 초기화가 어렵고 결과 재현이 불가능합니다. 강화학습(RL) 훈련에 필수적인 대규모 병렬 롤아웃은 꿈도 못 꾸죠.

MobileGym은 어떻게 다른가요?

핵심은 **“전체 환경 상태를 구조화된 JSON으로 표현”**한다는 점입니다. 에이전트가 스크린샷을 보고 행동하면, MobileGym은 내부 상태를 JSON으로 직렬화합니다. 이게 뭐가 좋은고 하니:

상태 검증: 에이전트가 “연락처 추가”를 수행했는지 JSON diff로 정확히 확인
즉시 초기화: 상태 패치 한 번으로 환경 리셋
병렬 포크: 하나의 서버에 수백 개 인스턴스를 동시에 띄울 수 있음

브라우저에서 동작하기 때문에 에뮬레이터처럼 무겁지도 않습니다. 콜드 스타트도 빠르고요.

실제로 어떤 앱들을 지원하나요?

9개의 널리 쓰이는 앱을 지원합니다. 메시징, 쇼핑, 기차 예매, 소셜 미디어 등 일상적인 모바일 작업을 아우르죠. 각 앱의 상태(사용자 정보, 연락처, 주문 내역, 설정값 등)를 모두 JSON으로 조작할 수 있습니다.

예를 들어 “엄마에게 베이징-상하이 기차표 예매”라는 테스크가 있다면, 연락처와 메시지 데이터를 패치로 주입해서 즉시 테스트 환경을 구성할 수 있어요.

강화학습 훈련에서 효과가 입증됐다고요?

네, 가장 중요한 결과 중 하나입니다. MobileGym에서 RL로 훈련한 에이전트를 실제 기기에 배포했더니, 시뮬레이션에서 얻은 성능 향상의 95.1%를 유지했습니다. “sim-to-real 갭”이 거의 없다는 거죠.

이건 에이전트 연구에서 매우 고무적인 결과입니다. 대규모 병렬 훈련을 시뮬레이션에서 하고, 그 결과를 실제 환경에 그대로 가져갈 수 있다는 의미니까요.

MobileGym의 병렬 롤아웃 구조와 상태 관리 시스템

기존 모바일 에이전트들 성능은 어떻게 나왔나요?

테스트 결과 현재 최고 성능 에이전트들도 여전히 많이 부족합니다. 전반적인 성공률이 낮고, 특히 여러 단계가 필요한 복잡한 테스크에서 크게 어려움을 겪었습니다. Gemini 기반 에이전트가 상대적으로 선전했지만, 9개 앱 전체에서 안정적인 성능을 보이는 에이전트는 없었어요.

이는 모바일 GUI 에이전트 분야가 아직 초기 단계라는 걸 보여줍니다. MobileGym 같은 체계적인 평가 환경이 있어야 어디가 부족한지 정확히 파악하고 개선해 나갈 수 있겠죠.

실무자에게 어떤 의미가 있나요?

모바일 에이전트를 개발 중이거나 연구 중인 분들에게 MobileGym은 강력한 도구입니다. 병렬 RL 훈련, 상태 기반 정확한 평가, 브라우저 접근성까지 갖췄으니까요. 특히 “실제 기기에서 테스트할 수 없는 규모”의 실험을 돌릴 수 있다는 게 큰 장점입니다.

참고 논문: Dingbang Wu et al., “MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research”, arXiv:2605.26114, May 2026.

코난쌤 블로그

탐색기

스마트폰을 조작하는 AI… 평가 환경이 병목이었습니다 — MobileGym 해법