MobileMoE: 스마트폰에서 돌아가는 수십억 파라미터 MoE 모델의 비밀

Mixture-of-Experts(MoE)는 GPT-4, Mixtral 등 대형 언어 모델의 핵심 아키텍처가 됐습니다. 수천억 파라미터 모델에서는 검증된 기법인데, 스마트폰에서 돌아가는 수억 파라미터 모델에서도 효과가 있을까요? Meta가 이 질문에 대한 답을 내놨습니다.

MobileMoE의 온디바이스 배포 구조: 0.30.9B 활성 파라미터, 1.35.3B 총 파라미터의 MoE 모델이 스마트폰에서 실제로 구동되는 모습.

왜 온디바이스 MoE인가

Q. 기존 온디바이스 LLM의 한계가 뭔가요?

스마트폰에서 LLM을 돌리려면 모델이 작아야 합니다. 메모리도 제한적이고 연산량도 제한적이니까요. 현재 대표적인 온디바이스 모델인 MobileLLM-Pro는 약 550MB 메모리를 사용합니다.

MoE는 총 파라미터는 많지만 활성 파라미터는 적은 구조입니다. 입력 토큰마다 전체 전문가(expert) 중 일부만 활성화하니까, 큰 모델의 표현력을 유지하면서 추론 비용은 줄일 수 있죠. 대형 모델에서는 이미 증명된 원리인데, 온디바이스 규모에서는 체계적인 연구가 없었습니다.

온디바이스 MoE 스케일링 법칙

Q. 논문의 첫 번째 기여가 뭔가요?

Meta는 온디바이스 MoE 스케일링 법칙을 도출했습니다. 모바일 메모리와 연산 제약 조건 아래에서 MoE 아키텍처를 최적화하는 수학적 모델입니다.

여기서 핵심 발견은 “온디바이스 최적점(sweet spot)“입니다. 초대형 MoE처럼 극도로 희소한(매우 적은 전문가만 활성화) 구조도 아니고, 밀집 모델처럼 모든 파라미터를 활성화하는 것도 아닙니다. 중간 수준의 희소성 + 세분화된 전문가(fine-grained experts) + 공유 전문가(shared experts) 조합이 메모리와 연산 모두에서 최적이었다고 합니다.

Q. 모델 라인업은 어떻게 되나요?

세 가지 크기로 구성됩니다.

모델	활성 파라미터	총 파라미터	메모리(GB)
MobileMoE-S	0.27B	1.3B	0.68
MobileMoE-M	0.46B	2.4B	1.48
MobileMoE-L	0.88B	5.3B	2.93

MobileMoE-S는 MobileLLM-Pro(0.55GB)와 비슷한 메모리를 쓰면서도 훨씬 더 많은 총 파라미터를 가집니다.

4단계 훈련 레시피

Q. 훈련은 어떻게 진행했나요?

전 과정이 오픈소스 데이터셋으로 진행됐습니다. 4단계 레시피를 사용합니다:

사전훈련(Pre-training): 대규모 텍스트 코퍼스로 기본 언어 능력 확보
중간 훈련(Mid-training): 추가 데이터로 지식 보강
명령어 미세조정(Instruction Fine-tuning): 대화 및 지시 수행 능력 강화
양자화 인식 훈련(Quantization-Aware Training, QAT): INT4 양자화 환경에서도 성능 유지

4단계 QAT가 특히 중요합니다. 실제 모바일 배포에서는 INT4 양자화가 필수인데, 훈련 단계부터 양자화를 고려하면 성능 손실을 최소화할 수 있습니다.

벤치마크 결과

Q. 기존 모델 대비 성능은요?

14개 벤치마크에서 테스트했습니다. 핵심 결과를 요약하면:

vs. 밀집 모델: MobileMoE는 동급 밀집 온디바이스 LLM 대비 2~4배 적은 추론 FLOPs로 동등하거나 더 나은 성능을 냅니다.

vs. 기존 MoE: OLMoE-1B-7B(현재 최고 수준 오픈소스 MoE)와 비교해 최대 60% 적은 파라미터로 동등 이상의 성능을 달성합니다.

실제 스마트폰 성능: MobileMoE-S는 비슷한 INT4 메모리를 사용하는 MobileLLM-Pro 대비:

프리필(prefill) 1.8~3.8배 빠름
디코드(decode) 2.2~3.4배 빠름

MobileMoE와 경쟁 모델들의 벤치마크 성능 비교. 더 적은 활성 파라미터로 동등 이상의 정확도를 달성하면서 추론 속도는 크게 개선됐다.

실제 의미

Q. 이게 왜 중요한가요?

세 가지 측면에서 의미가 있습니다.

1. 프라이버시: 클라우드로 데이터를 보내지 않고도 고성능 LLM을 기기에서 실행할 수 있습니다. 의료, 금융 등 민감한 데이터를 다룰 때 특히 중요합니다.

2. 오프라인 사용: 네트워크 연결 없이도 LLM 기능을 사용할 수 있습니다. 항공 모드에서도 챗봇이나 번역이 가능하다는 뜻이죠.

3. 비용: API 호출 비용이 0원입니다. 대량 사용 시 서버 비용이 크게 절감됩니다.

Q. 한계는 없나요?

당연히 있습니다. 0.3~0.9B 활성 파라미터는 클라우드 기반 대형 모델과 비교하면 여전히 능력에 한계가 있습니다. 복잡한 추론, 장문 생성, 전문 분야 지식 등에서는 GPT-4나 Claude 수준을 기대하긴 어렵습니다.

또한 MoE의 라우팅 오버헤드가 온디바이스에서 얼마나 영향을 미치는지, 다양한 하드웨어에서의 실제 성능은 어떤지 추가 연구가 필요합니다.

정리

MobileMoE는 MoE의 장점을 온디바이스 규모로 가져온 의미 있는 작업입니다. 온디바이스 스케일링 법칙을 도출하고, 4단계 훈련 레시피를 제안하고, 실제 상용 스마트폰에서 구동 가능성을 입증한 점이 특히 인상적입니다.

온디바이스 AI가 점점 중요해지는 상황에서, MoE가 모바일에서도 효과적인 패러다임이라는 걸 보여준 논문입니다. 논문 전문은 arXiv:2605.27358에서 확인할 수 있습니다.

코난쌤 블로그

탐색기