Maestro — 작은 모델들로 GPT-5를 이긴 지휘자

Q. “큰 모델 하나 쓰면 되는데, 왜 굳이 여러 모델을 조율하죠?”

맞는 말이에요. GPT-5 같은 범용 거대 모델 하나면 대부분의 작업이 해결되니까요. 그런데 현실은 조금 다릅니다. 수학 문제에는 수학 특화 모델이 더 강하고, 차트 해석에는 차트 전문 모델이 낫고, 의료 이미지 분석은 의료 도메인 모델이 압도적이에요. 하나의 모델이 모든 걸 다 잘할 수는 없는 거죠.

문제는 이걸 “어떻게 자동으로 골라서 쓰느냐”예요. 지금까지는 사람이 규칙을 짜두거나, 그냥 제일 큰 모델한테 전부 맡기는 식이었죠. 싱가포르 국립대학교(NUS) 연구팀이 여기에 강화학습을 들이밀었습니다.

Q. Maestro가 뭔가요?

Maestro(멀티모달 에이전트 for 전문가-스킬 타겟 강화 오케스트레이션)는 지휘자예요. 교향악단에서 지휘자가 악기별 연주자를 보고 “여기선 오보에, 다음엔 첼로” 하고 지시하잖아요? Maestro도 똑같은 역할을 합니다.

단, 지휘자 자체는 4B(40억) 파라미터밖에 안 되는 가벼운 모델이에요. 대신 무대 위에는 여러 전문가 모델이 대기하고 있습니다.

Qwen3-VL-8B — 일반 비전-언어
Chart-R1 — 차트·그래프 해석
Intern-S1-mini — 수학 추론
MedGemma-1.5-4B — 의료 영상
DeepEyes-7B — 고해상도 시각 인식
GLM-OCR — 문서 OCR
이 외에도 몇 가지 더

Maestro는 매 추론 단계마다 네 가지를 결정합니다.

지금 외부 전문가를 부를 필요가 있는가?
누구를 부를 건가?
어떤 스킬(기능)을 쓰게 할 건가?
충분한 정보가 모였으면 종료할 건가?

이 결정을 강화학습으로 학습한 정책(policy)이 내립니다. 사람이 단계별로 라벨링해 줄 필요 없이, 최종 결과가 맞았는지만으로 보상을 줘서 학습합니다.

Q. 계층적이라는 건 무슨 뜻인가요?

핵심은 2단계 스킬 라이브러리예요. 단순히 “이 모델 호출”이 아니라, 모델 위에 스킬이 얹혀 있는 구조입니다.

예를 들어볼게요. 차트 문제가 들어왔다고 치죠.

1단계: Maestro가 “차트 해석이 필요하다”고 판단
2단계: Chart-R1 모델 + 차트 데이터 추출 스킬 조합을 선택
결과를 받아서 다음 추론 단계로 전달

이런 식으로 모델과 스킬이 짝을 이루는 계층 구조 덕분에, 검색 공간이 크게 줄어듭니다. 모든 모델×모든 스킬 조합을 다 탐색할 필요 없이, 계층적으로 좁혀가면서 최적의 조합을 찾는 거죠.

Q. 성능은 어떤가요?

여기가 진짜 흥미로운 부분입니다. 10개의 멀티모달 벤치마크(수학 추론, 차트 이해, 고해상도 인식, 도메인별 분석 등)에서 평가했는데요.

Maestro (4B 오케스트레이터): 평균 70.1%
GPT-5: 69.3%
Gemini-2.5-Pro: 68.7%

4B짜리 지휘자가 이끄는 전문가 앙상블이 GPT-5와 Gemini-2.5-Pro를 이겼습니다. 물론 전문가 모델들 자체도 좋은 거 맞지만, 핵심은 조율의 질이에요. 아무리 좋은 연주자가 있어도 지휘가 엉망이면 소용없으니까요.

더 주목할 점은 일반화입니다. 학습에 쓰이지 않았던 새로운 도메인이나 모델이 추가되어도, 학습된 정책이 합리적으로 라우팅을 수행합니다. 새 악기가 들어와도 악보만 보면 배치할 수 있는 지휘자처럼요.

Q. 실제로 쓰려면 어떤 의미가 있나요?

몇 가지로 정리해볼게요.

비용 절감. 모든 요청을 GPT-5 급 모델에 보낼 필요가 없어요. 간단한 OCR은 GLM-OCR에, 복잡한 수학은 Intern-S1-mini에 맡기면 됩니다. 전체 API 비용을 크게 줄일 수 있죠.

플러그 앤 플레이. 새로운 전문가 모델이 나오면 레지스트리에 추가하기만 하면 됩니다. 오케스트레이터를 다시 학습하지 않아도, 기존 정책이 새 모델의 위치를 파악해서 적절히 활용합니다.

속도. 4B 모델이 결정을 내리는 건 밀리초 단위예요. 거대 모델 한 번 호출하는 동안 Maestro는 여러 전문가에게 작업을 분배하고 결과를 취합할 수 있습니다.

한계도 있습니다. 여러 모델을 동시에 서비스해야 하니 인프라 복잡도가 올라가고, 초기에 학습 데이터와 보상 설계가 필요합니다. 또 단순 텍스트 작업보다는 멀티모달 작업에서 시너지가 큰 구조예요.

Q. 결론은?

“모델이 크면 클수록 좋다”는 통념에 대한 반례입니다. Maestro는 크기 대신 조율에 베팅했고, 그 베팅이 통했습니다. 단일 거대 모델에 모든 걸 맡기는 대신, 작은 전문가들을 상황에 맞게 부르는 방식이 더 효율적일 수 있다는 걸 보여준 거죠.

에이전트 시스템을 설계하거나 AI 인프라 비용을 고민하고 있다면, “어떤 모델을 쓸까”보다 “어떻게 조율할까”를 먼저 물어보세요. Maestro가 그 질문에 대한 꽤 설득력 있는 답을 던져줍니다.

참고: Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles — Jinyang Wu et al., NUS, 2026

코난쌤 블로그

탐색기