Q. “큰 모델 하나 쓰면 되는데, 왜 굳이 여러 모델을 조율하죠?”

맞는 말이에요. GPT-5 같은 범용 거대 모델 하나면 대부분의 작업이 해결되니까요. 그런데 현실은 조금 다릅니다. 수학 문제에는 수학 특화 모델이 더 강하고, 차트 해석에는 차트 전문 모델이 낫고, 의료 이미지 분석은 의료 도메인 모델이 압도적이에요. 하나의 모델이 모든 걸 다 잘할 수는 없는 거죠.

문제는 이걸 “어떻게 자동으로 골라서 쓰느냐”예요. 지금까지는 사람이 규칙을 짜두거나, 그냥 제일 큰 모델한테 전부 맡기는 식이었죠. 싱가포르 국립대학교(NUS) 연구팀이 여기에 강화학습을 들이밀었습니다.

Q. Maestro가 뭔가요?

Maestro(멀티모달 에이전트 for 전문가-스킬 타겟 강화 오케스트레이션)는 지휘자예요. 교향악단에서 지휘자가 악기별 연주자를 보고 “여기선 오보에, 다음엔 첼로” 하고 지시하잖아요? Maestro도 똑같은 역할을 합니다.

단, 지휘자 자체는 4B(40억) 파라미터밖에 안 되는 가벼운 모델이에요. 대신 무대 위에는 여러 전문가 모델이 대기하고 있습니다.

  • Qwen3-VL-8B — 일반 비전-언어
  • Chart-R1 — 차트·그래프 해석
  • Intern-S1-mini — 수학 추론
  • MedGemma-1.5-4B — 의료 영상
  • DeepEyes-7B — 고해상도 시각 인식
  • GLM-OCR — 문서 OCR
  • 이 외에도 몇 가지 더

Maestro는 매 추론 단계마다 네 가지를 결정합니다.

  1. 지금 외부 전문가를 부를 필요가 있는가?
  2. 누구를 부를 건가?
  3. 어떤 스킬(기능)을 쓰게 할 건가?
  4. 충분한 정보가 모였으면 종료할 건가?

이 결정을 강화학습으로 학습한 정책(policy)이 내립니다. 사람이 단계별로 라벨링해 줄 필요 없이, 최종 결과가 맞았는지만으로 보상을 줘서 학습합니다.

Q. 계층적이라는 건 무슨 뜻인가요?

핵심은 2단계 스킬 라이브러리예요. 단순히 “이 모델 호출”이 아니라, 모델 위에 스킬이 얹혀 있는 구조입니다.

예를 들어볼게요. 차트 문제가 들어왔다고 치죠.

  • 1단계: Maestro가 “차트 해석이 필요하다”고 판단
  • 2단계: Chart-R1 모델 + 차트 데이터 추출 스킬 조합을 선택
  • 결과를 받아서 다음 추론 단계로 전달

이런 식으로 모델과 스킬이 짝을 이루는 계층 구조 덕분에, 검색 공간이 크게 줄어듭니다. 모든 모델×모든 스킬 조합을 다 탐색할 필요 없이, 계층적으로 좁혀가면서 최적의 조합을 찾는 거죠.

Q. 성능은 어떤가요?

여기가 진짜 흥미로운 부분입니다. 10개의 멀티모달 벤치마크(수학 추론, 차트 이해, 고해상도 인식, 도메인별 분석 등)에서 평가했는데요.

  • Maestro (4B 오케스트레이터): 평균 70.1%
  • GPT-5: 69.3%
  • Gemini-2.5-Pro: 68.7%

4B짜리 지휘자가 이끄는 전문가 앙상블이 GPT-5와 Gemini-2.5-Pro를 이겼습니다. 물론 전문가 모델들 자체도 좋은 거 맞지만, 핵심은 조율의 질이에요. 아무리 좋은 연주자가 있어도 지휘가 엉망이면 소용없으니까요.

더 주목할 점은 일반화입니다. 학습에 쓰이지 않았던 새로운 도메인이나 모델이 추가되어도, 학습된 정책이 합리적으로 라우팅을 수행합니다. 새 악기가 들어와도 악보만 보면 배치할 수 있는 지휘자처럼요.

Q. 실제로 쓰려면 어떤 의미가 있나요?

몇 가지로 정리해볼게요.

비용 절감. 모든 요청을 GPT-5 급 모델에 보낼 필요가 없어요. 간단한 OCR은 GLM-OCR에, 복잡한 수학은 Intern-S1-mini에 맡기면 됩니다. 전체 API 비용을 크게 줄일 수 있죠.

플러그 앤 플레이. 새로운 전문가 모델이 나오면 레지스트리에 추가하기만 하면 됩니다. 오케스트레이터를 다시 학습하지 않아도, 기존 정책이 새 모델의 위치를 파악해서 적절히 활용합니다.

속도. 4B 모델이 결정을 내리는 건 밀리초 단위예요. 거대 모델 한 번 호출하는 동안 Maestro는 여러 전문가에게 작업을 분배하고 결과를 취합할 수 있습니다.

한계도 있습니다. 여러 모델을 동시에 서비스해야 하니 인프라 복잡도가 올라가고, 초기에 학습 데이터와 보상 설계가 필요합니다. 또 단순 텍스트 작업보다는 멀티모달 작업에서 시너지가 큰 구조예요.

Q. 결론은?

“모델이 크면 클수록 좋다”는 통념에 대한 반례입니다. Maestro는 크기 대신 조율에 베팅했고, 그 베팅이 통했습니다. 단일 거대 모델에 모든 걸 맡기는 대신, 작은 전문가들을 상황에 맞게 부르는 방식이 더 효율적일 수 있다는 걸 보여준 거죠.

에이전트 시스템을 설계하거나 AI 인프라 비용을 고민하고 있다면, “어떤 모델을 쓸까”보다 “어떻게 조율할까”를 먼저 물어보세요. Maestro가 그 질문에 대한 꽤 설득력 있는 답을 던져줍니다.


참고: Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles — Jinyang Wu et al., NUS, 2026