멀티에이전트 LLM 시스템이 인기입니다. 여러 AI 에이전트가 토론하고 합의해서 더 나은 답을 내는 방식이죠. 그런데 에이전트들끼리 더 많이 대화할수록 정말 더 정확해질까요? DarkForest 논문은 “아니다”라고 대답합니다.

DarkForest 프레임워크 구조: 독립 에이전트들이 각자 답을 생성하고, 답변을 클러스터링한 뒤 보정된 신뢰도 분포로 최종 답을 선택하는 과정.

멀티에이전트의 딜레마

Q. 기존 멀티에이전트 방식의 문제가 뭔가요?

멀티에이전트 시스템은 여러 LLM 에이전트에게 같은 문제를 주고, 결과를 취합해 최종 답을 냅니다. “토론(debate)”, “원탁 회의(round-table)”, “역할 분담” 등 다양한 상호작용 방식이 있는데, 공통점은 에이전트끼리 서로의 추론 과정을 공유한다는 겁니다.

여기서 두 가지 문제가 생깁니다.

첫째, 오류 전파입니다. 한 에이전트가 틀린 중간 추론을 공유하면, 다른 에이전트가 그 오류를 받아들이고 증폭시킵니다. “틀린 것에 대한 자신감 있는 합의”가 형성되는 거죠.

둘째, 비용입니다. 여러 라운드의 통신은 토큰 소비, 지연 시간, 추론 비용을 크게 늘립니다.

DarkForest의 접근: “적게 말하고 더 정확하게”

Q. DarkForest는 어떻게 다른가요?

핵심 아이디어는 통제된 통신(controlled communication) 입니다. 세 단계로 동작합니다.

1단계 — 독립 생성: 각 에이전트가 다른 에이전트의 출력을 전혀 보지 않고 독립적으로 답을 생성합니다. 이렇게 하면 오류 전파가 원천 차단됩니다.

2단계 — 클러스터링: 생성된 답변들을 파싱해 구조화된 후보 레코드로 만들고, 의미적으로 동등한 답들을 클러스터로 묶습니다. 같은 의미의 답이 여러 에이전트에서 나왔다면 하나의 클러스터로 합칩니다.

3단계 — 보정된 신뢰도 분포: 각 클러스터에 대해 보정된(calibrated) 신뢰도를 추정합니다. 그리고 정책에 허용된 증거만 코디네이터에게 전달합니다.

결과적으로 에이전트 간에는 어떤 직접 통신도 없습니다. 모든 정보 교환은 클러스터링과 신뢰도 추정이라는 구조화된 과정을 통해서만 이루어집니다.

DarkForest의 세 단계 동작: 독립 생성→클러스터링→보정된 신뢰도 분포. 에이전트 간 직접 통신 없이 구조화된 정보만 교환한다.

실험 결과

Q. 성능은 어떤가요?

6개 추론 벤치마크에서 테스트했습니다. MATH, HumanEval, MMLU-Pro, GPQA, FinQA, LegalBench죠.

결과는 인상적입니다.

벤치마크DarkForest대표적 멀티에이전트 베이스라인
MATH81.074.0~78.0
MMLU-Pro72.568.0~70.5
GPQA58.150.0~55.0

정확도가 높을 뿐 아니라, 토큰 소비량도 통신 위주 멀티에이전트 대비 크게 감소합니다. 여러 라운드의 대화가 필요 없으니까요.

Q. 왜 덜 대화하는 게 더 나은 건가요?

저자들의 설명은 이렇습니다. 서로의 추론을 보지 않으면 각 에이전트의 오류가 독립적으로 유지됩니다. 그리고 같은 정답을 낸 에이전트의 수가 많을수록, 그 답이 맞을 확률이 높다는 건 직관적으로 자명합니다. 클러스터링은 이 “다수의 독립적 지지”를 정량화하는 방법입니다.

반면 통신을 허용하면 에이전트들의 답이 상호 의존적이 됩니다. 한 에이전트의 오류가 다른 에이전트의 답을 오염시키고, 최종 합의가 틀린 답으로 수렴할 위험이 커집니다.

실용적 시사점

Q. 에이전트 시스템을 만드는 사람에게 어떤 의미인가요?

에이전트 간 통신이 많다고 무조건 좋은 게 아닙니다. 특히 복잡한 추론 과제에서는 오히려 독립적인 답변을 수집해서 구조화된 방식으로 합치는 게 더 효율적입니다. DarkForest는 그 방법론을 구체적으로 보여줬습니다.

비용 측면에서도 매력적입니다. 멀티에이전트 시스템의 가장 큰 걸림돌이 토큰 비용인데, DarkForest는 여러 라운드의 통신을 생략하니 비용이 훨씬 줄어듭니다.

물론 한계도 있습니다. 에이전트들이 서로 다른 하위 작업을 수행하는 분업 시나리오에는 적합하지 않습니다. DarkForest는 같은 문제에 대해 독립적으로 답을 내는 앙상블 시나리오에 특화돼 있습니다.

정리

DarkForest는 멀티에이전트 LLM의 설계 원칙을 재검토하게 만드는 논문입니다. “에이전트끼리 더 많이 소통하게 하자”는 직관 대신, “독립적으로 답을 내고 구조화된 방식으로 합치자”는 접근이 더 나은 성능과 낮은 비용을 동시에 달성할 수 있다는 걸 실험으로 보여줬습니다.

논문은 arXiv:2605.25188에서, HuggingFace 논문 페이지는 여기에서 확인할 수 있습니다.