멀티에이전트 LLM 시스템에서 가장 많이 쓰는 방식은 에이전트끼리 대화를 시키는 거다. 토론하게 하고, 서로의 추론 과정을 공유하고, 몇 라운드를 거치며 답을 다듬는다. 직관적으로는 말이 많을수록 좋아질 것 같다. 더 많은 시각이 모이고, 실수가 교정되고, 합의가 탄탄해지니까.
그런데 이 논문은 정반대의 질문을 던진다. 에이전트끼리 덜 말하게 하면 오히려 더 정확해지지 않을까?
DarkForest(Yi Li 외, University of Texas at Dallas)는 불완전 정보 게임이론에서 영감을 받아, 에이전트 간 통신을 최소화하는 대신 구조화된 신뢰도 분포를 통해 최종 답을 결정하는 프레임워크다. 6개 추론 벤치마크에서 기존 통신 집약적 방식보다 정확도가 높으면서도 토큰 소모량은 최대 6.5배까지 줄었다.
Q&A로 살펴보는 DarkForest
Q1. 기존 멀티에이전트 방식의 문제가 뭐였나요?
두 가지 핵심 문제를 지적합니다. 첫째, **오류 전파(error propagation)**입니다. 한 에이전트가 잘못된 추론을 공유하면, 다른 에이전트가 그걸 채택하고 다듬고 증폭합니다. 결과적으로 시스템 전체가 “틀렸지만 자신만만한 합의”에 수렴하게 됩니다. 둘째, 통신 오버헤드입니다. 여러 라운드에 걸쳐 전체 추론 트레이스를 복사하다 보니 토큰 소모량이 급증하고, 지연 시간과 추론 비용도 함께 커집니다.
논문에서 특히 인상적인 건 Figure 1의 실험입니다. MATH 데이터셋에서 독립적으로 질의한 3개 에이전트 중 최소 하나가 정답을 낸 비율(가용성 상한선)이 있는데, 기존 조정 방법들의 최종 정확도는 이 상한선보다 훨씬 낮습니다. 즉, 이미 에이전트 중에 정답이 있는데도 조정 과정에서 그걸 잃어버린다는 뜻입니다.
Q2. DarkForest는 어떻게 다르게 접근하나요?
세 가지 설계 원칙으로 요약됩니다.
독립성 유지: 에이전트들은 서로의 출력을 보지 않고 독립적으로 답을 생성합니다. 이렇게 하면 에이전트 간 합의가 진짜 독립적 검증의 증거가 됩니다. 한 에이전트가 다른 에이전트의 잘못된 추론에 영향받는 일도 없습니다.
보정된 집계(calibrated aggregation): 단순히 “몇 표를 받았나”로 결정하지 않습니다. 각 에이전트의 과거 신뢰도, 파싱 품질, 신뢰도 점수, 지원 패턴 신뢰도, 독립성 보정까지 여러 요소를 조합해 보정된 신뢰도 분포를 만듭니다.
통제된 통신: 코디네이터는 전체 원문 트레이스가 아니라 정책이 허용한 증거만 받습니다. 후보, 지원 패턴, 신뢰도 점수, 사후 확률, 불확실성 지표 같은 압축된 요약만 전달됩니다.
Q3. “보정된 신뢰도 분포”라는 게 구체적으로 어떤 건가요?
수식으로 보면 이해가 쉽습니다. 각 후보 클러스터에 점수를 매기는데, 이 점수는 다섯 가지 요소의 곱으로 이루어집니다:
- 에이전트 신뢰도(αᵢ): 해당 에이전트가 과거에 얼마나 자주 맞았는지
- 파싱 품질 페널티(ρᵢ): 출력이 깔끔하게 파싱되었는지, 형태가 불완전한 경우 가중치를 낮춤
- 독립성 보정(δᵢ): 상관관계가 높은 에이전트들이 같은 답을 냈을 때, 독립적 검증이 아닌 것으로 보정
- 신뢰도 승수(ϕ(cᵢ)): 0.5~1.5 범위로 제한되어, 낮은 신뢰도의 후보도 여전히 증거로 기여하고 높은 신뢰도가 전체를 장악하지 못하게 함
- 지원 패턴 신뢰도(R_πz): “몇 명이 동의했나”뿐 아니라 “누가 동의했나”를 평가. 보완적인 에이전트 간 합의는 상관관계가 높은 에이전트 간 합의보다 더 강한 증거로 처리됩니다.
이 점수들을 정규화하면 사후 확률 분포가 나오고, 가장 높은 후보를 최종 답으로 선택합니다.
Q4. 실제 성능은 어떤가요?
6개 벤치마크에서 6개 베이스라인과 비교했습니다. 숫자로 보는 게 직관적입니다.
| 벤치마크 | DarkForest | 2위 베이스라인 | 개선 폭 |
|---|---|---|---|
| MATH (Exact Match) | 76.80% | Self-Consistency 71.80% | +5.00%p |
| MMLU-Pro (Accuracy) | 58.38% | Debate 55.86% | +2.52%p |
| HumanEval (Pass@1) | 84.00% | Mixture-of-Agent 84.00% (동점) | — |
| FinQA (Program Acc.) | 11.33% | Mixture-of-Agent 4.67% | +6.66%p |
| LegalBench (Exact Match) | 68.00% | ReConcile 69.00% | -1.00%p |
MATH에서 Self-Consistency 대비 5.00%p, FinQA 프로그램 정확도에서는 Mixture-of-Agent 대비 무려 30.7%의 상대적 개선을 보입니다. HumanEval은 Mixture-of-Agent와 동점이고, LegalBench에서는 ReConcile보다 1%p 낮지만 나머지 베이스라인보다는 높습니다.
Q5. 토큰 절감 효과는 어느 정도인가요?
Graph-of-Agent (Mean)과 비교했을 때 이렇습니다:
| 벤치마크 | Graph-of-Agent (Mean) | DarkForest | 절감율 |
|---|---|---|---|
| MATH | 13.8k | 4.7k | 3.0× |
| MMLU-Pro | 24.6k | 5.9k | 4.2× |
| GPQA | 13.0k | 3.2k | 4.1× |
| LegalBench | 8.7k | 1.9k | 4.6× |
HumanEval에서는 샘플당 1.5k 토큰만 사용합니다. Graph-of-Agent가 8.5k, 다른 베이스라인이 7.2k를 쓰는 것과 비교하면 큰 차이입니다. 에이전트들이 독립적으로 답만 생성하고 코디네이터가 압축된 요약만 받기 때문에, 통신 비용 자체가 구조적으로 낮아집니다.
Q6. 왜 “다크 포레스트”라는 이름인가요?
논문에서 명시적으로 이름의 유래를 설명하진 않지만, 설계 철학과 잘 맞습니다. 짙은 숲속에서는 시야가 제한되어 있습니다. 각 에이전트가 자기 위치에서만 관찰하고(독립성), 코디네이터는 제한된 신호만 받아 판단합니다(통제된 통신). 불완전 정보 게임이론의 영감을 떠올리면, “정보가 제한된 환경에서 어떻게 합리적 결정을 내리나”라는 질문에 대한 답이 이 프레임워크의 핵심이기도 합니다.
Q7. 코디네이터는 최종 결정을 어떻게 내리나요?
코디네이터는 LLM 기반으로, 공개된 증거를 “증거”가 아니라 “사전 정보(prior)“로 취급합니다. 코디네이터가 자체적으로 답을 생성하고, 여기에 결정론적 가드레일이 붙습니다.
가드레일은 신뢰도 상태(belief state)가 어떤 후보를 강하게 지지하는데 코디네이터의 출력과 충돌할 때만 개입합니다. 사후 확률 임계값과 마진 임계값 두 가지 조건을 모두 만족해야 합니다. MATH에서 오버라이드율은 13.80%, 그중 잘못된 오버라이드는 3.20%였습니다. 임계값을 바꿔도 결과가 안정적이라고 합니다.
Q8. 한계점은 없나요?
HumanEval에서는 최고 성능이 아닙니다. Graph-of-Agent (Max)가 86.00%로 2%p 높습니다. 코드 생성에서는 후보 프로그램이나 구현 디테일을 더 풍부하게 보존하는 게 유리할 수 있다는 점을 시사합니다. DarkForest의 압축된 통신이 코드 생성에서는 정보 손실로 작용할 수 있는 셈입니다.
또한 논문 자체에서 지적하듯, 에이전트들이 완전히 독립적이라고 가정하진 않습니다. 같은 훈련 데이터나 아키텍처를 공유할 수 있고, 독립성 보정 항(δᵢ)으로 이를 완화하지만 완벽하진 않을 것입니다.
핵심 시사점
-
더 많은 소통이 항상 좋은 건 아니다. 에이전트 간 통신을 최소화하면서도 정확도를 높일 수 있다는 걸 실험적으로 보여줬습니다. 오류 전파를 막고 독립적 증거를 보존하는 게 더 중요합니다.
-
합의의 질이 합의의 양보다 중요하다. “몇 명이 동의했나”보다 “누가 동의했나”를 따지는 지원 패턴 신뢰도, 독립성 보정 같은 장치가 실제로 성능 차이를 만듭니다.
-
실용적 이점이 크다. 정확도를 높이면서 토큰 소모량을 3~6.5배 줄이는 건 실 서비스 환경에서 비용과 지연 시간 모두에 영향이 있습니다. 멀티에이전트 시스템을 실제로 배포하려는 경우 고려해볼 만한 접근입니다.
-
게임이론과 AI 시스템 설계의 교차점. 불완전 정보 게임이론의 원칙을 LLM 에이전트 조정에 적용한 사례로, 다른 분야의 이론적 통찰이 실제 AI 시스템 성능 향상으로 이어질 수 있음을 보여줍니다.
논문: DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs 코드: github.com/PearLoveTana/DarkForest_Review 소속: University of Texas at Dallas, University of California, Davis