Critic-R: 에이전트 검색에서 Retriever를 스스로 진화시키는 폐루프 프레임워크

Agentic search에서 검색 품질이 병목이다. Agent가 아무리 똑똑해도 Retriever가 구리면 답도 구리다. UMass Amherst에서 발표한 Critic-R은 이 병목을 두 단계로 공격한다: 추론 시점에 검색 실패를 복구하고, 그 경험으로 임베딩 모델을 파인튜닝한다.

핵심 구조: 3개 모델의 협업

위 Figure 1은 Critic-R의 전체 파이프라인을 보여준다. 위쪽은 Critic-R-Zero의 추론 시점 루프, 아래쪽은 Critic-Embed의 학습 파이프라인이다.

모델	역할
Agent (Search-R1)	추론 + 검색 호출. 수정하지 않음
Critic (LLM)	Agent의 reasoning trace를 읽고 검색 충분성 판단
Retriever (임베딩 모델)	쿼리 → 문서 검색. Critic-Embed로 학습됨

Critic을 Agent 밖에 분리한 이유가 두 가지 있다. 첫째, multi-step 궤적이 길어지면 agent가 검색 실패에 둔감해지는 overconfidence를 방지한다. 둘째, 어떤 agent에나 plug-and-play로 붙일 수 있다.

Critic-R-Zero: 학습 없이 추론 시점에서 검색 복구

Figure 1 위쪽 루프를 따라가면 이렇게 작동한다:

질문 들어옴 (예: “인셉션 감독이 명예박사 받기 전에 다닌 대학교는?”)
Agent가 thinking trace를 생성하고 검색 쿼리를 뽑음 (“Inception director’s university”)
Retriever가 top-k 문서를 반환
Agent가 문서를 읽고 introspective reasoning 작성 → 여기서 “문서에 감독 이름이 없다”고 쓰면
Critic이 reasoning trace를 보고 검색 실패 판단 → 쿼리를 재작성 (“Christopher Nolan filmmaker biography”)
만족할 때까지 반복, 충분하면 문서를 trajectory에 커밋
최종 정답 도출

gradient 없이 추론 시점에만 작동한다. Critic은 structured prompt로 판단 기준을 명시하고, few-shot examples로 충분/불충분 사례를 보여준다.

Critic-Embed: 검색 궤적으로 임베딩 모델 파인튜닝

Figure 1 아래쪽 학습 파이프라인은 3단계로 구성된다:

궤적 수집: Critic-R-Zero를 훈련셋에 돌려서 성공/실패 검색 궤적 축적
학습 데이터 구성: 성공 = positive, 실패 = hard negative (intra-trajectory)
Contrastive learning: Stella-400M 백본에 InfoNCE loss로 파인튜닝

핵심은 사람 라벨링이 불필요하다는 점이다. 단순 텍스트 유사도가 아니라 agent 추론에 실제 도움이 된 문서를 구분하도록 임베딩 공간이 재구성된다.

Retriever 비교 결과

Figure 2는 Critic-Embed가 기존 retriever 대비 얼마나 나은지 보여준다. Critic 루프 없이 retriever만 비교해도 Stella-400M과 Agentic-R을 모든 top-k에서 압도한다.

top-k	Stella-400M	Agentic-R	Critic-Embed
1	0.447	0.456	0.481
3	0.499	0.497	0.514
5	0.512	0.510	0.527

일반 RAG과의 차이

	일반 RAG	Critic-R
Retriever	고정	학습됨 (자동 라벨)
피드백	없음 (일방통행)	폐루프
학습 데이터	없음	Critic 궤적으로 자동 생성

전체 성능 요약

HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle에서 평가했다.

Critic-R-Zero: 추론 시 refinement만으로 12.4% 상대 개선
Critic-Embed: 임베딩 모델 파인튜닝만으로 7.5% 상대 개선
Critic-R (결합): 10.9% 상대 개선

한 줄 요약

Agent가 검색 결과를 무조건 받아먹는 일방통행을, Critic을 사이에 둔 폐루프로 바꿔서 검색 실패를 복구하고, 그 경험으로 임베딩 모델까지 진화시킨다.

참고문헌

Md Zarif Ul Alam, Alireza Saleki, Hamed Zamani. Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback. UMass Amherst, 2026. arXiv:2606.00590

코난쌤 블로그

탐색기