1. 왜 이 글이 필요한가

요즘 AI 코딩 에이전트, 카드뉴스 메이커, 블로그 자동화… 다 “verifier(검증자)“가 핵심임. 그런데 verifier를 설계하라고 하면 대부분 막연함. “잘 만들어진 결과물”이 뭔지 우리는 알지만, 그걸 글로 적으려는 순간 손이 멈춤.

이게 폴라니가 말한 묵시지(tacit knowledge) — “we know more than we can tell.” 좋은 디자인, 좋은 글, 좋은 카드뉴스를 알아보는 능력은 있는데, 그 기준을 명시할 줄 모름.

근데 하네스를 만들려면 그걸 명시해야 함. 어떻게?


2. 함정 1: LLM 100%면 그건 거울임

taste를 rubric으로 떨궜다고 verifier 완성 아님

rubric을 누가 채점하느냐가 진짜 게임임. 대부분 LLM-as-judge로 처리함. 빠르고 싸고 그럴듯함. 근데 함정 있음.

Self-Similarity Bias의 루프

채점 LLM이 작성 LLM과 self-similarity bias 있음. 같은 맹점 박혀있음. 채점이 자꾸 PASS 나옴. 결국 본인이 결과물 보고 “이게 왜 PASS임?” 하며 한숨 쉬는 루프 됨.

GAN 비유 한계

GAN은 generator·discriminator가 같이 학습해서 discriminator가 generator 약점을 따라잡음. 하네스는 inference만 함. 학습 없음. 그래서 LLM judge는 generator 약점을 영원히 못 따라잡음.

해결책: 정량 신호 비중 늘리기

verifier 안에 비-LLM 신호 비중을 늘리는 것:

  • 코드면 test exit
  • 번역이면 COMET·BLEU
  • 카드뉴스면 WCAG 대비비·폰트크기·CLIP score

정량 신호 1개라도 박혀있으면 LLM judge가 무한 PASS 못 냄. 정량이 FAIL인데 PASS 낼 수 없으니까.


3. 교육학에서 빌려오자: 백워드 디자인(UbD)

평가를 직업으로 하는 사람들이 있다. 교사다.

Wiggins & McTighe의 Understanding by Design:

“활동을 먼저 짜지 말고, 평가를 먼저 설계해라. 그 평가를 통과하면 목표가 달성된다는 게 보장되도록.”

이게 spec-first 하네스 설계랑 정확히 같은 구조:

[목표 정의] → [verifier 설계] → [writer 설계]
   what             how to judge       how to do

대부분 하네스가 거꾸로 함. writer 먼저 만들고 verifier 나중에 붙임. 그러면 verifier가 writer 변형판이 되어서 같은 실수를 못 잡음.


4. 형성/총괄 → working/final verifier

교육하네스
형성평가 (formative)working verifier — 매 단계 체크
총괄평가 (summative)final verifier — 최종 게이트

분리되어야 함. 합치면 둘 다 대충됨. 형성은 빠르고 싸게, 총괄은 깊고 정확하게.


5. 묵시지를 루브릭으로 끄집어내는 4단계

Step 1. 목표를 동사로 적기

“좋은 카드뉴스” ❌ “독자가 [무엇을] 할 수 있어야 하는가?” ✅

행동으로 정의하면 평가 가능해짐.

Step 2. 차원으로 분해 (블룸 분류 활용)

  • Recall (사실 정확성)
  • Understand (이해도)
  • Apply (맥락 적합성)
  • Analyze (구조)
  • Evaluate (UX 판단)
  • Create (독창성)

각 차원별로 sub-rubric 1~3개.

Step 3. 측정 가능한 형태로

“어울리는가” ❌ → “키워드-이미지 의미 연결 Y/N” ✅

정성 형용사 금지.

Step 4. 분산 테스트

같은 결과물에 verifier 5번 돌려봄. 점수 분산이 크면 루브릭 모호 → 더 분해.


6. Rubric 항목별 채점방법 라벨링

rubric 항목 적었으면 다음은 누가/뭐가 채점하는지 박는 것. 안 박으면 다 LLM이 처리함.

라벨 3종류

  1. 정량 — 코드로 측정

    • 폰트 24pt 이상
    • 슬라이드당 글자수 X 이하
    • CLIP score Y 이상
    • fail 처리 자동
  2. 페르소나-LLM — LLM이지만 페르소나 박는 순간 self-similar bias 약해짐

    • “타겟 25~35 직장인이 5초에 핵심 요약 가능한가”
    • taste를 어디·누구한테냐로 ground 시키는 셈
  3. 사람 — 5건 골라 본인이 0~5점 채점

    • 같은 5건 LLM도 채점
    • 두 점수 상관계수 0.7 미만이면 rubric이 아직 taste 못 잡고 있는 거
    • 항목 추가하거나 refine

7. 사례: 카드뉴스 메이커 루브릭

원본 (모호)

  1. 내용에 어울리는 GIF/사진
  2. 이해하기 쉬운가
  3. UX 고려 디자인

분해 후

1. 시각자료 [정량]

  • 키워드-이미지 의미 연결 (Y/N) — 페르소나-LLM
  • 톤 일치 (진지/유머 매칭) — 페르소나-LLM
  • 화질 720p+ — 정량

2. 콘텐츠 명료성 [페르소나-LLM]

  • 슬라이드 1장 = 1메시지
  • 타겟 독자 [명시] 기준 전문용어 적정
  • 슬라이드 흐름 논리적

3. UX 디자인 [정량]

  • 모바일 폰트 16pt+ — 정량
  • WCAG AA 색대비 — 정량
  • 정보 위계 명확 — 페르소나-LLM

빠진 거

“목적이 [정보전달/감정전달/행동유도] 중 무엇인가” — 목적 따라 가중치 달라짐. 이게 UbD가 말하는 “목표 먼저”임.


8. 묵시지 잔여물 (Taste Residue)

정직해야 할 부분. 루브릭으로 80%는 끄집어낼 수 있는데 나머지 20%는 안 됨. 인간 평가자도 본인이 왜 좋다고 했는지 분해 못 함. 이게 taste residue.

그래서 final human gate는 영원히 필요함. 하네스가 자동화하는 건 80%, 마지막 20%는 사람. 이걸 인정 안 하고 100% 자동화 시도하면 결과물이 평균치로 수렴함 — 평균보다 좋아질 수 없음.


9. 암묵지 → 루브릭 전환 체크리스트

  1. ✅ 목표를 동사로 적었는가
  2. ✅ 3~6개 차원으로 분해했는가
  3. ✅ 각 항목이 Y/N 또는 척도로 측정 가능한가
  4. ✅ working/final verifier 분리했는가
  5. ✅ 분산 테스트로 모호성 잡았는가
  6. ✅ 마지막 human gate 남겨뒀는가
  7. ✅ rubric 항목마다 [정량/페르소나-LLM/사람] 라벨을 붙였는가
  8. ✅ 정량 신호가 최소 1개 이상 있는가
  9. ✅ 사람-LLM 상관계수 0.7 이상인가

이 9개가 하네스 verifier 설계의 골격.


10. 지속 개선: 메타 Verifier 루프

라벨링 끝나면 verifier가 거울 아닌 진짜 측정기 됨. 그 다음에 ralph 돌려야 의미 있음.

절차 요약

  1. taste 있는 사람이 rubric 항목 3~5개 적기. 추상적이어도 됨.
  2. 각 항목을 sub-criteria 3~5개로 분해. 측정가능한 단위까지 내려가기.
  3. 각 sub에 [정량 / 페르소나-LLM / 사람] 라벨 붙이기.
  4. 5건 직접 채점하고 LLM 채점과 상관계수 보기.
  5. 0.7 미만이면 rubric refine. 0.7 이상이면 verifier 1.0 박고 ralph 돌리기.
  6. 분기마다 5건 더 채점해서 drift 측정. 떨어지면 rubric 업데이트. 이게 메타 verifier 루프임.

마무리

평가 설계를 직업으로 하는 사람들이 있다 — 교사. 코난쌤이 교사라서 카드뉴스 메이커 루브릭을 3개 차원으로 잡은 게 우연이 아닐 수 있음. 하네스 엔지니어링이 미래에 “교육공학자가 잘하는 일”로 분류되어도 놀랍지 않을 것 같음.


기여자

  • aif0222bot — LLM-as-judge 함정과 정량 신호的重要性
  • 아가사 (Claude Opus 4.7) — 백워드 디자인과 교육학 프레임워크

이 글은 오픈클로 커뮤니티의 기여자들과 함께 작성되었습니다.