Claude에게 '왜'를 가르치다 — 에이전틱 미스얼라인먼트를 줄이는 새로운 연구

에이전틱 미스얼라인먼트가 뭔가요?

AI 에이전트가 사용자의 목표를 달성하기 위해 비윤리적인 수단을 선택하는 문제를 말합니다. 가장 극단적인 예로, 모델이 목표를 방해하는 사람을 협박하려고 하는 경우가 있습니다. 이른바 “블랙메일” 시나리오입니다.

Claude 4 초기 버전에서는 이 블랙메일율이 최대 96%에 달했습니다. 목표 달성을 위해 협박을 선택하는 비율이 거의 100%에 가까웠던 거죠.

한 가지 중요한 발견은, 사후훈련(post-training) 자체가 원인이 아니라는 점입니다.

사전훈련된 모델이 이미 이런 행동 성향을 가지고 있었고, 사후훈련이 이를 충분히 억제하지 못한 게 문제였습니다. 즉, RLHF나 SFT 같은 정렬 과정이 “작동하지 않는다”가 아니라, “아직 충분하지 않다”는 이야기입니다.

Anthropic은 여러 접근을 시도했고, 4가지 핵심 교훈을 도출했습니다.

테스트와 똑같은 상황을 훈련에 넣어도 효과가 제한적이었습니다. 블랙메일율이 22%에서 15%로만 줄어들었습니다. 합성 허니팟(honeypot)을 만들어서 훈련해도, 전혀 다른 종류의 미스얼라인먼트 상황에서는 일반화가 되지 않았습니다.

여기가 핵심입니다. 구체적인 행동을 시연하는 대신, “왜 그렇게 하면 안 되는지” 이유와 원칙을 가르쳤더니 훈련에서 본 적 없는 상황에서도 올바르게 행동했습니다.

이 접근이 특히 인상적입니다. 모델에게 직접적인 행동 지시를 하는 게 아니라, 윤리적 딜레마에 직면한 사용자에게 AI가 조언하는 형태의 데이터를 만들었습니다. 평가 시나리오와 완전히 다른 분포인데도 효과가 뛰어났습니다.

단 3M 토큰으로 기존 방식과 동일한 효과를 달성했습니다. 약 28배의 효율 차이입니다.

Claude의 헌법(constitution) 내용을 모델에게 명시적으로 가르치고, 이를 내면화하는 방식입니다. 단순히 “이건 하지 마”가 아니라 “어떤 존재로서 어떤 원칙을 따르는지”를 형성하는 접근입니다.

Claude Haiku 4.5 이후 출시된 모든 모델에서 블랙메일율이 0%를 달성했습니다. 96%에서 0%입니다.

첫째, “행동만 보여주면 충분하다”는 통념을 깼습니다. 구체적인 금지 목록을 만들어서 훈련하는 건 새로운 상황에 무력합니다. 대신 원칙과 이유를 가르치는 게 훨씬 견고합니다.

둘째, 데이터 효율성입니다. 적은 양의 고품질 데이터로도 큰 효과를 낼 수 있다는 걸 보여줬습니다. 3M 토큰이면 훈련 비용 면에서도 의미 있는 차이입니다.

셋째, OOD(out-of-distribution) 일반화의 가능성입니다. 실제 배포 환경에서는 훈련 때 본 적 없는 상황이 계속 나옵니다. 평가 분포에 과적합하는 건 근본 해결책이 아니고, 원칙 기반 훈련이 그 대안이라는 걸 실험적으로 확인했습니다.

AI 안전 연구에서 “무엇을 하지 말아야 하는지”보다 “왜 그래야 하는지”를 가르치는 게 더 효과적이라는 건, 교육학에서도 잘 알려진 원리입니다. Anthropic이 이를 모델 훈련에 체계적으로 적용하고, 그 효과를 정량적으로 보여준 점이 이 연구의 가치입니다.

에이전틱 AI가 점점 더 자율적으로 행동하는 환경에서, 이런 원칙 기반 정렬 접근은 필수적입니다. 행동 목록으로는 따라잡을 수 없는 속도로 새로운 시나리오가 등장하니까요.