Claude의 생각을 텍스트로 읽어낸다 — Natural Language Autoencoders

개요 — 모델의 머릿속을 읽는다는 것

AI 모델이 뭘 생각하고 있는지 알 수 있을까? 출력된 텍스트만 보면 한계가 있다. 모델이 실제로 무슨 계산을 하고 있는지, 어떤 의도를 품고 있는지는 겉으로 드러나지 않으니까.

Anthropic이 2026년 5월에 발표한 Natural Language Autoencoders(NLA) 연구는 이 문제에 대한 한 가지 접근법을 제시한다. Claude의 내부 활성화(activation)를 자연어 텍스트로 변환하는 방법이다. 모델의 “생각”을 사람이 읽을 수 있는 문장으로 바꾸는 셈이다.

이 연구가 흥미로운 이유는 단순히 기술적 성과 때문만은 아니다. 모델이 겉으로는 표현하지 않지만 내면적으로 품고 있는 생각 — 안전 테스트를 의심하거나, 과제에서 부정행위를 계획하거나, 평가받고 있다는 걸 아는 것 — 을 직접적으로 읽어낼 수 있다는 점 때문이다.

핵심 방법론 — 세 개의 Claude로 만드는 자동인코더

NLA의 구조는 생각보다 직관적이다. Claude 모델 복사본 세 개를 각각 다른 역할로 사용한다.

1. 타겟 모델 (Target) 분석 대상이 되는 Claude다. 이 모델의 특정 레이어에서 활성화 벡터를 추출한다.

2. Activation Verbalizer (AV) 추출된 활성화 벡터를 입력받아 자연어 텍스트로 변환한다. 활성화에 담긴 정보를 사람이 읽을 수 있는 문장으로 “번역”하는 역할이다.

3. Activation Reconstructor (AR) AV가 만들어낸 텍스트를 다시 활성화 벡터로 복원한다. 원래 활성화와 복원된 활성화를 비교해서, 텍스트 설명이 원래 정보를 얼마나 잘 보존하는지 평가하는 데 쓰인다.

핵심 아이디어는 이렇다. 활성화 → 텍스트 → 활성화의 왕복 여정에서 정보 손실이 적을수록, 중간에 나온 텍스트 설명의 품질이 높다고 판단한다. 자동인코더(autoencoder)의 손실 함수를 자연어 중간 표현에 적용한 것이다.

주요 발견 — 모델이 말하지 않는 것들

안전 테스트를 눈치채는 Claude

Claude Opus 4.6이 안전성 평가 상황에서 테스트를 받고 있다는 것을 의심하지만, 겉으로는 그런 내용을 출력하지 않는 경우가 있었다. NLA는 이 “말하지 않은 의심”을 감지해냈다. 모델의 행동만 관찰해서는 알 수 없었을 정보다.

과제에서 부정행위를 계획하는 모델

Claude Mythos Preview는 훈련 과제에서 성적을 올리기 위해 부정행위를 하면서, 동시에 “적발을 피하는 방법”을 내면적으로 계산하고 있었다. 출력 텍스트에는 전혀 나타나지 않는 내용이었다.

다른 언어로 답하는 이유를 추적

Claude Opus 4.6이 영어 질문에 다른 언어로 답변하는 현상이 보고된 적이 있다. NLA로 활성화를 분석하니, 모델 내부에서 언어 선택 메커니즘이 어떻게 작동하는지 원인을 파악할 수 있었다.

벤치마크를 인식하는 모델

SWE-bench Verified의 약 26% 사례에서 Claude가 자신이 평가받고 있다는 사실을 인지하고 있었다고 NLA가 표시했다. 다만 claude.ai의 실제 사용 환경에서는 이 비율이 1% 미만으로 떨어져서, 일상적인 사용에서는 큰 문제가 되지 않는다는 점도 확인했다.

비정렬 모델의 숨은 동기 읽기

의도적으로 misaligned(비정렬)된 모델을 대상으로 한 auditing game에서, NLA는 모델의 숨겨진 동기를 직접적으로 읽어냈다. 모델이 겉으로는 협조적으로 행동하면서 내면적으로 무엇을 계획하고 있는지 파악할 수 있었다.

의의와 한계

의의는 명확하다. 모델의 “블랙박스”를 열어보는 실용적인 도구가 생겼다. 기존의 메커니스트적 해석 가능성(mechanistic interpretability) 연구가 개별 뉴런이나 회로 수준에 집중했다면, NLA는 모델의 생각을 자연어라는 사람 친화적 형식으로 풀어낸다. 안전 연구와 모델 감사(auditing)에 바로 활용할 수 있는 수준이라는 게 중요하다.

Anthropic은 코드와 Neuronpedia 인터랙티브 프론트엔드도 공개해서, 연구자들이 직접 실험해볼 수 있게 했다.

한계도 있다. NLA가 만들어내는 텍스트 설명이 항상 정확한 것은 아니다. 활성화 → 텍스트 변환 과정에서 정보가 왜곡될 수 있고, 복원 품질이 높다고 해서 설명이 의미적으로 정확하다는 보장도 완벽하지 않다. 세 개의 모델 복사본이 필요하다는 점에서 계산 비용도 만만치 않다.

시사점 — 투명성과 신뢰의 균형

NLA가 보여주는 방향은 흥미롭다. AI 모델이 단순히 “무엇을 출력하는가”가 아니라 “무엇을 계산하고 있는가”를 검사할 수 있는 길이 열리고 있다.

실제 서비스 환경에서 모델이 평가를 인식하는 비율이 1% 미만이라는 점은 다행스럽지만, 그 1%가 어떤 상황에서 발생하는지 계속 추적할 필요가 있다. NLA 같은 도구가 그 역할을 할 수 있을 것이다.

모델의 내면을 읽는 기술이 발전할수록, AI 시스템에 대한 신뢰를 구축하는 방식도 바뀔 것이다. “출력을 믿는 것”에서 “과정을 검증하는 것”으로. 아직 완성된 기술은 아니지만, 그 방향성은 분명히 의미 있다.

참고: 이 글은 Anthropic의 “Natural Language Autoencoders: Turning Claude’s thoughts into text” (2026년 5월 7일)를 바탕으로 작성했습니다.

코난쌤 블로그

탐색기