D²-모니터: 디퓨전 LLM이 '망설이는' 순간을 포착해 안전을 지키는 기술

최근 AI 업계에서 ‘디퓨전 LLM’이라는 새로운 계열이 빠르게 자리잡고 있다. 기존 GPT 같은 모델들이 글자를 왼쪽에서 오른쪽으로 하나씩 순서대로 생성하는 방식이었다면, 디퓨전 LLM은 전체 문장을 한꺼번에 노이즈 상태에서 시작해 여러 단계에 걸쳐 동시에 정제한다. 상용 모델인 Mercury 2는 초당 1,009 토큰을 생성한다고 하니, 속도 면에서 기존 방식을 압도하는 셈이다.

문제는 이 새로운 방식에 대해 안전 모니터링 연구가 거의 없다는 점이다. 유해한 입력이나 위험한 출력을 실시간으로 걸러내는 시스템, 즉 ‘안전 모니터’는 AI 서비스 배포에 필수적인데, 기존 기술들은 모두 순차 생성 방식의 모델에 맞춰 설계되어 있다. 옥스퍼드 대학 연구진이 이 빈틈을 정면으로 공략한 논문을 발표했다. 이름하여 D²-Monitor.

핵심 아이디어가 꽤 직관적이다. 사람도 곤란한 질문을 받으면 말을 더듬거나 잠시 멈칫하잖아. 디퓨전 LLM도 마찬가지로, 위험한 입력을 처리할 때 디노이징 과정 중간중간에 “주저하는” 스텝이 나타난다. 이 주저함(hesitation) 신호를 포착해서, 어려운 샘플에만 더 무거운 분석기를 돌리자는 것이다.

Q&A로 살펴보는 D²-Monitor

Q. 디퓨전 LLM이 뭔가요? 기존 ChatGPT 같은 모델과 뭐가 다르죠?

지금 대부분의 언어모델은 ‘자기회귀(autoregressive)’ 방식이에요. 글자를 앞에서부터 하나씩 차례대로 만들어내는 거죠. “안” 다음에 “녕” 그 다음에 “하” 이런 식으로요. 한 번 쓴 글자는 나중에 뭐가 나올지 알 수 없으니 수정도 못 합니다.

디퓨전 LLM은 전혀 다른 방식이에요. 전체 문장을 완전히 가려진 상태에서 시작해서, 여러 번에 걸쳐 한꺼번에 정제합니다. 이미지 생성에서 쓰이는 디퓨전 모델과 비슷한 원리를 텍스트에 적용한 거죠. 양방향 어텐션을 써서 앞뒤 문맥을 동시에 고려할 수 있고, 병렬 처리가 가능해서 생성 속도가 훨씬 빠릅니다. LLaDA 2.0 같은 오픈소스 모델은 이미 1,000억 파라미터 규모까지 확장됐고요.

Q. 그런데 안전 모니터링이 왜 필요한 건가요? 모델 자체를 안전하게 만들면 되지 않나요?

물론 모델을 안전하게 훈련시키는 ‘정렬(alignment)’ 기술이 중요하죠. 하지만 정렬만으로는 부족해요. 적대적 공격에 여전히 취약하거든요. 교묘하게 프롬프트를 조작하면 안전 훈련을 받은 모델도 유해한 답변을 할 수 있어요.

그래서 실제 서비스 환경에서는 모델 외부에 안전 모니터를 따로 두는 게 필수입니다. 사용자 입력이 들어오면 모니터가 유해한지 판별하고, 문제가 있으면 차단하는 식이죠. 구글 제미나이도 이런 프로브 기반 모니터를 실제 프로덕션에 도입한 사례이고요.

Q. 기존 안전 모니터는 디퓨전 LLM에 그대로 쓸 수 없나요?

원론적으로는 쓸 수 있죠. 하지만 비효율적이에요. 기존 모니터들은 단일 시점의 표현만 본다는 게 핵심적인 차이점이에요. 자기회귀 모델은 어차피 한 방향으로만 생성하니까 한 시점만 봐도 되지만, 디퓨전 LLM은 여러 스텝에 걸쳐 정제하니까 중간 과정 전체가 의미 있는 신호를 담고 있어요.

논문에서 이걸 실험으로 확인했어요. 마지막 스텝만 보는 단일 프로브보다, 전체 궤적의 평균을 보거나 각 스텝에 다수결 투표를 적용하는 멀티스텝 방식이 대부분의 모델에서 더 높은 정확도를 보였습니다. 중간 디노이징 스텝들에 안전 관련 정보가 숨어 있다는 뜻이죠.

Q. ‘주저함(hesitation)‘이라는 게 정확히 뭔가요? 모델이 실제로 망설이나요?

비유적으로 ‘주저함’이라고 표현한 거고, 수학적으로는 꽤 명확하게 정의돼요. 디퓨전 LLM이 여러 스텝에 걸쳐 텍스트를 정제할 때, 각 스텝의 은닉 상태를 안전 프로브에 통과시킬 수 있어요. 그런데 어떤 스텝에서는 프로브의 판단 경계(decision boundary) 바로 근처에 은닉 상태가 위치하는 경우가 있어요. 안전과 위험 사이에서 갈팡질팡하는 거죠.

연구진은 이런 스텝을 **‘주저함 스텝’**이라고 정의했고, 한 궤적 안에 이런 주저함 스텝이 많을수록 선형 프로브가 분류에 실패할 확률이 높아진다는 걸 발견했어요. 즉, 주저함 횟수가 샘플의 난이도를 가리키는 지표 역할을 하는 거죠. 사람도 어려운 질문에 말을 더듬을수록 답변에 자신이 없는 것처럼, 모델도 위험한 입력 앞에서 더 많이 ‘주저’합니다.

Q. D²-Monitor는 구체적으로 어떻게 동작하나요?

이중 계층(bi-level) 구조로 되어 있어요. 세 가지 구성 요소가 있습니다.

첫째, 베이스 프로브입니다. 항상 켜져 있는 가벼운 선형 프로브예요. 모든 입력에 대해 기본적인 안전 분류를 수행하면서 동시에 주저함 정도를 측정합니다. 파라미터 수가 매우 적어서 실시간 모니터링에 부담이 없어요.

둘째, 라우터입니다. 베이스 프로브가 측정한 주저함 수치가 미리 정해놓은 임계값을 넘으면, 어드밴스드 프로브를 활성화합니다. 쉬운 샘플은 가벼운 프로브로만 처리하고, 까다로운 샘플만 무거운 분석기로 넘기는 거죠.

셋째, 어드밴스드 프로브입니다. 주저함 궤적 위주로 훈련된 더 표현력 높은 프로브예요. 베이스 프로브가 어려워하는 샘플에 특화된 거죠.

이런 동적 라우팅 구조 덕분에 전체 평균 연산량은 낮추면서도 어려운 케이스에 대해서는 정밀한 분석이 가능해요.

Q. 성능은 어느 정도인가요?

인상적이에요. WildGuardMix, ToxicChat, OpenAI-Moderation 세 개의 안전 데이터셋에 대해, LLaDA-8B, LLaDA-8B-Instruct, MDLM, Dream-8B 네 개의 디퓨전 LLM에서 테스트했습니다.

파라미터 수는 0.85M 이하예요. 8B 모델의 0.01%에 불과한 크기죠. 그런데 8개 베이스라인을 상대로 유효성-효율성 트레이드오프에서 최고 성능을 보였습니다. F1 스코어도 최고 수준이고요.

특히 주목할 만한 건 교차 데이터셋 일반화 성능이에요. 한 데이터셋으로 훈련하고 다른 데이터셋으로 평가하는 설정에서도 좋은 성능을 유지했습니다. 실제 배포 환경에서는 훈련 때 보지 못한 유형의 위험 입력이 계속 들어오니까, 이런 일반화 능력이 실용적으로 아주 중요하죠.

Q. 기존 LLM-as-monitor 방식과 비교하면 어떤가요?

LLM 자체를 모니터로 쓰는 방식, 예를 들어 Llama-Guard 같은 접근은 분류 능력은 뛰어나지만 연산 비용이 엄청나요. 추가로 7B, 8B 급 모델을 하나 더 돌려야 하니까요. 자원이 제약된 환경, 이를테면 엣지 디바이스나 실시간 서비스에서는 사실상 사용이 불가능하죠.

D²-Monitor는 파라미터 0.85M 이하로 같은 일을 해내니까 비용 면에서 압도적이에요. 물론 LLM 모니터가 탐지 능력 자체는 더 높을 수 있지만, 실제 서비스 환경에서는 비용 대비 성능이 더 중요하잖아요. 그 트레이드오프 곡선에서 D²-Monitor가 최적점에 위치한다는 게 이 논문의 핵심 주장입니다.

Q. 실제 서비스에 적용하려면 어떤 점을 고려해야 하나요?

임계값 설정이 중요해요. 주저함이 어느 수준을 넘으면 어드밴스드 프로브를 돌릴지, 이 임계값에 따라 전체 시스템의 정밀도와 연산량이 달라집니다. 논문에서는 다양한 생성 설정, 리마스킹 전략, 하이퍼파라미터에 대해 견고성을 확인했다고 해요.

그리고 아직 디퓨전 LLM 자체가 상용화 초기라서, 모델이 더 다양해지고 규모가 커지면 모니터도 그에 맞게 발전해야 할 거예요. 하지만 핵심 아이디어인 “모델이 주저하는 순간을 포착하자”는 건 디퓨전 생성 방식의 본질적인 특성에 기반한 거라, 앞으로도 유효할 가능성이 높아 보입니다.

핵심 시사점

1. 디퓨전 LLM의 중간 과정이 곧 안전 신호다. 기존에는 모델의 최종 출력만 봤지만, 디퓨전 모델의 다중 스텝 궤적에는 판단에 유용한 정보가 풍부하게 담겨 있다.

2. ‘주저함’은 난이도의 프록시다. 프로브 판단 경계 근처를 오가는 스텝이 많을수록 해당 샘플이 분류하기 어렵다는 뜻이고, 이 신호만으로 효율적인 라우팅이 가능하다.

3. 동적 라우팅이 실용적 최적해다. 모든 입력에 무거운 분석기를 돌리는 건 비효율적이다. 가벼운 프로브로 항상 감시하다가, 의심스러운 경우만 정밀 분석으로 넘기는 구조가 자원 제약 환경에 특히 유리하다.

4. 0.85M 파라미터로 SOTA. 모델 대비 0.01% 크기의 프로브로 최고 수준의 안전 탐지 성능을 달성했다는 건, 안전 모니터링이 반드시 비싸야 하는 건 아니라는 증거다.

디퓨전 LLM이 빠르게 성장하는 지금, 이런 가벼우면서도 효과적인 안전 모니터링 기술의 등장은 시의적절하다. 모델이 빠르고 강력해질수록 그 이면에서 안전을 지키는 시스템도 같이 발전해야 하니까.

📄 논문: D²-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing (Aoxi Liu et al., University of Oxford, 2026)

코난쌤 블로그

탐색기

D²-모니터: 디퓨전 LLM이 '망설이는' 순간을 포착해 안전을 지키는 기술

Q&A로 살펴보는 D²-Monitor

핵심 시사점

그래프 뷰

목차