참고: 이 글은 Qwen3.6-35B-A3B를 OpenClaw에 붙여보며 겪은 실제 운영 관찰을 바탕으로 정리한 글입니다.

Qwen3.6-35B-A3B를 OpenClaw에 붙여보면 꽤 많은 사람이 비슷한 착각을 한다.

모델이 별로인가. 양자화가 잘못됐나. 오픈모델은 아직 실전에 넣기 이른가.

그런데 실제로는 전혀 다른 곳에서 막히는 경우가 많다.

문제는 Qwen3.6이 아니라, OpenClaw가 시작할 때 이미 너무 많은 것을 같이 들고 들어간다는 점이다.

이걸 못 보면 로컬 모델을 계속 억울하게 평가하게 된다.

모델은 아직 시작도 안 했는데, 이미 짐을 지고 들어간다

OpenClaw는 사용자 질문 한 줄만 모델에 넣는 구조가 아니다.

시작할 때 이미 아래가 같이 붙는다.

  • 시스템 프롬프트
  • 에이전트 설정
  • 허용된 도구 스키마
  • 채널 메타데이터
  • 부트스트랩 컨텍스트
  • 경우에 따라 메모리 검색 결과

이 말은 곧, 사용자가 아직 본론도 꺼내기 전에 로컬 모델은 이미 무거운 배낭을 메고 출발한다는 뜻이다.

그래서 첫 턴부터 20K, 30K 가까이 먹는 상황이 이상한 일이 아니다. 이번에도 체감상 질문이 길어서 막힌 것이 아니라, 질문을 넣기 전부터 이미 무거웠다.

여기서 많은 오해가 시작된다.

로컬 오픈모델이 멍청한 게 아니라, 출발선부터 다르게 잡혀 있었던 것이다.

UI에서는 130K였는데, 왜 실제 호출은 4K로 터질까

로컬 환경에서 더 사람을 헷갈리게 만드는 지점이 있다.

LM Studio 같은 도구에서 보이는 컨텍스트 설정과 실제 API 호출에 적용되는 n_ctx는 다를 수 있다.

그래서 화면상으로는 분명 130K까지 올려둔 것처럼 보였는데, 실제 호출은 더 작은 컨텍스트로 날아가면서 에러가 터질 수 있다.

이 순간 사용자는 거의 자동으로 모델을 의심한다.

Qwen이 별로인가 보다. 로컬 모델은 역시 안 되나 보다.

하지만 이건 모델 평가가 아니라 운영 구조 문제일 가능성이 크다.

즉, 로컬 오픈모델이 답답했던 이유를 모델 지능만으로 설명하면 계속 헛짚게 된다.

실제 병목은 하네스 컨텍스트 오버헤드였다

포인트는 단순하다.

OpenClaw 같은 에이전트 환경에서는 모델만 따로 떼어 평가하면 자꾸 틀린다. 모델 위에 어떤 하네스가 올라가 있고, 그 하네스가 시작할 때 무엇을 자동으로 실어 보내는지까지 같이 봐야 한다.

특히 로컬 모델에서는 이 차이가 훨씬 크게 드러난다.

클라우드의 장문맥 모델은 이런 부담을 어느 정도 그냥 버틴다. 하지만 로컬 모델은 같은 짐을 지우는 순간 훨씬 빨리 숨이 찬다.

그래서 체감은 늘 비슷하게 나온다.

  • 모델이 멍청해 보인다
  • 생각보다 금방 한계에 닿는다
  • 도구 호출 전후로 불안정해진다
  • 긴 작업을 끌고 가는 힘이 약해 보인다

하지만 그중 상당수는 모델 본체의 한계가 아니라, 하네스가 먼저 먹고 들어가는 비용 때문이다.

해법은 더 큰 모델이 아니라 더 가벼운 에이전트다

이 지점이 가장 중요하다.

로컬 모델 운영의 핵심은 더 큰 모델을 찾아 헤매는 데 있지 않다. 오히려 더 가벼운 에이전트 구조를 만드는 데 가깝다.

실무적으로는 이렇게 가는 편이 맞다.

1. memorySearch를 끈다

자동 메모리 검색은 편하지만, 로컬 모델에서는 첫 턴 비용을 크게 늘린다.

2. bootstrap 결과를 최소화한다

부트스트랩 결과 수를 0 또는 아주 작게 줄이면 시작 컨텍스트가 눈에 띄게 줄어든다.

3. 로컬 전용 에이전트를 따로 둔다

browser, wiki, image, voice, subagent 같은 무거운 도구가 많이 붙을수록 기본 컨텍스트도 커진다.

로컬 모델에는 풀기능 에이전트보다 좁은 작업 전용 에이전트가 훨씬 잘 맞는다.

4. 긴 세션보다 짧은 세션을 자주 연다

로컬 모델은 /new를 자주 써서 세션을 짧게 끊는 편이 훨씬 안정적이다.

5. 역할을 분리한다

메인 에이전트는 원격 장문맥 모델로 두고, 로컬 모델은 요약, 정리, 초안 작성, 좁은 범위 코드 수정처럼 범위를 제한해 쓰는 편이 실용적이다.

오픈모델이 약한 것이 아니라, 설계가 무거웠다

이 경험이 주는 교훈은 분명하다.

Qwen3.6 같은 모델을 OpenClaw에 붙여봤을 때 기대보다 답답했다고 해서, 곧바로 오픈모델은 아직 실전에 약하다고 결론 내리면 안 된다.

먼저 봐야 할 것은 이쪽이다.

  • 지금 하네스가 시작할 때 얼마나 많은 컨텍스트를 자동으로 싣는가
  • UI 설정과 실제 API 호출이 일치하는가
  • 이 모델에 맞는 경량 에이전트 구조로 설계했는가

로컬 모델 시대의 경쟁력은 결국 모델 이름보다 운영 구조에서 갈릴 가능성이 크다.

같은 Qwen3.6이라도 풀옵션 에이전트에 얹으면 답답해지고, 가벼운 전용 에이전트에 얹으면 훨씬 실용적으로 바뀔 수 있다.

질문도 바뀌어야 한다.

이 모델이 충분히 똑똑한가.

그 전에 먼저 물어야 한다.

이 하네스는 이 모델이 버틸 수 있는 무게로 설계되어 있는가.

결론

이번 경험은 로컬 AI를 보는 관점을 바꾼다.

병목은 모델 자체보다 하네스 컨텍스트 오버헤드에 있었고, 해법은 더 비싼 모델이 아니라 더 가벼운 에이전트 분리에 있었다.

로컬 오픈모델이 답답했던 이유는 모델이 멍청해서가 아니라, OpenClaw가 시작할 때 함께 실어 보내는 컨텍스트가 예상보다 훨씬 컸기 때문이다.

그래서 로컬 모델 운영의 핵심은 더 큰 모델을 찾는 것이 아니라, 더 가벼운 에이전트 구조를 만드는 것에 가깝다.