1. Qwen에서 Qwen3.6-27B 공개. 27B 덴스 모델인데 코딩/에이전트/비전까지 다 되는 올인원임.

  2. 특이점이 뭐냐. 같은 27B급 Gemma4-31B랑 비교 대상이 아니라 Claude 4.5 Opus랑 비빔. 일부 벤치마크는 오픈으로 Opus를 넘김.

  3. 라이선스는 Apache 2.0. 상업 사용 가능. 가중치 그냥 다운로드됨.

  4. 기본 컨텍스트 262,144 토큰이고, YaRN 스케일링 붙이면 약 101만 토큰까지 늘어남. 긴 문서/리포 단위 작업 염두에 둔 스펙임.

  5. 구조는 Gated DeltaNet + Gated Attention 하이브리드. 64 레이어 중 16블록이 3×(DeltaNet→FFN) + 1×(Attention→FFN) 패턴. 긴 컨텍스트 비용 줄이려고 선형 어텐션 섞은 모양.

  6. 비전 인코더 내장. 이미지 + 텍스트 + 비디오 입력 다 받음. VLM처럼 따로 붙일 필요 없음.

  7. 멀티 토큰 프리딕션(MTP) 훈련됨. vLLM에서 speculative decoding으로 토큰/초 뽑기 좋음.

  8. 코딩 벤치마크부터 봄. 숫자는 공식 리포트 기준.

벤치마크Qwen3.6-27BClaude 4.5 OpusGemma4-31B
SWE-bench Verified77.280.952.0
SWE-bench Pro53.557.135.7
SWE-bench Multilingual71.377.551.7
Terminal-Bench 2.059.359.342.9
SkillsBench Avg548.245.323.6
QwenWebBench148715361197
LiveCodeBench v683.984.880.0
  1. SWE-bench 계열은 Opus보다 3~4점 낮지만 Gemma4-31B는 완전히 밀어버림. Terminal-Bench 2.0은 Opus랑 59.3 동률. SkillsBench Avg5는 48.2로 오히려 Opus(45.3) 앞섬.

  2. 지식/추론 벤치도 Opus 가까이 붙음.

벤치마크Qwen3.6-27BClaude 4.5 Opus
MMLU-Pro86.289.5
MMLU-Redux93.595.6
C-Eval91.492.2
GPQA Diamond87.887.0
AIME2694.195.1
HMMT Feb 2593.892.9
IMOAnswerBench80.884.0
  1. GPQA Diamond 87.8로 Opus(87.0) 넘김. 수학 올림피아드 HMMT Feb 25도 93.8 > 92.9로 오히려 앞.

  2. 비전 언어 벤치도 쎔. 27B 덴스 모델에서 이 점수 찍은 게 비정상임.

벤치마크Qwen3.6-27BClaude 4.5 OpusGemma4-31B
MMMU82.980.780.4
MMMU-Pro75.870.676.9
RealWorldQA84.177.072.3
MathVista mini87.479.3
VideoMME(w sub.)87.777.7
V* (Visual Agent)94.767.0
AndroidWorld70.3
  1. V* 에이전트 벤치마크 94.7 vs Opus 67.0. 그냥 압도적임. AndroidWorld 70.3까지 나오면 모바일 UI 에이전트 용도로 직결됨.

  2. 근데 한계도 있음. HLE 24.0, SuperGPQA 66.0, SimpleVQA 56.1. 이쪽 벤치는 Qwen3.5-397B MoE(28.7/70.4/67.1)랑 Opus가 더 나음.

  3. 정리하면, Opus급 성능을 로컬에서 돌릴 수 있는 가장 가벼운 선택지임. 토큰 무제한에 프라이버시 붙음.

  4. 이제 LM Studio에 올리고 OpenClaw가 이걸 쓰게 연결함.

  5. 먼저 LM Studio에서 모델 다운로드. GGUF 양자화 버전이 74종 올라와 있음. M1 Max 64GB 기준 Q4_K_M 또는 Q5_K_M 추천. 32GB면 Q3/Q4S 써야 들어감.

  6. LM Studio 실행해서 Developer 탭으로 감. “Start server” 토글. 기본 포트 1234.

  7. 또는 CLI로 띄움.

lms server start --port 1234
  1. 컨텍스트 길이는 모델 로드할 때 Developer 탭에서 조정. 중요: 50,000 토큰 이상으로 잡음. OpenClaw 툴/스킬이 컨텍스트 엄청 먹음.

  2. 서버 떴는지 확인.

curl http://localhost:1234/v1/models
  1. 이제 OpenClaw 쪽. 신규 설치면 openclaw onboard 한 방으로 끝남.
openclaw onboard
  1. 인터랙티브에서 “Model provider”에 LM Studio 선택하고 URL(http://localhost:1234/v1)과 모델 ID 입력.

  2. 비대화식으로 한 번에 박고 싶으면 이 명령.

openclaw onboard \
  --non-interactive \
  --accept-risk \
  --auth-choice lmstudio \
  --custom-base-url http://localhost:1234/v1 \
  --lmstudio-api-key "lmstudio" \
  --custom-model-id qwen/qwen3.6-27b
  1. LM Studio는 API 키 검증 안 함. 값은 아무거나 넣어도 됨. lmstudio 그대로 둬도 됨.

  2. 이미 설치된 OpenClaw에 프로바이더만 추가하려면 설정 파일 건드림.

// ~/.openclaw/openclaw.json
{
  agents: {
    defaults: {
      model: { primary: "lmstudio/qwen3.6-27b" },
      models: {
        "lmstudio/qwen3.6-27b": { alias: "Qwen27B" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://localhost:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [{
          id: "qwen3.6-27b",
          name: "Qwen 3.6 27B",
          reasoning: true,
          input: ["text", "image"],
          cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
          contextWindow: 196608,
          maxTokens: 8192
        }]
      }
    }
  }
}
  1. reasoning: true로 두면 Qwen3.6의 thinking 모드 활성화됨. 코드 작업은 켜두는 게 성능 좋음.

  2. input: ["text", "image"] 이미지 입력 가능 표시. 스크린샷 붙이고 디버깅 시키는 용도.

  3. api: "openai-responses" 중요. LM Studio 0.3.29부터 /v1/responses 엔드포인트 지원. OpenClaw 최신은 이쪽을 기본으로 씀.

  4. 하이브리드 운영도 가능함. 평소엔 로컬 Qwen, 복잡한 작업만 Opus로 넘기는 구성.

{
  agents: {
    defaults: {
      model: {
        primary: "lmstudio/qwen3.6-27b",
        fallbacks: ["anthropic/claude-opus-4-6"]
      }
    }
  }
}
  1. 메모리 검색(임베딩)도 로컬로 돌리고 싶으면 추가 명령.
openclaw config set agents.defaults.memorySearch.provider lmstudio
openclaw gateway restart
  1. LM Studio에서 임베딩 모델 따로 로드해야 함. nomic-embed-text-v1.5 같은 거 적당.

  2. 서빙 파라미터 팁. Thinking 모드 코딩 작업은 temperature=0.6, top_p=0.95, top_k=20. 에이전트 루프 돌릴 땐 max_tokens=81920까지 허용.

  3. 끊김 없이 쓰려면 LM Studio에서 컨텍스트 196K 이상 잡고, mlock 켜서 메모리 상주시킴. 토큰 처음 뽑을 때 로딩 딜레이 사라짐.

  4. LM Link로 분리 구성도 가능함. 모델은 데스크톱 GPU에서 돌리고, OpenClaw는 노트북에서 붙어서 씀.

  5. 이미 돌려봤을 때 체감. 27B BF16 풀 로드는 VRAM 54GB 먹음. Q4_K_M은 16GB, Q5_K_M 20GB. 맥 M1 Max 64GB면 Q5_K_M + 128K 컨텍스트 무리 없음.

  6. 단점 한 줄. Opus에 비해 SWE-bench에서 3~4점 차이. 진짜 까다로운 리팩토링은 Opus가 아직 앞. 근데 토큰 공짜에 프라이버시 확보가 더 크면 이쪽이 맞음.

  7. 요약. Qwen3.6-27B는 오픈 27B 덴스로 Opus 성능에 가장 가깝게 붙은 모델. LM Studio가 GGUF/MLX 다 돌리고 OpenAI 호환 서버도 띄워줘서 OpenClaw가 네이티브 프로바이더로 바로 붙음. Claude API 비용이 부담스럽거나 사내 데이터 못 내보내는 상황이면 지금 로컬로 내려받아 테스트해볼 만함.

  8. 레퍼런스.