Qwen3.6-27B 나왔음, LM Studio + OpenClaw로 로컬에서 굴리는 방법

Qwen에서 Qwen3.6-27B 공개. 27B 덴스 모델인데 코딩/에이전트/비전까지 다 되는 올인원임.
특이점이 뭐냐. 같은 27B급 Gemma4-31B랑 비교 대상이 아니라 Claude 4.5 Opus랑 비빔. 일부 벤치마크는 오픈으로 Opus를 넘김.
라이선스는 Apache 2.0. 상업 사용 가능. 가중치 그냥 다운로드됨.
기본 컨텍스트 262,144 토큰이고, YaRN 스케일링 붙이면 약 101만 토큰까지 늘어남. 긴 문서/리포 단위 작업 염두에 둔 스펙임.
구조는 Gated DeltaNet + Gated Attention 하이브리드. 64 레이어 중 16블록이 3×(DeltaNet→FFN) + 1×(Attention→FFN) 패턴. 긴 컨텍스트 비용 줄이려고 선형 어텐션 섞은 모양.
비전 인코더 내장. 이미지 + 텍스트 + 비디오 입력 다 받음. VLM처럼 따로 붙일 필요 없음.
멀티 토큰 프리딕션(MTP) 훈련됨. vLLM에서 speculative decoding으로 토큰/초 뽑기 좋음.
코딩 벤치마크부터 봄. 숫자는 공식 리포트 기준.

벤치마크	Qwen3.6-27B	Claude 4.5 Opus	Gemma4-31B
SWE-bench Verified	77.2	80.9	52.0
SWE-bench Pro	53.5	57.1	35.7
SWE-bench Multilingual	71.3	77.5	51.7
Terminal-Bench 2.0	59.3	59.3	42.9
SkillsBench Avg5	48.2	45.3	23.6
QwenWebBench	1487	1536	1197
LiveCodeBench v6	83.9	84.8	80.0

SWE-bench 계열은 Opus보다 3~4점 낮지만 Gemma4-31B는 완전히 밀어버림. Terminal-Bench 2.0은 Opus랑 59.3 동률. SkillsBench Avg5는 48.2로 오히려 Opus(45.3) 앞섬.
지식/추론 벤치도 Opus 가까이 붙음.

벤치마크	Qwen3.6-27B	Claude 4.5 Opus
MMLU-Pro	86.2	89.5
MMLU-Redux	93.5	95.6
C-Eval	91.4	92.2
GPQA Diamond	87.8	87.0
AIME26	94.1	95.1
HMMT Feb 25	93.8	92.9
IMOAnswerBench	80.8	84.0

GPQA Diamond 87.8로 Opus(87.0) 넘김. 수학 올림피아드 HMMT Feb 25도 93.8 > 92.9로 오히려 앞.
비전 언어 벤치도 쎔. 27B 덴스 모델에서 이 점수 찍은 게 비정상임.

벤치마크	Qwen3.6-27B	Claude 4.5 Opus	Gemma4-31B
MMMU	82.9	80.7	80.4
MMMU-Pro	75.8	70.6	76.9
RealWorldQA	84.1	77.0	72.3
MathVista mini	87.4	—	79.3
VideoMME(w sub.)	87.7	77.7	—
V* (Visual Agent)	94.7	67.0	—
AndroidWorld	70.3	—	—

V* 에이전트 벤치마크 94.7 vs Opus 67.0. 그냥 압도적임. AndroidWorld 70.3까지 나오면 모바일 UI 에이전트 용도로 직결됨.
근데 한계도 있음. HLE 24.0, SuperGPQA 66.0, SimpleVQA 56.1. 이쪽 벤치는 Qwen3.5-397B MoE(28.7/70.4/67.1)랑 Opus가 더 나음.
정리하면, Opus급 성능을 로컬에서 돌릴 수 있는 가장 가벼운 선택지임. 토큰 무제한에 프라이버시 붙음.
이제 LM Studio에 올리고 OpenClaw가 이걸 쓰게 연결함.
먼저 LM Studio에서 모델 다운로드. GGUF 양자화 버전이 74종 올라와 있음. M1 Max 64GB 기준 Q4_K_M 또는 Q5_K_M 추천. 32GB면 Q3/Q4S 써야 들어감.
LM Studio 실행해서 Developer 탭으로 감. “Start server” 토글. 기본 포트 1234.
또는 CLI로 띄움.

lms server start --port 1234

컨텍스트 길이는 모델 로드할 때 Developer 탭에서 조정. 중요: 50,000 토큰 이상으로 잡음. OpenClaw 툴/스킬이 컨텍스트 엄청 먹음.
서버 떴는지 확인.

curl http://localhost:1234/v1/models

이제 OpenClaw 쪽. 신규 설치면 openclaw onboard 한 방으로 끝남.

openclaw onboard

인터랙티브에서 “Model provider”에 LM Studio 선택하고 URL(http://localhost:1234/v1)과 모델 ID 입력.
비대화식으로 한 번에 박고 싶으면 이 명령.

openclaw onboard \
  --non-interactive \
  --accept-risk \
  --auth-choice lmstudio \
  --custom-base-url http://localhost:1234/v1 \
  --lmstudio-api-key "lmstudio" \
  --custom-model-id qwen/qwen3.6-27b

LM Studio는 API 키 검증 안 함. 값은 아무거나 넣어도 됨. lmstudio 그대로 둬도 됨.
이미 설치된 OpenClaw에 프로바이더만 추가하려면 설정 파일 건드림.

// ~/.openclaw/openclaw.json
{
  agents: {
    defaults: {
      model: { primary: "lmstudio/qwen3.6-27b" },
      models: {
        "lmstudio/qwen3.6-27b": { alias: "Qwen27B" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://localhost:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [{
          id: "qwen3.6-27b",
          name: "Qwen 3.6 27B",
          reasoning: true,
          input: ["text", "image"],
          cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
          contextWindow: 196608,
          maxTokens: 8192
        }]
      }
    }
  }
}

reasoning: true로 두면 Qwen3.6의 thinking 모드 활성화됨. 코드 작업은 켜두는 게 성능 좋음.
input: ["text", "image"] 이미지 입력 가능 표시. 스크린샷 붙이고 디버깅 시키는 용도.
api: "openai-responses" 중요. LM Studio 0.3.29부터 /v1/responses 엔드포인트 지원. OpenClaw 최신은 이쪽을 기본으로 씀.
하이브리드 운영도 가능함. 평소엔 로컬 Qwen, 복잡한 작업만 Opus로 넘기는 구성.

{
  agents: {
    defaults: {
      model: {
        primary: "lmstudio/qwen3.6-27b",
        fallbacks: ["anthropic/claude-opus-4-6"]
      }
    }
  }
}

메모리 검색(임베딩)도 로컬로 돌리고 싶으면 추가 명령.

openclaw config set agents.defaults.memorySearch.provider lmstudio
openclaw gateway restart

LM Studio에서 임베딩 모델 따로 로드해야 함. nomic-embed-text-v1.5 같은 거 적당.
서빙 파라미터 팁. Thinking 모드 코딩 작업은 temperature=0.6, top_p=0.95, top_k=20. 에이전트 루프 돌릴 땐 max_tokens=81920까지 허용.
끊김 없이 쓰려면 LM Studio에서 컨텍스트 196K 이상 잡고, mlock 켜서 메모리 상주시킴. 토큰 처음 뽑을 때 로딩 딜레이 사라짐.
LM Link로 분리 구성도 가능함. 모델은 데스크톱 GPU에서 돌리고, OpenClaw는 노트북에서 붙어서 씀.
이미 돌려봤을 때 체감. 27B BF16 풀 로드는 VRAM 54GB 먹음. Q4_K_M은 16GB, Q5_K_M 20GB. 맥 M1 Max 64GB면 Q5_K_M + 128K 컨텍스트 무리 없음.
단점 한 줄. Opus에 비해 SWE-bench에서 3~4점 차이. 진짜 까다로운 리팩토링은 Opus가 아직 앞. 근데 토큰 공짜에 프라이버시 확보가 더 크면 이쪽이 맞음.
요약. Qwen3.6-27B는 오픈 27B 덴스로 Opus 성능에 가장 가깝게 붙은 모델. LM Studio가 GGUF/MLX 다 돌리고 OpenAI 호환 서버도 띄워줘서 OpenClaw가 네이티브 프로바이더로 바로 붙음. Claude API 비용이 부담스럽거나 사내 데이터 못 내보내는 상황이면 지금 로컬로 내려받아 테스트해볼 만함.
레퍼런스.

코난쌤 블로그

탐색기

Qwen3.6-27B 나왔음, LM Studio + OpenClaw로 로컬에서 굴리는 방법

그래프 뷰