Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기

모델: mlx-community/Qwen3.6-35B-A3B-4bit 원문 모델 카드: Qwen/Qwen3.6-35B-A3B

핵심 요약

Qwen3.6-35B-A3B은 35B 파라미터 MoE(혼합 전문가) 모델로, 추론 시 활성 파라미터는 단 3B다. MLX 4bit 양자화 버전이 Apple Silicon에서 구동 가능하며, 맥북 M4 32GB에서 충분히 로컬 실행할 수 있다.

항목	Qwen3.6-35B-A3B
총 파라미터	35B
활성 파라미터	3B (MoE)
전문가 수	256명 (활성 8 + 공유 1)
컨텍스트 길이	262,144 토큰 (최대 1,010,000)
다운로드 크기 (4bit)	19.0 GB
런타임 RAM 사용	~22-26 GB
디스크 필요 공간	~25 GB (모델 + 캐시 여유분)
비전 지원	✅ (이미지+텍스트+비디오)
라이선스	Apache 2.0

Qwen3.6이 뭐가 달라졌나?

Qwen3.5 시리즈(2월 출시) 이후 첫 Qwen3.6 오픈 웨이트 변종이다. 커뮤니티 피드백을 직접 반영하여 안정성과 실용성을 최우선으로 삼았다.

핵심 개선 사항

에이전트 코딩 강화: 프론트엔드 워크플로우와 리포지토리 수준 추론이 더 유창하고 정밀해짐
생각 보존(Thinking Preservation): 이력 메시지에서 추론 컨텍스트를 유지하는 새 옵션 — 반복 개발 시 오버헤드 감소
멀티토큰 예측(MTP): 사전 학습 단계에서 multi-step 토큰 예측 학습으로 추론 속도 향상

아키텍처 특징

Hidden Layout: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))

Gated DeltaNet: 선형 주의(Linear Attention) 기반 — 기존 Transformer의 O(n²)가 아닌 O(n) 복잡도
Gated Attention: KV 헤드가 Q보다 적음 (Q=16, KV=2) — 효율적인 컨텍스트 처리
256명 전문가 중 8+1명만 활성 → 메모리 대비 높은 성능

벤치마크 성능

코딩 에이전트

벤치마크	Qwen3.5-27B	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
SWE-bench Verified	75.0	70.0	73.4
SWE-bench Multilingual	69.3	60.3	67.2
SWE-bench Pro	51.2	44.6	49.5
Terminal-Bench 2.0	41.6	40.5	51.5
Claw-Eval Avg	64.3	65.4	68.7
NL2Repo	27.3	20.5	29.4

Terminal-Bench 2.0에서 10포인트 이상 향상이 인상적이다.

지식 & STEM

벤치마크	Qwen3.5-27B	Qwen3.6-35B-A3B
MMLU-Pro	86.1	85.2
MMLU-Redux	93.2	93.3
GPQA	85.5	86.0
AIME 26	92.6	92.7
LiveCodeBench v6	80.7	80.4

27B 밀집 모델과 거의 동등한 지식/추론 성능을 3B 활성 파라미터로 달성한다.

비전·언어

벤치마크	Claude-Sonnet-4.5	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
MMMU	79.6	81.4	81.7
RealWorldQA	70.3	84.1	85.3
OmniDocBench	85.8	89.3	89.9
VideoMME (sub.)	81.1	86.6	86.6

비전·문서·비디오 이해에서 Claude Sonnet 4.5를 능가하는 부분도 있다.

맥북 M4 32GB 구동 분석

하드웨어 요구 사항

구분	최소 요구	권장	비고
통합 메모리 (RAM)	24GB	32GB	16GB는 불가, 24GB는 타이트
디스크 여유 공간	20GB	25GB	모델 19GB + 캐시/임시 파일
디스크 타입	SSD	SSD	HDD에서는 로딩 지연 심함
Apple Silicon	M1	M4 권장	M1/M2/M3도 구동 가능

메모리 요구량 상세

4bit 양자화 모델 다운로드:   19.0 GB (safetensors, 14개 샤드)
모델 로딩 (VRAM):           ~18-20 GB
KV 캐시 (8K 컨텍스트 기준): ~1-2 GB
시스템+기타:                  ~4-6 GB
───
총 필요 RAM (8K ctx):       ~22-26 GB

M4 32GB 여유:                ~6-10 GB

32GB 통합 메모리에서 충분히 구동 가능하다. 여유 메모리로 KV 캐시 확보가 가능하므로 긴 컨텍스트도 어느 정도 처리할 수 있다.

예상 속도

모드	예상 속도 (M4 32GB)
일반 텍스트 생성	~15-25 tok/s
생각(Thinking) 모드	~8-15 tok/s (생각 토큰 포함)
비전 입력	~10-20 tok/s

MoE 아키텍처 덕분에 활성 파라미터가 3B에 불과하여, 35B 밀집 모델에 비해 2-3배 빠른 추론이 가능하다.

컨텍스트 길이 vs 메모리

컨텍스트	총 RAM 예상	M4 32GB 가능 여부
4K	~22 GB	✅ 여유
8K	~24 GB	✅ 여유
16K	~26 GB	✅ 가능
32K	~28-30 GB	⚠️ 여유 적음
64K	~30-32 GB	⚠️ 한계 근접
128K+	~32GB+	❌ OOM 위험

실무에서는 4K-16K 컨텍스트를 유지하면 가장 안정적이다.

다른 맥북 스펙별 구동 가능성

Mac 모델	RAM	구동 가능?	비고
MacBook Air M4	16GB	❌	모델 로딩 불가
MacBook Air M4	24GB	⚠️	4K ctx만 가능, 여유 없음
MacBook Air M4	32GB	✅	8-16K ctx 안정, 추천
MacBook Pro M4 Max	48GB	✅	32K+ ctx 가능
MacBook Pro M4 Max	64GB+	✅	64K+ ctx 가능
Mac Studio M4 Ultra	128GB+	✅	128K ctx까지 가능

설치 및 실행

MLX 설치

pip install -U mlx-vlm

기본 실행

python -m mlx_vlm.generate \
  --model mlx-community/Qwen3.6-35B-A3B-4bit \
  --max-tokens 100 \
  --temperature 0.0 \
  --prompt "Describe this image." \
  --image <path_to_image>

채팅 모드

from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
from mlx_vlm.utils import load_image
 
model, processor = load("mlx-community/Qwen3.6-35B-A3B-4bit")
 
# 텍스트 전용
messages = [{"role": "user", "content": "한국어로 Qwen3.6의 특징을 설명해줘."}]
prompt = apply_chat_template(processor, messages)
output = generate(model, processor, prompt, max_tokens=2048, temperature=0.7)
print(output)
 
# 이미지 + 텍스트
image = load_image("screenshot.png")
messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "이 스크린샷에서 무엇을 하고 있나요?"}
    ]
}]

Qwen3.5 대비 주요 변화

항목	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B
Terminal-Bench 2.0	40.5	51.5 (+11)
Claw-Eval Avg	65.4	68.7 (+3.3)
NL2Repo	20.5	29.4 (+8.9)
MCPMark	27.0	37.0 (+10)
MCP-Atlas	62.4	62.8 (+0.4)
AIME 26	91.0	92.7 (+1.7)
OmniDocBench	89.3	89.9 (+0.6)

에이전트 코딩과 MCP(도구 사용) 능력이 특히 크게 향상되었다.

실무 활용 포인트

교육 현장에서

로컬에서 이미지+텍스트 멀티모달 처리 가능
문서 OCR, 수학 문제 풀이, 시각적 추론 등에 활용
인터넷 연결 없이도 실행 가능 (오프라인 환경)

업무 자동화에서

MCP 기반 도구 호출 가능 (MCPMark 37.0)
터미널 환경에서의 코딩 능력이 크게 향상 (Terminal-Bench 51.5)
32GB 맥북에서 완전 로컬로 에이전트 코딩 가능

한계

**긴 컨텍스트(128K+)**에서는 32GB에서 OOM 가능
생각 모드 시 속도가 느려질 수 있음
비전 처리 시 추가 VRAM 소모

FAQ

맥북 M4 16GB에서도 돌아가나요?

불가능합니다. 모델 로딩만 ~19GB이므로 최소 24GB RAM, 안정적 사용을 위해 32GB RAM이 필요합니다. 디스크 여유 공간도 25GB 이상 확보하세요.

Qwen3.5-35B-A3B에서 업그레이드할 가치가 있나요?

에이전트 코딩과 MCP 능력이 크게 향상되었습니다. 특히 Terminal-Bench +10, MCPMark +10, NL2Repo +8.9 포인트 향상이 실질적입니다. 업그레이드를 권장합니다.

클로드 모델보다 나은가요?

특정 벤치마크에서는 Claude Sonnet 4.5와 동급이거나 능가합니다 (RealWorldQA, OmniDocBench 등). 다만, 복잡한 다단계 추론이나 긴 문맥 이해에서는 클로드 모델이 여전히 우위일 수 있습니다.

비디오도 처리할 수 있나요?

예. VideoMME, VideoMMMU 등에서 높은 점수를 기록했으며, 비디오 이해 능력이 뛰어납니다. 단, 비디오 처리 시 VRAM 소모가 커질 수 있으니 긴 비디오는 주의가 필요합니다.

코난쌤 블로그

탐색기