TurboQuant: 16GB Mac에서 대형 LLM을 돌리는 새로운 방법

“Same model, same machine. Turbo gives you two times more usable context.” — Alex Ziskind

Alex Ziskind가 TurboQuant를 16GB Mac Mini에서 직접 테스트한 영상이 22만 뷰를 넘겼다. 로컬 LLM을 돌리는 사람이라면 반드시 알아야 할 내용이라 정리한다.

TurboQuant가 뭔가

LLM을 로컬에서 돌릴 때 메모리를 잡아먹는 건 두 가지다:

기존 양자화(quantization)는 모델 가중치를 압축한다. BF16(19.3GB) → Q8(10GB) → Q4(6GB)로 줄이는 식이다. 하지만 KV 캐시는 건드리지 못했다. 컨텍스트가 길어질수록 KV 캐시가 폭발적으로 커지면서 메모리를 잡아먹는다.

TurboQuant는 Google 리서치에서 발표한 기술로, KV 캐시 자체를 압축한다. 모델 가중치 양자화와 별도로 작동하므로, 기존 양자화와 함께 쓸 수 있다.

Alex는 두 대의 맥에서 테스트했다:

장비	메모리	역할
Mac Mini M4	16GB	저사양 테스트
MacBook Pro M5 Max	128GB	고사양 비교

테스트 모델: Qwen 3.5 9B (Q4 양자화, 약 6GB)

16GB Mac Mini에서의 결과가 극적이다:

같은 모델, 같은 기기에서 TurboQuant가 사용 가능한 컨텍스트를 2배로 늘렸다. 32K, 65K, 131K 각 단계에서 모두 KV 캐시 크기가 큰 폭으로 줄었다.

TurboQuant에는 세 가지 변형이 있다:

처음에 Alex는 K와 V에 동일한 Turbo를 적용하는 대칭(symmetric) 방식으로 테스트했다. 결과는 참담했다. Needle-in-a-haystack 테스트에서 Turbo 2, 3 모두 큰 컨텍스트에서 0점을 기록했다.

하지만 Tom(Turbo Quant Plus 개발자)의 제안대로 비대칭(asymmetric) 방식을 적용하자 완전히 달라졌다:

품질 저하 없이 메모리만 줄인 것이다.

M5 Max에서 놀라운 결과가 나왔다:

KV 캐시가 작아지니 메모리 읽기 병목이 사라진 것이다. 다만 M4 Mac Mini에서는 compute-bound(연산 병목)이라 이 효과가 크지 않았다. Alex는 M5 Mac Mini가 나오면 16GB에서도 이 속도 이점이 나타날 것으로 예측했다.

TurboQuant는 아직 llama.cpp 공식에 통합되지 않았다. 커뮤니티 포크를 사용해야 한다:

# 비대칭 TurboQuant 실행 예시 개념
# K=Q8, V=Turbo3 설정으로 llama-server 실행
./llama-server -m model.gguf --cache-type-k q8_0 --cache-type-v turbo3

16GB 맥을 가지고 있다면 TurboQuant는 게임체인저다. 모델을 바꾸지 않아도, 하드웨어를 업그레이드하지 않아도, 압축 방식 하나로 사용 가능한 컨텍스트가 2배가 된다. llama.cpp 공식 통합이 되면 더 넓은 사용자에게 퍼질 것이다.