오픈 가중 LLM 아키텍처 10개: 2026년 봄 신작 모음

서론

최근 오픈 가중(open-weight) 모델 릴리스가 잦아지면서 주요 트렌드를 파악하기 어려운 분들을 위해 2026년 1월에서 2월 사이에 발표된 10개의 주요 모델을 정리해 드립니다.

LLM Architecture

1. Arcee AI의 Trinity Large

발표일: 2026년 1월 27일

Trinity Large는 400B 파라미터의 Mixture-of-Experts(MoE) 모델로, 토큰당 13B 활성 파라미터를 사용합니다. 미국 신생사인 Arcee AI에서 공개했습니다.

Trinity Architecture

주요 특징

Sliding Window Attention (SWA): Gemma 3, Olmo 3와 유사한 3:1 local:global 비율 사용
QK-Norm: 훈련 안정화를 위한 키/쿼리 정규화
NoPE (No Positional Embeddings): 글로벌 어텐션 레이어에서 위치 임베딩 제거
Gated Attention: Attention Sinks 감소 및 긴 시퀀스 일반화 개선

Sliding Window Attention

2. Moonshot AI의 Kimi K2.5

발표일: 2026년 1월 27일

Kimi K2.5는 1조 파라미터의 모델로, 당시 오픈 가중 모델 중 최고 성능을 달성했습니다.

Kimi K2.5 Performance

주요 특징

DeepSeek V3 아키텍처 기반: DeepSeek V3의 확장 버전
멀티모달 지원: 시각 지원을 위한 네이티브 멀티모달 모델
Early Fusion: 프리트레이닝 초기부터 비전 토큰을 텍스트 토큰과 함께 투입

Multimodal Fusion

3. StepFun의 Step 3.5 Flash

발표일: 2026년 2월 1일

Step 3.5 Flash는 196B 파라미터의 효율성 중심 모델로, 100 tokens/second의 높은 처리량을 자랑합니다.

Step 3.5 Flash Performance

주요 특징

Multi-Token Prediction (MTP): 훈련 및 추론 시 3개의 추가 토큰 예측 (MTP-3)
Gated Attention: 훈련 안정성 및 긴 시퀀스 일반화 개선
높은 처리량: 128k 컨텍스트에서 100 토큰/초

Multi-Token Prediction

4. Qwen3-Coder-Next

발표일: 2026년 2월 3일

Qwen3-Coder-Next는 80B 파라미터(토큰당 3B 활성)의 코딩 특화 모델입니다.

Qwen3-Coder Performance

주요 특징

Gated DeltaNet + Gated Attention 하이브리드: 3:1 비율로 혼합 사용
네이티브 262k 토큰 컨텍스트: 메모리 효율성 개선
SWE-Bench Pro에서 Claude Sonnet 4.5와 동등한 성능

Qwen3-Next Architecture

5. z.AI의 GLM-5

발표일: 2026년 2월 12일

GLM-5는 744B 파라미터(토큰당 40B 활성)의 플래그십 모델로, GPT-5.2 extra-high와 동등한 성능을 보입니다.

GLM-5 Architecture

주요 특징

Multi-Head Latent Attention (MLA): DeepSeek의 MLA 채택
DeepSeek Sparse Attention: 긴 컨텍스트에서 추론 비용 감소
확장된 전문가 수: GLM-4.7의 160개에서 256개로 증가

6. MiniMax M2.5

발표일: 2026년 2월 12일

MiniMax M2.5는 230B 파라미터의 고효율 모델로, 오픈 라우터에서 가장 인기 있는 오픈 가중 모델 중 하나입니다.

MiniMax M2.5 vs GLM-5

주요 특징

클래식 Grouped Query Attention: 추가 효율성 트윌크 없음
좋은 가성비: 더 작은 사이즈로 비슷한 성능 제공
코딩 성능: SWE-Bench Verified에서 GLM-5보다 약간 더 좋은 성능

7. Nanbeige 4.1 3B

발표일: 2026년 2월 13일

Nanbeige 4.1 3B는 로컬에서 실행 가능한 작은 모델로, Qwen3보다 훨씬 뛰어난 성능을 보입니다.

Nanbeige 4.1 3B Architecture

주요 특징

Llama 3.2 3B와 유사한 아키텍처: SwiGLU, GQA 등
Weight Tying 없음: Qwen3와 달리 입력 임베딩과 출력 레이어 가중치 미연결
온디바이스 사용 최적화: 로컬 실행을 위한 작은 사이즈

8. Qwen3.5

발표일: 2026년 2월 15일

Qwen3.5는 397B 파라미터(토큰당 17B 활성)의 MoE 모델로, Qwen3-Max보다 모든 벤치마크에서 우수한 성능을 보입니다.

Qwen3.5 Architecture

주요 특징

하이브리드 어텐션 채택: Qwen3-Next의 Gated DeltaNet 사용
멀티모달 지원: 기본 모델에서 네이티브 멀티모달 지원
에이전트 코딩 최적화: SWE-Bench Verified에서 GLM-5 및 MiniMax M2.5와 동등한 성능

9. Ant Group의 Ling 2.5 1T

발표일: 2026년 2월 16일

Ling 2.5는 1조 파라미터의 하이브리드 어텐션 모델로, Qwen3.5와 유사한 구조를 갖습니다.

Ling 2.5 Architecture

주요 특징

Lightning Attention: Gated DeltaNet보다 간단한 순환 선형 어텐션
Multi-Head Latent Attention: DeepSeek의 MLA 채택
높은 처리량: 32k 토큰 시퀀스에서 Kimi K2 대비 3.5배 높은 처리량

10. Cohere의 Tiny Aya

발표일: 2026년 2월 17일

Tiny Aya는 3.35B 파라미터의 다국어 지원 모델로, “가장 능력 있는 다국어 오픈 가중 모델”로 소개됩니다.

Tiny Aya Architecture

주요 특징

Parallel Transformer Blocks: 어텐션과 MLP를 병렬로 계산
다양한 언어 최적화: global, fire, water, earth 버전으로 분류
QK-Norm 제거: 긴 컨텍스트 성능 향상을 위해 QK-Norm 제거

결론

2026년 초 오픈 가중 LLM 릴리스의 주요 트렌드를 요약하면 다음과 같습니다:

하이브리드 어텐션 채택: Qwen3.5, Ling 2.5 등이 DeltaNet, Lightning Attention 등 선형 어텐션을 기존 어텐션과 혼합
MLA 및 Sparse Attention: Kimi K2.5, GLM-5, Ling 2.5가 DeepSeek의 효율성 기술 채택
클래식 트윌크도 여전히 유효: MiniMax M2.5, Nanbeige 4.1이 기본 GQA로도 우수한 성능 달성

Attention Types Summary

참고

원본 글: Sebastian Raschka의 오픈 가중 LLM 아키텍처 10개
요약일: 2026-02-28
태그: LLM OpenWeight Architecture DeepSeek GLM Qwen

코난쌤 블로그

탐색기

오픈 가중 LLM 아키텍처 10개: 2026년 봄 신작 모음

서론

1. Arcee AI의 Trinity Large

주요 특징

2. Moonshot AI의 Kimi K2.5

주요 특징

3. StepFun의 Step 3.5 Flash

주요 특징

4. Qwen3-Coder-Next

주요 특징

5. z.AI의 GLM-5

주요 특징

6. MiniMax M2.5

주요 특징

7. Nanbeige 4.1 3B

주요 특징

8. Qwen3.5

주요 특징

9. Ant Group의 Ling 2.5 1T

주요 특징

10. Cohere의 Tiny Aya

주요 특징

결론

참고

그래프 뷰

목차