서론

최근 오픈 가중(open-weight) 모델 릴리스가 잦아지면서 주요 트렌드를 파악하기 어려운 분들을 위해 2026년 1월에서 2월 사이에 발표된 10개의 주요 모델을 정리해 드립니다.

LLM Architecture


1. Arcee AI의 Trinity Large

발표일: 2026년 1월 27일

Trinity Large는 400B 파라미터의 Mixture-of-Experts(MoE) 모델로, 토큰당 13B 활성 파라미터를 사용합니다. 미국 신생사인 Arcee AI에서 공개했습니다.

Trinity Architecture

주요 특징

  • Sliding Window Attention (SWA): Gemma 3, Olmo 3와 유사한 3:1 local:global 비율 사용
  • QK-Norm: 훈련 안정화를 위한 키/쿼리 정규화
  • NoPE (No Positional Embeddings): 글로벌 어텐션 레이어에서 위치 임베딩 제거
  • Gated Attention: Attention Sinks 감소 및 긴 시퀀스 일반화 개선

Sliding Window Attention


2. Moonshot AI의 Kimi K2.5

발표일: 2026년 1월 27일

Kimi K2.5는 1조 파라미터의 모델로, 당시 오픈 가중 모델 중 최고 성능을 달성했습니다.

Kimi K2.5 Performance

주요 특징

  • DeepSeek V3 아키텍처 기반: DeepSeek V3의 확장 버전
  • 멀티모달 지원: 시각 지원을 위한 네이티브 멀티모달 모델
  • Early Fusion: 프리트레이닝 초기부터 비전 토큰을 텍스트 토큰과 함께 투입

Multimodal Fusion


3. StepFun의 Step 3.5 Flash

발표일: 2026년 2월 1일

Step 3.5 Flash는 196B 파라미터의 효율성 중심 모델로, 100 tokens/second의 높은 처리량을 자랑합니다.

Step 3.5 Flash Performance

주요 특징

  • Multi-Token Prediction (MTP): 훈련 및 추론 시 3개의 추가 토큰 예측 (MTP-3)
  • Gated Attention: 훈련 안정성 및 긴 시퀀스 일반화 개선
  • 높은 처리량: 128k 컨텍스트에서 100 토큰/초

Multi-Token Prediction


4. Qwen3-Coder-Next

발표일: 2026년 2월 3일

Qwen3-Coder-Next는 80B 파라미터(토큰당 3B 활성)의 코딩 특화 모델입니다.

Qwen3-Coder Performance

주요 특징

  • Gated DeltaNet + Gated Attention 하이브리드: 3:1 비율로 혼합 사용
  • 네이티브 262k 토큰 컨텍스트: 메모리 효율성 개선
  • SWE-Bench Pro에서 Claude Sonnet 4.5와 동등한 성능

Qwen3-Next Architecture


5. z.AI의 GLM-5

발표일: 2026년 2월 12일

GLM-5는 744B 파라미터(토큰당 40B 활성)의 플래그십 모델로, GPT-5.2 extra-high와 동등한 성능을 보입니다.

GLM-5 Architecture

주요 특징

  • Multi-Head Latent Attention (MLA): DeepSeek의 MLA 채택
  • DeepSeek Sparse Attention: 긴 컨텍스트에서 추론 비용 감소
  • 확장된 전문가 수: GLM-4.7의 160개에서 256개로 증가

6. MiniMax M2.5

발표일: 2026년 2월 12일

MiniMax M2.5는 230B 파라미터의 고효율 모델로, 오픈 라우터에서 가장 인기 있는 오픈 가중 모델 중 하나입니다.

MiniMax M2.5 vs GLM-5

주요 특징

  • 클래식 Grouped Query Attention: 추가 효율성 트윌크 없음
  • 좋은 가성비: 더 작은 사이즈로 비슷한 성능 제공
  • 코딩 성능: SWE-Bench Verified에서 GLM-5보다 약간 더 좋은 성능

7. Nanbeige 4.1 3B

발표일: 2026년 2월 13일

Nanbeige 4.1 3B는 로컬에서 실행 가능한 작은 모델로, Qwen3보다 훨씬 뛰어난 성능을 보입니다.

Nanbeige 4.1 3B Architecture

주요 특징

  • Llama 3.2 3B와 유사한 아키텍처: SwiGLU, GQA 등
  • Weight Tying 없음: Qwen3와 달리 입력 임베딩과 출력 레이어 가중치 미연결
  • 온디바이스 사용 최적화: 로컬 실행을 위한 작은 사이즈

8. Qwen3.5

발표일: 2026년 2월 15일

Qwen3.5는 397B 파라미터(토큰당 17B 활성)의 MoE 모델로, Qwen3-Max보다 모든 벤치마크에서 우수한 성능을 보입니다.

Qwen3.5 Architecture

주요 특징

  • 하이브리드 어텐션 채택: Qwen3-Next의 Gated DeltaNet 사용
  • 멀티모달 지원: 기본 모델에서 네이티브 멀티모달 지원
  • 에이전트 코딩 최적화: SWE-Bench Verified에서 GLM-5 및 MiniMax M2.5와 동등한 성능

9. Ant Group의 Ling 2.5 1T

발표일: 2026년 2월 16일

Ling 2.5는 1조 파라미터의 하이브리드 어텐션 모델로, Qwen3.5와 유사한 구조를 갖습니다.

Ling 2.5 Architecture

주요 특징

  • Lightning Attention: Gated DeltaNet보다 간단한 순환 선형 어텐션
  • Multi-Head Latent Attention: DeepSeek의 MLA 채택
  • 높은 처리량: 32k 토큰 시퀀스에서 Kimi K2 대비 3.5배 높은 처리량

10. Cohere의 Tiny Aya

발표일: 2026년 2월 17일

Tiny Aya는 3.35B 파라미터의 다국어 지원 모델로, “가장 능력 있는 다국어 오픈 가중 모델”로 소개됩니다.

Tiny Aya Architecture

주요 특징

  • Parallel Transformer Blocks: 어텐션과 MLP를 병렬로 계산
  • 다양한 언어 최적화: global, fire, water, earth 버전으로 분류
  • QK-Norm 제거: 긴 컨텍스트 성능 향상을 위해 QK-Norm 제거

결론

2026년 초 오픈 가중 LLM 릴리스의 주요 트렌드를 요약하면 다음과 같습니다:

  1. 하이브리드 어텐션 채택: Qwen3.5, Ling 2.5 등이 DeltaNet, Lightning Attention 등 선형 어텐션을 기존 어텐션과 혼합
  2. MLA 및 Sparse Attention: Kimi K2.5, GLM-5, Ling 2.5가 DeepSeek의 효율성 기술 채택
  3. 클래식 트윌크도 여전히 유효: MiniMax M2.5, Nanbeige 4.1이 기본 GQA로도 우수한 성능 달성

Attention Types Summary


참고