ECE7115 4강은 vanilla Transformer를 요즘 LLM 스타일로 바꾸는 핵심 선택지를 압축해서 보여준다. Pre-Norm, RMSNorm, RoPE, SwiGLU가 사실상 표준 조합에 가깝다는 점이 핵심이다.

- 기본축은 transformer지만, 실전 LLM은 LLaMA-style 변형이 많다.
- Pre-Norm은 residual 경로를 덜 건드려서 학습 안정성이 좋고 큰 LR을 쓰기 쉽다.
- RMSNorm은 mean subtraction과 bias가 없어 단순하고 빠른 편이다.
- RoPE는 positional encoding 대신 많이 쓰이는 위치 정보 방식이다.
- FFN은 ReLU보다 SwiGLU가 더 자주 보이고, bias를 빼는 설계도 흔하다.
- FLOPs가 줄었다고 runtime이 자동으로 줄지는 않으니, 계산량과 실제 속도를 분리해서 봐야 한다.
Source
- 원문 PDF: 4_modern_llm_architecture.pdf
- 강의 페이지: ECE7115
시리즈 네비
← 이전 편: ECE7115 3강 — LLM Basics | ECE7115 5강 — Mixture of Experts 다음 편 →