ECE7115 1강: Resource Accounting

Resource accounting cover

한줄 정리

이 강의는 대형 모델을 만들 때 결국 계산량과 메모리를 숫자로 따져봐야 한다는 점을 잡아줌.

핵심 포인트

  • 자원은 크게 Memory(GB)Compute(FLOPs) 두 축으로 본다.
  • fp32, fp16, bf16, fp8의 차이는 정밀도보다도 메모리와 안정성에서 크게 갈림.
  • 선형층 기준으로 forward는 2 x (# data or tokens) x (# params) FLOPs로 잡을 수 있음.
  • backward까지 합치면 총 계산량은 대략 6 x (# data or tokens) x (# params)로 정리됨.
  • MFU는 실제 FLOP/s가 하드웨어가 약속한 FLOP/s를 얼마나 잘 따라가는지 보는 지표임.

기억할 식

  • 학습 시간 감각: # FLOPs = 6 x tokens x params
  • 메모리 감각: Adam 계열은 파라미터, 그래디언트, 옵티마이저 상태가 함께 붙음

Source


시리즈 네비

← 이전 편: ECE7115 0강 — Course Introduction | ECE7115 2강 — Transformer Basics 다음 편 →