#二十二、训练系统方向的备考顺序
如果你要把这块补到“能面强 infra / 训练系统岗”,建议按下面顺序学,而不是乱刷:
- 第一层:状态拆解
- 参数、梯度、优化器状态、激活、缓存
- 第二层:并行三件套
DP / TP / PP
- 第三层:分片与显存
ZeRO / FSDP / checkpointing / mixed precision
- 第四层:通信原语
all-reduce / all-gather / reduce-scatter
- 第五层:系统调度
- bubble、micro-batch、overlap、bucket
- 第六层:MoE 与专家并行
EP、load balance、capacity factor、dispatch
- 第七层:kernel / CUDA 直觉
- IO-bound vs compute-bound、算子融合、访存优化
这样学的好处是:你不会把训练系统问题看成很多零碎八股,而会把它看成一条完整链:
模型状态 -> 如何切分 -> 如何同步 -> 如何调度 -> 如何在硬件上跑快