#二十二、训练系统方向的备考顺序

如果你要把这块补到“能面强 infra / 训练系统岗”,建议按下面顺序学,而不是乱刷:

  1. 第一层:状态拆解
    • 参数、梯度、优化器状态、激活、缓存
  2. 第二层:并行三件套
    • DP / TP / PP
  3. 第三层:分片与显存
    • ZeRO / FSDP / checkpointing / mixed precision
  4. 第四层:通信原语
    • all-reduce / all-gather / reduce-scatter
  5. 第五层:系统调度
    • bubble、micro-batch、overlap、bucket
  6. 第六层:MoE 与专家并行
    • EP、load balance、capacity factor、dispatch
  7. 第七层:kernel / CUDA 直觉
    • IO-bound vs compute-bound、算子融合、访存优化

这样学的好处是:你不会把训练系统问题看成很多零碎八股,而会把它看成一条完整链:

模型状态 -> 如何切分 -> 如何同步 -> 如何调度 -> 如何在硬件上跑快