#二十一、训练系统题的长答案模板

如果面试官开始深挖训练系统问题,最稳的答法不是马上给结论,而是按下面这个长答案模板展开:

  1. 先定义瓶颈对象:先判断当前主要矛盾在参数、激活、通信还是调度。
  2. 再说为什么会成为瓶颈:例如 world size 太大、层内同步频繁、micro-batch 太少。
  3. 再说主流解法:例如 TP/FSDP/checkpointing/overlap
  4. 再说代价:显存省了但通信多了、吞吐好了但实现复杂了。
  5. 最后说实际选型逻辑:机内和机间怎么分层、什么情况下先动哪一层。

例如回答“为什么 TP 吃高速互联”,高质量答案不是一句“因为通信多”,而应该是:

  • TP 在单层矩阵乘法内部切分;
  • 于是每层前向/反向都可能需要同步中间结果;
  • 这类通信处在计算主路径上,频次高、对延迟敏感;
  • 所以更适合留在机内高速互联,而不适合弱跨机链路。