#二十一、训练系统题的长答案模板
如果面试官开始深挖训练系统问题,最稳的答法不是马上给结论,而是按下面这个长答案模板展开:
- 先定义瓶颈对象:先判断当前主要矛盾在参数、激活、通信还是调度。
- 再说为什么会成为瓶颈:例如 world size 太大、层内同步频繁、micro-batch 太少。
- 再说主流解法:例如
TP/FSDP/checkpointing/overlap。 - 再说代价:显存省了但通信多了、吞吐好了但实现复杂了。
- 最后说实际选型逻辑:机内和机间怎么分层、什么情况下先动哪一层。
例如回答“为什么 TP 吃高速互联”,高质量答案不是一句“因为通信多”,而应该是:
TP在单层矩阵乘法内部切分;- 于是每层前向/反向都可能需要同步中间结果;
- 这类通信处在计算主路径上,频次高、对延迟敏感;
- 所以更适合留在机内高速互联,而不适合弱跨机链路。