#优化器专项强化题库(第九批:SGD、Momentum、AdamW 与大模型训练优化器)
前面的题库已经多次提到“优化器状态为什么吃显存”“ZeRO 为什么先切 optimizer state”,但还没有把“优化器本身怎么工作、为什么这么选、实现时容易错什么”系统展开。实际上这部分在算法岗、训练系统岗、基础模型岗里都很常见,尤其当面试官想判断你是否真的做过训练时,几乎一定会顺着学习率、batch size、梯度裁剪一路追到优化器。
前面的题库已经多次提到“优化器状态为什么吃显存”“ZeRO 为什么先切 optimizer state”,但还没有把“优化器本身怎么工作、为什么这么选、实现时容易错什么”系统展开。实际上这部分在算法岗、训练系统岗、基础模型岗里都很常见,尤其当面试官想判断你是否真的做过训练时,几乎一定会顺着学习率、batch size、梯度裁剪一路追到优化器。