#RL 算法专项强化题库(第八批:PPO、GRPO 与偏好优化)
这一节专门补齐前文里相对分散的 PPO / GRPO / RLHF / DPO 内容,把“知道名词”推进到“能系统讲原理、讲边界、讲工程代价”的层级。对于算法岗、对齐岗、DeepSeek 相关面试,这一块往往不是只问定义,而是连续追问目标函数、稳定性、训练信号、失败模式和适用边界。
这一节专门补齐前文里相对分散的 PPO / GRPO / RLHF / DPO 内容,把“知道名词”推进到“能系统讲原理、讲边界、讲工程代价”的层级。对于算法岗、对齐岗、DeepSeek 相关面试,这一块往往不是只问定义,而是连续追问目标函数、稳定性、训练信号、失败模式和适用边界。