#四、SFT、PEFT 与对齐训练
#代表笔试题
- SFT 是什么?它和预训练有什么本质区别?
- LoRA 的核心思路是什么?
- QLoRA 比 LoRA 多做了什么?
- 什么是 PEFT?为什么它适合大模型微调?
- RLHF 的典型三阶段流程是什么?
- DPO 和 PPO / RLHF 相比,最大的区别是什么?
#就地速答
- 问:SFT 是什么?它和预训练有什么本质区别?
答:SFT(Supervised Fine-Tuning)本质上是拿高质量的指令-回答样本去教模型“遇到这类输入时,应该怎样输出”。它关心的是行为对齐、任务格式、回答风格和遵循指令的能力;而预训练更多是在海量无标注文本上学习语言规律、世界知识和通用表示,所以它解决的是底座能力问题。详见后文“### 37. SFT 是什么?它和预训练有什么本质区别?”。
- 问:LoRA 的核心思路是什么?
答:LoRA 的核心思路是:不要去大改整张权重矩阵,而是假设“真正需要学习的更新”其实落在一个低秩子空间里。于是训练时冻结原模型参数,只额外学习两个小矩阵,让它们的乘积形成一个低秩增量,再把这个增量加回原线性层。详见后文“### 38. LoRA 的核心思路是什么?”。
- 问:QLoRA 比 LoRA 多做了什么?
答:
QLoRA可以理解成“量化版 LoRA”。它不是直接在全精度底座上挂 LoRA,而是先把底座模型以更低精度形式加载进显存,再只训练上面的 LoRA adapter。这样相比普通 LoRA,会进一步减少权重存储和训练时的显存占用。详见后文“### 39. QLoRA 比 LoRA 多做了什么?”。 - 问:什么是 PEFT?为什么它适合大模型微调?
答:PEFT(Parameter-Efficient Fine-Tuning)是参数高效微调的总称,LoRA、Adapter、Prefix Tuning、Prompt Tuning 都可以看作 PEFT 家族成员。它们的共同点不是方法形式一样,而是都在做一件事:尽量少改参数,却让模型获得足够的任务适配能力。详见后文“### 40. 什么是 PEFT?为什么它适合大模型微调?”。
- 问:RLHF 的典型三阶段流程是什么?
答:RLHF 的经典三阶段流程通常这样讲。第一阶段先做 SFT,用人工示范数据把模型调到“基本会按要求回答”;第二阶段收集偏好对,比如两条回答里哪条更好,再训练 reward model,让它学会近似人类偏好;第三阶段用 PPO 等强化学习方法,让策略模型去最大化这个奖励。详见后文“### 41. RLHF 的典型三阶段流程是什么?”。
- 问:DPO 和 PPO / RLHF 相比,最大的区别是什么?
答:
DPO和传统 PPO 式 RLHF 最大的区别在于:它不再显式分成“先训 reward model,再做在线 RL”两步,而是直接把偏好数据转成一个可监督优化的目标,让模型提升被偏好答案的相对概率、压低被拒绝答案的相对概率。详见后文“### 42. DPO 和 PPO / RLHF 相比,最大的区别是什么?”。
#代表面试题
- 为什么很多人会说“做完 SFT 之后模型反而变傻了”?
- 灾难性遗忘在微调里是怎么发生的,你会怎么缓解?
- 什么时候应该全参数微调,什么时候应该 LoRA / QLoRA,什么时候根本不该微调?
- 你怎么判断一个问题更适合
RAG还是更适合fine-tuning? - RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么,它们训练信号差在哪里?
- 如果偏好数据很少、很贵,你还会怎么做对齐?
#就地速答
- 问:为什么很多人会说“做完 SFT 之后模型反而变傻了”?
答:很多人说“做完 SFT 模型变傻了”,本质上是在说:模型被高强度地拉向一类特定回答分布后,原来更广泛的能力空间被压缩了。如果 SFT 数据太窄、格式太死、任务覆盖不够,模型就可能变得特别会一种答法,但在别的场景下更迟钝。详见后文“### 43. 为什么很多人会说“做完 SFT 之后模型反而变傻了”?”。
- 问:灾难性遗忘在微调里是怎么发生的,你会怎么缓解?
答:灾难性遗忘的本质是:模型在新任务上更新得太猛,参数被强行推向一个更窄的新分布,结果把原先在通用语料或旧任务上学到的能力覆盖掉了。典型诱因包括:新数据太单一、学习率过高、训练步数过长、全参数微调改动范围太大。详见后文“### 44. 灾难性遗忘在微调里是怎么发生的,你会怎么缓解?”。
- 问:什么时候应该全参数微调,什么时候应该 LoRA / QLoRA,什么时候根本不该微调?
答:判断要不要全参数微调,关键先看问题类型。若任务和底座差异非常大、对效果上限要求极高、数据和算力也充足,那全参数微调值得考虑;若任务只是中等程度适配,而且资源有限,LoRA/QLoRA 往往性价比更高。详见后文“### 45. 什么时候应该全参数微调,什么时候应该 LoRA / QLoRA,什么时候根本不该微调?”。
- 问:你怎么判断一个问题更适合
RAG还是更适合fine-tuning?答:判断
RAG还是fine-tuning,最核心的问题是:你要改的是模型“知道什么”,还是“怎么做事”。如果知识经常变化、需要引用外部证据、要求答案可追溯,那更偏向 RAG;如果你想改变的是输出风格、任务流程、工具使用习惯、拒答边界,那更偏向微调。详见后文“### 46. 你怎么判断一个问题更适合RAG还是更适合fine-tuning?”。 - 问:RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么,它们训练信号差在哪里?
答:
RLHF、DPO、IPO、ORPO这些方法虽然训练形式不同,但共同目标都一样:让模型输出更符合人类偏好,而不是只拟合原始语料分布。它们关心的是“哪种回答更受欢迎、更有帮助、更安全”,而不只是下一个 token 的似然。详见后文“### 47. RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么,它们训练信号差在哪里?”。 - 问:如果偏好数据很少、很贵,你还会怎么做对齐?
答:如果偏好数据很少、很贵,第一反应不应该是“那就硬凑更多”,而是先把现有数据价值榨干。常见做法包括:提高数据筛选质量、优先覆盖最关键场景、让强模型给出辅助反馈、做蒸馏、增加规则约束,或者先搭出评测闭环,让少量偏好数据真正打在高价值问题上。详见后文“### 48. 如果偏好数据很少、很贵,你还会怎么做对齐?”。
#这一块真正考什么
- 是否能把“方法名”变成“适用条件 + 成本 + 风险”的判断。
- 是否理解 SFT、对齐训练和知识注入不是同一件事。
#作答抓手
回答微调题时推荐用四步:任务需求 -> 数据情况 -> 算力与时延约束 -> 选择的训练方案及风险。