08. 四、SFT、PEFT 与对齐训练

#四、SFT、PEFT 与对齐训练

#代表笔试题

SFT 是什么？它和预训练有什么本质区别？
LoRA 的核心思路是什么？
QLoRA 比 LoRA 多做了什么？
什么是 PEFT？为什么它适合大模型微调？
RLHF 的典型三阶段流程是什么？
DPO 和 PPO / RLHF 相比，最大的区别是什么？

#就地速答

问：SFT 是什么？它和预训练有什么本质区别？
答：SFT（Supervised Fine-Tuning）本质上是拿高质量的指令-回答样本去教模型“遇到这类输入时，应该怎样输出”。它关心的是行为对齐、任务格式、回答风格和遵循指令的能力；而预训练更多是在海量无标注文本上学习语言规律、世界知识和通用表示，所以它解决的是底座能力问题。详见后文“### 37. SFT 是什么？它和预训练有什么本质区别？”。
问：LoRA 的核心思路是什么？
答：LoRA 的核心思路是：不要去大改整张权重矩阵，而是假设“真正需要学习的更新”其实落在一个低秩子空间里。于是训练时冻结原模型参数，只额外学习两个小矩阵，让它们的乘积形成一个低秩增量，再把这个增量加回原线性层。详见后文“### 38. LoRA 的核心思路是什么？”。
问：QLoRA 比 LoRA 多做了什么？
答：QLoRA 可以理解成“量化版 LoRA”。它不是直接在全精度底座上挂 LoRA，而是先把底座模型以更低精度形式加载进显存，再只训练上面的 LoRA adapter。这样相比普通 LoRA，会进一步减少权重存储和训练时的显存占用。详见后文“### 39. QLoRA 比 LoRA 多做了什么？”。
问：什么是 PEFT？为什么它适合大模型微调？
答：PEFT（Parameter-Efficient Fine-Tuning）是参数高效微调的总称，LoRA、Adapter、Prefix Tuning、Prompt Tuning 都可以看作 PEFT 家族成员。它们的共同点不是方法形式一样，而是都在做一件事：尽量少改参数，却让模型获得足够的任务适配能力。详见后文“### 40. 什么是 PEFT？为什么它适合大模型微调？”。
问：RLHF 的典型三阶段流程是什么？
答：RLHF 的经典三阶段流程通常这样讲。第一阶段先做 SFT，用人工示范数据把模型调到“基本会按要求回答”；第二阶段收集偏好对，比如两条回答里哪条更好，再训练 reward model，让它学会近似人类偏好；第三阶段用 PPO 等强化学习方法，让策略模型去最大化这个奖励。详见后文“### 41. RLHF 的典型三阶段流程是什么？”。
问：DPO 和 PPO / RLHF 相比，最大的区别是什么？
答：DPO 和传统 PPO 式 RLHF 最大的区别在于：它不再显式分成“先训 reward model，再做在线 RL”两步，而是直接把偏好数据转成一个可监督优化的目标，让模型提升被偏好答案的相对概率、压低被拒绝答案的相对概率。详见后文“### 42. DPO 和 PPO / RLHF 相比，最大的区别是什么？”。

#代表面试题

为什么很多人会说“做完 SFT 之后模型反而变傻了”？
灾难性遗忘在微调里是怎么发生的，你会怎么缓解？
什么时候应该全参数微调，什么时候应该 LoRA / QLoRA，什么时候根本不该微调？
你怎么判断一个问题更适合 RAG 还是更适合 fine-tuning？
RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么，它们训练信号差在哪里？
如果偏好数据很少、很贵，你还会怎么做对齐？

#就地速答

问：为什么很多人会说“做完 SFT 之后模型反而变傻了”？
答：很多人说“做完 SFT 模型变傻了”，本质上是在说：模型被高强度地拉向一类特定回答分布后，原来更广泛的能力空间被压缩了。如果 SFT 数据太窄、格式太死、任务覆盖不够，模型就可能变得特别会一种答法，但在别的场景下更迟钝。详见后文“### 43. 为什么很多人会说“做完 SFT 之后模型反而变傻了”？”。
问：灾难性遗忘在微调里是怎么发生的，你会怎么缓解？
答：灾难性遗忘的本质是：模型在新任务上更新得太猛，参数被强行推向一个更窄的新分布，结果把原先在通用语料或旧任务上学到的能力覆盖掉了。典型诱因包括：新数据太单一、学习率过高、训练步数过长、全参数微调改动范围太大。详见后文“### 44. 灾难性遗忘在微调里是怎么发生的，你会怎么缓解？”。
问：什么时候应该全参数微调，什么时候应该 LoRA / QLoRA，什么时候根本不该微调？
答：判断要不要全参数微调，关键先看问题类型。若任务和底座差异非常大、对效果上限要求极高、数据和算力也充足，那全参数微调值得考虑；若任务只是中等程度适配，而且资源有限，LoRA/QLoRA 往往性价比更高。详见后文“### 45. 什么时候应该全参数微调，什么时候应该 LoRA / QLoRA，什么时候根本不该微调？”。
问：你怎么判断一个问题更适合 RAG 还是更适合 fine-tuning？
答：判断 RAG 还是 fine-tuning，最核心的问题是：你要改的是模型“知道什么”，还是“怎么做事”。如果知识经常变化、需要引用外部证据、要求答案可追溯，那更偏向 RAG；如果你想改变的是输出风格、任务流程、工具使用习惯、拒答边界，那更偏向微调。详见后文“### 46. 你怎么判断一个问题更适合 RAG 还是更适合 fine-tuning？”。
问：RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么，它们训练信号差在哪里？
答：RLHF、DPO、IPO、ORPO 这些方法虽然训练形式不同，但共同目标都一样：让模型输出更符合人类偏好，而不是只拟合原始语料分布。它们关心的是“哪种回答更受欢迎、更有帮助、更安全”，而不只是下一个 token 的似然。详见后文“### 47. RLHF、DPO、IPO、ORPO 这类方法的共同目标是什么，它们训练信号差在哪里？”。
问：如果偏好数据很少、很贵，你还会怎么做对齐？
答：如果偏好数据很少、很贵，第一反应不应该是“那就硬凑更多”，而是先把现有数据价值榨干。常见做法包括：提高数据筛选质量、优先覆盖最关键场景、让强模型给出辅助反馈、做蒸馏、增加规则约束，或者先搭出评测闭环，让少量偏好数据真正打在高价值问题上。详见后文“### 48. 如果偏好数据很少、很贵，你还会怎么做对齐？”。

#这一块真正考什么

是否能把“方法名”变成“适用条件 + 成本 + 风险”的判断。
是否理解 SFT、对齐训练和知识注入不是同一件事。

#作答抓手

回答微调题时推荐用四步：任务需求 -> 数据情况 -> 算力与时延约束 -> 选择的训练方案及风险。