52. 模块四：SFT、PEFT 与对齐训练知识点

#模块四：SFT、PEFT 与对齐训练知识点

Q37 SFT 是什么？它和预训练有什么本质区别？：知识点包括监督样本 (instruction, response)；目标从语言建模转向任务行为；数据规模和目标函数差异。
Q38 LoRA 的核心思路是什么？：知识点包括冻结底座；低秩增量矩阵 A/B；少量可训练参数模拟权重更新。
Q39 QLoRA 比 LoRA 多做了什么？：知识点包括量化底座权重；NF4/4bit 存储；paged optimizer；显存更省但有量化误差。
Q40 什么是 PEFT？为什么它适合大模型微调？：知识点包括少参数更新；多任务 adapter 管理；资源受限场景优势。
Q41 RLHF 的典型三阶段流程是什么？：知识点包括 SFT、reward model、PPO；偏好数据；在线采样与策略优化。
Q42 DPO 和 PPO/RLHF 相比最大的区别是什么？：知识点包括直接偏好优化；不显式训练 reward model；工程更简单但目标表达能力有限。
Q43 为什么做完 SFT 之后模型可能变傻？：知识点包括分布过窄；response length 压缩；灾难性遗忘；只学会模板化回答。
Q44 灾难性遗忘如何发生，怎么缓解？：知识点包括小数据强监督覆盖原分布；混合训练、正则、继续预训练、回放数据。
Q45 什么时候该全参微调、LoRA/QLoRA，什么时候不该微调？：知识点包括任务差异大小；算力/时延约束；知识频繁变化时更该用 RAG。
Q46 怎么判断一个问题更适合 RAG 还是 fine-tuning？：知识点包括知识更新频率、可追溯性、行为改变需求、线上成本；混合方案。
Q47 RLHF、DPO、IPO、ORPO 的共同目标是什么？信号差在哪？：知识点包括偏好对齐；pairwise preference；显式/隐式奖励；目标函数复杂度。
Q48 如果偏好数据很少、很贵，还能怎么做对齐？：知识点包括合成偏好、规则奖励、RLAIF、process supervision、小规模高质偏好 + SFT 组合。