#模块四:SFT、PEFT 与对齐训练知识点

  • Q37 SFT 是什么?它和预训练有什么本质区别?:知识点包括监督样本 (instruction, response);目标从语言建模转向任务行为;数据规模和目标函数差异。
  • Q38 LoRA 的核心思路是什么?:知识点包括冻结底座;低秩增量矩阵 A/B;少量可训练参数模拟权重更新。
  • Q39 QLoRA 比 LoRA 多做了什么?:知识点包括量化底座权重;NF4/4bit 存储;paged optimizer;显存更省但有量化误差。
  • Q40 什么是 PEFT?为什么它适合大模型微调?:知识点包括少参数更新;多任务 adapter 管理;资源受限场景优势。
  • Q41 RLHF 的典型三阶段流程是什么?:知识点包括 SFT、reward model、PPO;偏好数据;在线采样与策略优化。
  • Q42 DPO 和 PPO/RLHF 相比最大的区别是什么?:知识点包括直接偏好优化;不显式训练 reward model;工程更简单但目标表达能力有限。
  • Q43 为什么做完 SFT 之后模型可能变傻?:知识点包括分布过窄;response length 压缩;灾难性遗忘;只学会模板化回答。
  • Q44 灾难性遗忘如何发生,怎么缓解?:知识点包括小数据强监督覆盖原分布;混合训练、正则、继续预训练、回放数据。
  • Q45 什么时候该全参微调、LoRA/QLoRA,什么时候不该微调?:知识点包括任务差异大小;算力/时延约束;知识频繁变化时更该用 RAG。
  • Q46 怎么判断一个问题更适合 RAG 还是 fine-tuning?:知识点包括知识更新频率、可追溯性、行为改变需求、线上成本;混合方案。
  • Q47 RLHF、DPO、IPO、ORPO 的共同目标是什么?信号差在哪?:知识点包括偏好对齐;pairwise preference;显式/隐式奖励;目标函数复杂度。
  • Q48 如果偏好数据很少、很贵,还能怎么做对齐?:知识点包括合成偏好、规则奖励、RLAIF、process supervision、小规模高质偏好 + SFT 组合。