51. 模块三：预训练、数据工程、Scaling Law 与模型结构扩展知识点

#模块三：预训练、数据工程、Scaling Law 与模型结构扩展知识点

Q25 CLM 和 MLM 的区别是什么？：知识点包括自回归 vs 双向掩码；生成能力与表示学习差异；为何通用 LLM 偏向 CLM。
Q26 什么是 Scaling Law？：知识点包括参数、数据、算力的收益曲线；不是定理而是经验规律；用于预算分配和模型选型。
Q27 为什么预训练需要数据去重和清洗？：知识点包括重复样本浪费训练预算；评测污染；噪声放大；质量密度高于盲目堆量。
Q28 Continue Pretraining 和 SFT 的目标有何不同？：知识点包括“补知识分布”与“补行为格式”；领域适配；知识注入不等于指令跟随。
Q29 什么是 MoE？：知识点包括专家网络、router、top-k 激活；总参数量与激活参数量区别；条件计算。
Q30 MoE 的优势和代价分别是什么？：知识点包括大容量、较低 per-token FLOPs；代价是路由不稳、通信和负载均衡复杂。
Q31 法律/医疗/金融模型该继续预训练还是直接 SFT？：知识点包括领域知识缺口判断；行为问题与知识问题拆分；常见组合流程。
Q32 预训练数据配比为什么重要？：知识点包括分布塑形；高质量小数据与低质量大数据的覆盖/噪声权衡； mixture design。
Q33 Scaling Law 如何指导选型和算力预算？：知识点包括收益递减；固定预算下参数-数据折中；不是越大越好，而是要算“边际收益”。
Q34 MoE 为什么能控 FLOPs？路由引入什么问题？：知识点包括 per-token top-k；热点 expert；dispatch 通信；capacity factor 和 load balancing。
Q35 数据重复、污染、评测泄漏会怎样破坏质量判断？：知识点包括离线指标虚高；泛化被高估；实验对比失真；数据治理的重要性。
Q36 为什么有些团队宁愿做数据工程，也不急着堆参数？：知识点包括高质量数据的性价比；脏数据会吞掉扩参收益；数据和标签规范能直接改善下游表现。