#模块三:预训练、数据工程、Scaling Law 与模型结构扩展知识点
Q25 CLM 和 MLM 的区别是什么?:知识点包括自回归 vs 双向掩码;生成能力与表示学习差异;为何通用 LLM 偏向 CLM。
Q26 什么是 Scaling Law?:知识点包括参数、数据、算力的收益曲线;不是定理而是经验规律;用于预算分配和模型选型。
Q27 为什么预训练需要数据去重和清洗?:知识点包括重复样本浪费训练预算;评测污染;噪声放大;质量密度高于盲目堆量。
Q28 Continue Pretraining 和 SFT 的目标有何不同?:知识点包括“补知识分布”与“补行为格式”;领域适配;知识注入不等于指令跟随。
Q29 什么是 MoE?:知识点包括专家网络、router、top-k 激活;总参数量与激活参数量区别;条件计算。
Q30 MoE 的优势和代价分别是什么?:知识点包括大容量、较低 per-token FLOPs;代价是路由不稳、通信和负载均衡复杂。
Q31 法律/医疗/金融模型该继续预训练还是直接 SFT?:知识点包括领域知识缺口判断;行为问题与知识问题拆分;常见组合流程。
Q32 预训练数据配比为什么重要?:知识点包括分布塑形;高质量小数据与低质量大数据的覆盖/噪声权衡; mixture design。
Q33 Scaling Law 如何指导选型和算力预算?:知识点包括收益递减;固定预算下参数-数据折中;不是越大越好,而是要算“边际收益”。
Q34 MoE 为什么能控 FLOPs?路由引入什么问题?:知识点包括 per-token top-k;热点 expert;dispatch 通信;capacity factor 和 load balancing。
Q35 数据重复、污染、评测泄漏会怎样破坏质量判断?:知识点包括离线指标虚高;泛化被高估;实验对比失真;数据治理的重要性。
Q36 为什么有些团队宁愿做数据工程,也不急着堆参数?:知识点包括高质量数据的性价比;脏数据会吞掉扩参收益;数据和标签规范能直接改善下游表现。