07. 三、预训练、数据工程、Scaling Law 与模型结构扩展

#三、预训练、数据工程、Scaling Law 与模型结构扩展

#代表笔试题

Causal Language Modeling 和 Masked Language Modeling 的区别是什么？
什么是 Scaling Law？
为什么大模型预训练需要数据去重和数据清洗？
Continue Pretraining 和 SFT 的目标有何不同？
什么是 MoE（Mixture-of-Experts）？
MoE 的优势和代价分别是什么？

#就地速答

问：Causal Language Modeling 和 Masked Language Modeling 的区别是什么？
答：CLM（Causal Language Modeling）是标准的自回归目标：只看前文，预测下一个 token，所以它天然适合文本生成、对话、代码续写这类任务。MLM（Masked Language Modeling）则是把一部分 token 遮住，让模型根据左右文把它补回来，因此更适合理解型表示学习。详见后文“### 25. Causal Language Modeling 和 Masked Language Modeling 的区别是什么？”。
问：什么是 Scaling Law？
答：Scaling Law 说的是：当模型参数、训练 token、算力预算持续增大时，模型性能通常会呈现出某种相对平滑、可预测的变化规律。它不是一句“模型越大越强”的口号，而是告诉你提升性能时，数据、参数和算力之间存在耦合关系。详见后文“### 26. 什么是 Scaling Law？”。
问：为什么大模型预训练需要数据去重和数据清洗？
答：大模型预训练要做数据去重和清洗，核心原因是训练预算非常贵，不能把大量 step 浪费在重复、脏乱或低价值样本上。重复数据会让模型过度记忆少数模式，低质数据会把噪声、错误语法、错误事实甚至爬虫垃圾一起灌进去，最后既影响泛化，也污染评测判断。详见后文“### 27. 为什么大模型预训练需要数据去重和数据清洗？”。
问：Continue Pretraining 和 SFT 的目标有何不同？
答：continue pretraining 和 SFT 最大的区别，在于它们解决的问题层级不同。continue pretraining 主要是在原有底座上继续喂某个领域的数据，让模型更熟悉这个领域的术语、语气、知识结构和文本分布，所以它更像“补知识、补语料分布”；SFT 则是通过高质量输入输出对，让模型学会特定任务格式、回答风格和行为约束，更像“补行为”。详见后文“### 28. Continue Pretraining 和 SFT 的目标有何不同？”。
问：什么是 MoE（Mixture-of-Experts）？
答：MoE（Mixture of Experts）可以理解成“很多专家 + 一个分诊路由器”的结构。模型里不是只有一个统一 FFN，而是有很多个专家子网络；每个 token 进来后，路由器会决定它该送去哪些专家处理，通常只激活 top-k 个，而不是把所有专家都算一遍。详见后文“### 29. 什么是 MoE？”。
问：MoE 的优势和代价分别是什么？
答：MoE 的最大优势，是它让模型可以在不把单 token 计算成本同步拉爆的前提下，把总容量做得更大。换句话说，你可以拥有更多参数、更强知识容量和更高潜在上限，但每次前向只激活少量专家，因此 FLOPs 增长没有那么夸张。详见后文“### 30. MoE 的优势和代价分别是什么？”。

#代表面试题

如果要做一个法律/医疗/金融领域模型，你会选继续预训练还是直接 SFT？为什么？
预训练数据配比为什么重要？高质量小数据和低质量大数据怎么权衡？
Scaling Law 在实际项目里怎么指导模型选型和算力预算？
MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住？它的路由又会引入什么问题？
数据重复、污染、评测泄漏会怎样破坏模型质量判断？
为什么有些团队宁愿做数据工程，也不急着继续堆模型参数？

#就地速答

问：如果要做一个法律/医疗/金融领域模型，你会选继续预训练还是直接 SFT？为什么？
答：如果法律、医疗、金融模型的核心短板是“不懂这个行业在说什么”，比如术语陌生、领域知识缺失、文本风格完全不对，那优先考虑 continue pretraining，因为你首先要把底层语言分布补进去。如果模型已经大致懂这个领域，但不会按问答、抽取、报告、风控解释等任务格式稳定输出，那更适合做 SFT。详见后文“### 31. 如果要做一个法律/医疗/金融领域模型，你会选继续预训练还是直接 SFT？为什么？”。
问：预训练数据配比为什么重要？高质量小数据和低质量大数据怎么权衡？
答：预训练数据配比重要，是因为模型最后学到的不是某一份数据，而是整个训练分布。你给什么比例，它就把多少训练预算花在那种模式上。所以高质量数据虽然量小，但往往信息密度高、噪声低；低质量大数据虽然覆盖广，但会把很多预算浪费在弱模式甚至错误模式上。详见后文“### 32. 预训练数据配比为什么重要？高质量小数据和低质量大数据怎么权衡？”。
问：Scaling Law 在实际项目里怎么指导模型选型和算力预算？
答：Scaling Law 在项目里最有用的地方，是帮团队做“钱该花在哪”的判断。比如预算固定时，你需要判断继续堆模型参数是不是已经进入收益递减区，或者是不是应该把更多钱投到数据扩充、数据清洗、训练 token 数，甚至基础设施效率优化上。详见后文“### 33. Scaling Law 在实际项目里怎么指导模型选型和算力预算？”。
问：MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住？它的路由又会引入什么问题？
答：MoE 能把总参数量做大但推理 FLOPs 控住，关键就在“稀疏激活”。虽然模型里有很多专家，但每个 token 实际只走 top-k 个专家，所以一次前向并不会把所有参数都算一遍。这样总容量很大，但单次实际计算仍被限制在少数子网里。详见后文“### 34. MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住？它的路由又会引入什么问题？”。
问：数据重复、污染、评测泄漏会怎样破坏模型质量判断？
答：数据重复、数据污染和评测泄漏最危险的地方，是它们会制造一种“模型已经很强”的假象。离线指标可能很好看，但其实模型只是见过大量重复样本，或者训练集和测试集存在近重复，最后并没有真正学会泛化。详见后文“### 35. 数据重复、污染、评测泄漏会怎样破坏模型质量判断？”。
问：为什么有些团队宁愿做数据工程，也不急着继续堆模型参数？
答：很多团队不急着继续堆参数，是因为模型做到一定规模后，性能瓶颈往往不再只是“模型不够大”，而是“数据不够好、分布不够对、训练预算没花在刀刃上”。这时候继续加参数，可能只是在更高成本下重复学习噪声。详见后文“### 36. 为什么有些团队宁愿做数据工程，也不急着继续堆模型参数？”。

#这一块真正考什么

是否知道“大模型能力”不只来自模型结构，还来自数据规模、质量、配比、去重和训练目标。
是否具备基本的训练范式判断能力。

#作答抓手

回答训练范式题时，优先从三件事讲：目标是什么、数据是什么、代价是什么。