#三、预训练、数据工程、Scaling Law 与模型结构扩展

#代表笔试题

  1. Causal Language Modeling 和 Masked Language Modeling 的区别是什么?
  2. 什么是 Scaling Law?
  3. 为什么大模型预训练需要数据去重和数据清洗?
  4. Continue Pretraining 和 SFT 的目标有何不同?
  5. 什么是 MoE(Mixture-of-Experts)?
  6. MoE 的优势和代价分别是什么?

#就地速答

  • 问:Causal Language Modeling 和 Masked Language Modeling 的区别是什么?

    答:CLM(Causal Language Modeling)是标准的自回归目标:只看前文,预测下一个 token,所以它天然适合文本生成、对话、代码续写这类任务。MLM(Masked Language Modeling)则是把一部分 token 遮住,让模型根据左右文把它补回来,因此更适合理解型表示学习。详见后文“### 25. Causal Language Modeling 和 Masked Language Modeling 的区别是什么?”。

  • 问:什么是 Scaling Law?

    答:Scaling Law 说的是:当模型参数、训练 token、算力预算持续增大时,模型性能通常会呈现出某种相对平滑、可预测的变化规律。它不是一句“模型越大越强”的口号,而是告诉你提升性能时,数据、参数和算力之间存在耦合关系。详见后文“### 26. 什么是 Scaling Law?”。

  • 问:为什么大模型预训练需要数据去重和数据清洗?

    答:大模型预训练要做数据去重和清洗,核心原因是训练预算非常贵,不能把大量 step 浪费在重复、脏乱或低价值样本上。重复数据会让模型过度记忆少数模式,低质数据会把噪声、错误语法、错误事实甚至爬虫垃圾一起灌进去,最后既影响泛化,也污染评测判断。详见后文“### 27. 为什么大模型预训练需要数据去重和数据清洗?”。

  • 问:Continue Pretraining 和 SFT 的目标有何不同?

    答:continue pretraining 和 SFT 最大的区别,在于它们解决的问题层级不同。continue pretraining 主要是在原有底座上继续喂某个领域的数据,让模型更熟悉这个领域的术语、语气、知识结构和文本分布,所以它更像“补知识、补语料分布”;SFT 则是通过高质量输入输出对,让模型学会特定任务格式、回答风格和行为约束,更像“补行为”。详见后文“### 28. Continue Pretraining 和 SFT 的目标有何不同?”。

  • 问:什么是 MoE(Mixture-of-Experts)?

    答:MoE(Mixture of Experts)可以理解成“很多专家 + 一个分诊路由器”的结构。模型里不是只有一个统一 FFN,而是有很多个专家子网络;每个 token 进来后,路由器会决定它该送去哪些专家处理,通常只激活 top-k 个,而不是把所有专家都算一遍。详见后文“### 29. 什么是 MoE?”。

  • 问:MoE 的优势和代价分别是什么?

    答:MoE 的最大优势,是它让模型可以在不把单 token 计算成本同步拉爆的前提下,把总容量做得更大。换句话说,你可以拥有更多参数、更强知识容量和更高潜在上限,但每次前向只激活少量专家,因此 FLOPs 增长没有那么夸张。详见后文“### 30. MoE 的优势和代价分别是什么?”。

#代表面试题

  1. 如果要做一个法律/医疗/金融领域模型,你会选继续预训练还是直接 SFT?为什么?
  2. 预训练数据配比为什么重要?高质量小数据和低质量大数据怎么权衡?
  3. Scaling Law 在实际项目里怎么指导模型选型和算力预算?
  4. MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住?它的路由又会引入什么问题?
  5. 数据重复、污染、评测泄漏会怎样破坏模型质量判断?
  6. 为什么有些团队宁愿做数据工程,也不急着继续堆模型参数?

#就地速答

  • 问:如果要做一个法律/医疗/金融领域模型,你会选继续预训练还是直接 SFT?为什么?

    答:如果法律、医疗、金融模型的核心短板是“不懂这个行业在说什么”,比如术语陌生、领域知识缺失、文本风格完全不对,那优先考虑 continue pretraining,因为你首先要把底层语言分布补进去。如果模型已经大致懂这个领域,但不会按问答、抽取、报告、风控解释等任务格式稳定输出,那更适合做 SFT。详见后文“### 31. 如果要做一个法律/医疗/金融领域模型,你会选继续预训练还是直接 SFT?为什么?”。

  • 问:预训练数据配比为什么重要?高质量小数据和低质量大数据怎么权衡?

    答:预训练数据配比重要,是因为模型最后学到的不是某一份数据,而是整个训练分布。你给什么比例,它就把多少训练预算花在那种模式上。所以高质量数据虽然量小,但往往信息密度高、噪声低;低质量大数据虽然覆盖广,但会把很多预算浪费在弱模式甚至错误模式上。详见后文“### 32. 预训练数据配比为什么重要?高质量小数据和低质量大数据怎么权衡?”。

  • 问:Scaling Law 在实际项目里怎么指导模型选型和算力预算?

    答:Scaling Law 在项目里最有用的地方,是帮团队做“钱该花在哪”的判断。比如预算固定时,你需要判断继续堆模型参数是不是已经进入收益递减区,或者是不是应该把更多钱投到数据扩充、数据清洗、训练 token 数,甚至基础设施效率优化上。详见后文“### 33. Scaling Law 在实际项目里怎么指导模型选型和算力预算?”。

  • 问:MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住?它的路由又会引入什么问题?

    答:MoE 能把总参数量做大但推理 FLOPs 控住,关键就在“稀疏激活”。虽然模型里有很多专家,但每个 token 实际只走 top-k 个专家,所以一次前向并不会把所有参数都算一遍。这样总容量很大,但单次实际计算仍被限制在少数子网里。详见后文“### 34. MoE 为什么能在“参数量变大”的同时把推理 FLOPs 控住?它的路由又会引入什么问题?”。

  • 问:数据重复、污染、评测泄漏会怎样破坏模型质量判断?

    答:数据重复、数据污染和评测泄漏最危险的地方,是它们会制造一种“模型已经很强”的假象。离线指标可能很好看,但其实模型只是见过大量重复样本,或者训练集和测试集存在近重复,最后并没有真正学会泛化。详见后文“### 35. 数据重复、污染、评测泄漏会怎样破坏模型质量判断?”。

  • 问:为什么有些团队宁愿做数据工程,也不急着继续堆模型参数?

    答:很多团队不急着继续堆参数,是因为模型做到一定规模后,性能瓶颈往往不再只是“模型不够大”,而是“数据不够好、分布不够对、训练预算没花在刀刃上”。这时候继续加参数,可能只是在更高成本下重复学习噪声。详见后文“### 36. 为什么有些团队宁愿做数据工程,也不急着继续堆模型参数?”。

#这一块真正考什么

  • 是否知道“大模型能力”不只来自模型结构,还来自数据规模、质量、配比、去重和训练目标。
  • 是否具备基本的训练范式判断能力。

#作答抓手

回答训练范式题时,优先从三件事讲:目标是什么数据是什么代价是什么