#四、高频高阶问题速览

  1. attention 里为什么要除以 sqrt(d_k)
  2. sigmoidtanhsoftmax 的导数性质有什么关键差别?为什么会有梯度饱和?
  3. 为什么 softmax + cross-entropy 的梯度会化成 p - y
  4. MSE 和 cross-entropy 各自隐含了什么概率假设?什么时候更合适?
  5. 最小二乘为什么会导向正规方程 X^T X w = X^T y
  6. L1 正则和 L2 正则为什么一个更容易产生稀疏,一个更偏平滑收缩?
  7. bias-variance trade-off 到底在说什么?它和过拟合/欠拟合是什么关系?
  8. 协方差矩阵为什么一定是半正定的?这件事为什么重要?
  9. 欧氏距离和马氏距离的区别是什么?为什么后者更“懂数据分布”?
  10. 为什么 embedding 检索和相似度匹配里经常用 cosine similarity?
  11. 矩阵求导里最值得熟记的几类模板有哪些?
  12. 为什么大家老用 trace trick?它在矩阵推导里到底方便在哪?
  13. KKT 条件是什么?它和拉格朗日乘数法是什么关系?
  14. 原问题和对偶问题是什么关系?为什么 duality 在优化里重要?
  15. Jensen 不等式为什么在机器学习里经常出现?
  16. log-sum-exp 为什么是数值稳定里的高频技巧?
  17. reparameterization trick 在干什么?为什么它对 VAE 很关键?
  18. Monte Carlo estimation 是什么?为什么它常和“无偏但高方差”绑定出现?
  19. 为什么训练里经常做 EMA(指数滑动平均)?
  20. 为什么标准化、归一化、LayerNorm 往往能让优化更稳定?

#就地速答

  • 问:attention 里为什么要除以 sqrt(d_k)

    答:因为点积维度越大,数值方差通常越大,不缩放会让 softmax 更容易饱和;除以 sqrt(d_k) 是在把 logits 拉回更稳定的尺度。

  • 问:sigmoidtanhsoftmax 的导数性质有什么关键差别?为什么会有梯度饱和?

    答:它们都可导,但 sigmoid/tanh 在输入绝对值很大时导数会很小,因此容易饱和;softmax 则是多类耦合导数,常和交叉熵一起分析。

  • 问:为什么 softmax + cross-entropy 的梯度会化成 p - y

    答:因为交叉熵对 log softmax 求导后,复杂 Jacobian 会简化,最终得到“预测概率减真实分布”,这是分类训练特别高效的原因之一。

  • 问:MSE 和 cross-entropy 各自隐含了什么概率假设?什么时候更合适?

    答:MSE 常对应高斯噪声回归假设,cross-entropy 更对应分类分布建模;前者常用于连续值回归,后者更适合概率分类。

  • 问:最小二乘为什么会导向正规方程 X^T X w = X^T y

    答:因为平方误差对参数求导并令其为零后,就会得到这个线性系统;本质是在找残差平方和最小的闭式解。

  • 问:L1 正则和 L2 正则为什么一个更容易产生稀疏,一个更偏平滑收缩?

    答:L1 的几何边界有尖角,更容易把最优点压到坐标轴上形成 0;L2 边界更圆滑,通常是整体缩小而不是直接置零。

  • 问:bias-variance trade-off 到底在说什么?它和过拟合/欠拟合是什么关系?

    答:模型太简单时偏差大,太复杂时方差大;欠拟合常偏高 bias,过拟合常偏高 variance,泛化最好通常在两者之间找平衡。

  • 问:协方差矩阵为什么一定是半正定的?这件事为什么重要?

    答:因为任意方向上的投影方差都不可能为负,所以对应二次型一定非负;这让它能安全表示分布形状、做 PCA、定义马氏距离。

  • 问:欧氏距离和马氏距离的区别是什么?为什么后者更“懂数据分布”?

    答:欧氏距离把各方向一视同仁,马氏距离会按协方差做缩放和去相关,因此更能体现“在当前分布下多异常”。

  • 问:为什么 embedding 检索和相似度匹配里经常用 cosine similarity?

    答:因为很多场景更关心方向而不是长度,cosine similarity 会把向量范数影响剥掉,更适合比较语义方向接近程度。

  • 问:矩阵求导里最值得熟记的几类模板有哪些?

    答:最常见的是线性项、二次型、trace 形式和仿射变换链式求导;很多复杂推导最后都能拆回这些模板。

  • 问:为什么大家老用 trace trick?它在矩阵推导里到底方便在哪?

    答:因为 trace 允许你自由循环重排矩阵乘积,从而把标量式子改写成更容易求导的统一形式。

  • 问:KKT 条件是什么?它和拉格朗日乘数法是什么关系?

    答:KKT 可以看作拉格朗日乘数法在不等式约束下的推广,除了 stationarity,还会加入可行性与 complementary slackness。

  • 问:原问题和对偶问题是什么关系?为什么 duality 在优化里重要?

    答:对偶问题给原问题提供下界或等价视角,很多时候更容易分析、求解或解释约束的“价格”。

  • 问:Jensen 不等式为什么在机器学习里经常出现?

    答:因为期望和非线性函数不能随便交换,Jensen 正好告诉你凸/凹函数下二者的大小关系,这直接影响上界、下界和 ELBO 一类推导。

  • 问:log-sum-exp 为什么是数值稳定里的高频技巧?

    答:因为直接对很大的 logits 取 exp 容易上溢,而先减最大值再做 log-sum-exp 能保持数学等价同时更稳定。

  • 问:reparameterization trick 在干什么?为什么它对 VAE 很关键?

    答:它把“从分布采样”改写成“确定性函数 + 外部噪声”,从而让梯度能穿过采样步骤传播回参数。

  • 问:Monte Carlo estimation 是什么?为什么它常和“无偏但高方差”绑定出现?

    答:它是用随机采样平均去近似期望,优点是简单通用,缺点是样本少时波动大,所以常要配合降方差技巧。

  • 问:为什么训练里经常做 EMA(指数滑动平均)?

    答:因为参数更新带噪,EMA 相当于对训练轨迹做平滑,常能得到更稳的评估权重。

  • 问:为什么标准化、归一化、LayerNorm 往往能让优化更稳定?

    答:因为它们能缓解尺度漂移、改善条件数、控制激活分布,让不同层和不同方向的优化难度更接近。