#四、高频高阶问题速览
- attention 里为什么要除以
sqrt(d_k)? sigmoid、tanh、softmax的导数性质有什么关键差别?为什么会有梯度饱和?- 为什么
softmax + cross-entropy的梯度会化成p - y? MSE和 cross-entropy 各自隐含了什么概率假设?什么时候更合适?- 最小二乘为什么会导向正规方程
X^T X w = X^T y? L1正则和L2正则为什么一个更容易产生稀疏,一个更偏平滑收缩?- bias-variance trade-off 到底在说什么?它和过拟合/欠拟合是什么关系?
- 协方差矩阵为什么一定是半正定的?这件事为什么重要?
- 欧氏距离和马氏距离的区别是什么?为什么后者更“懂数据分布”?
- 为什么 embedding 检索和相似度匹配里经常用 cosine similarity?
- 矩阵求导里最值得熟记的几类模板有哪些?
- 为什么大家老用 trace trick?它在矩阵推导里到底方便在哪?
KKT条件是什么?它和拉格朗日乘数法是什么关系?- 原问题和对偶问题是什么关系?为什么 duality 在优化里重要?
- Jensen 不等式为什么在机器学习里经常出现?
log-sum-exp为什么是数值稳定里的高频技巧?- reparameterization trick 在干什么?为什么它对
VAE很关键? - Monte Carlo estimation 是什么?为什么它常和“无偏但高方差”绑定出现?
- 为什么训练里经常做
EMA(指数滑动平均)? - 为什么标准化、归一化、
LayerNorm往往能让优化更稳定?
#就地速答
- 问:attention 里为什么要除以
sqrt(d_k)?答:因为点积维度越大,数值方差通常越大,不缩放会让
softmax更容易饱和;除以sqrt(d_k)是在把 logits 拉回更稳定的尺度。 - 问:
sigmoid、tanh、softmax的导数性质有什么关键差别?为什么会有梯度饱和?答:它们都可导,但
sigmoid/tanh在输入绝对值很大时导数会很小,因此容易饱和;softmax则是多类耦合导数,常和交叉熵一起分析。 - 问:为什么
softmax + cross-entropy的梯度会化成p - y?答:因为交叉熵对
log softmax求导后,复杂 Jacobian 会简化,最终得到“预测概率减真实分布”,这是分类训练特别高效的原因之一。 - 问:
MSE和 cross-entropy 各自隐含了什么概率假设?什么时候更合适?答:
MSE常对应高斯噪声回归假设,cross-entropy 更对应分类分布建模;前者常用于连续值回归,后者更适合概率分类。 - 问:最小二乘为什么会导向正规方程
X^T X w = X^T y?答:因为平方误差对参数求导并令其为零后,就会得到这个线性系统;本质是在找残差平方和最小的闭式解。
- 问:
L1正则和L2正则为什么一个更容易产生稀疏,一个更偏平滑收缩?答:
L1的几何边界有尖角,更容易把最优点压到坐标轴上形成 0;L2边界更圆滑,通常是整体缩小而不是直接置零。 - 问:bias-variance trade-off 到底在说什么?它和过拟合/欠拟合是什么关系?
答:模型太简单时偏差大,太复杂时方差大;欠拟合常偏高 bias,过拟合常偏高 variance,泛化最好通常在两者之间找平衡。
- 问:协方差矩阵为什么一定是半正定的?这件事为什么重要?
答:因为任意方向上的投影方差都不可能为负,所以对应二次型一定非负;这让它能安全表示分布形状、做 PCA、定义马氏距离。
- 问:欧氏距离和马氏距离的区别是什么?为什么后者更“懂数据分布”?
答:欧氏距离把各方向一视同仁,马氏距离会按协方差做缩放和去相关,因此更能体现“在当前分布下多异常”。
- 问:为什么 embedding 检索和相似度匹配里经常用 cosine similarity?
答:因为很多场景更关心方向而不是长度,cosine similarity 会把向量范数影响剥掉,更适合比较语义方向接近程度。
- 问:矩阵求导里最值得熟记的几类模板有哪些?
答:最常见的是线性项、二次型、trace 形式和仿射变换链式求导;很多复杂推导最后都能拆回这些模板。
- 问:为什么大家老用 trace trick?它在矩阵推导里到底方便在哪?
答:因为 trace 允许你自由循环重排矩阵乘积,从而把标量式子改写成更容易求导的统一形式。
- 问:
KKT条件是什么?它和拉格朗日乘数法是什么关系?答:
KKT可以看作拉格朗日乘数法在不等式约束下的推广,除了 stationarity,还会加入可行性与 complementary slackness。 - 问:原问题和对偶问题是什么关系?为什么 duality 在优化里重要?
答:对偶问题给原问题提供下界或等价视角,很多时候更容易分析、求解或解释约束的“价格”。
- 问:Jensen 不等式为什么在机器学习里经常出现?
答:因为期望和非线性函数不能随便交换,Jensen 正好告诉你凸/凹函数下二者的大小关系,这直接影响上界、下界和 ELBO 一类推导。
- 问:
log-sum-exp为什么是数值稳定里的高频技巧?答:因为直接对很大的 logits 取
exp容易上溢,而先减最大值再做log-sum-exp能保持数学等价同时更稳定。 - 问:reparameterization trick 在干什么?为什么它对
VAE很关键?答:它把“从分布采样”改写成“确定性函数 + 外部噪声”,从而让梯度能穿过采样步骤传播回参数。
- 问:Monte Carlo estimation 是什么?为什么它常和“无偏但高方差”绑定出现?
答:它是用随机采样平均去近似期望,优点是简单通用,缺点是样本少时波动大,所以常要配合降方差技巧。
- 问:为什么训练里经常做
EMA(指数滑动平均)?答:因为参数更新带噪,
EMA相当于对训练轨迹做平滑,常能得到更稳的评估权重。 - 问:为什么标准化、归一化、
LayerNorm往往能让优化更稳定?答:因为它们能缓解尺度漂移、改善条件数、控制激活分布,让不同层和不同方向的优化难度更接近。