76. 四、高频高阶问题速览 - 大模型面试题库

#四、高频高阶问题速览

attention 里为什么要除以 sqrt(d_k)？
sigmoid、tanh、softmax 的导数性质有什么关键差别？为什么会有梯度饱和？
为什么 softmax + cross-entropy 的梯度会化成 p - y？
MSE 和 cross-entropy 各自隐含了什么概率假设？什么时候更合适？
最小二乘为什么会导向正规方程 X^T X w = X^T y？
L1 正则和 L2 正则为什么一个更容易产生稀疏，一个更偏平滑收缩？
bias-variance trade-off 到底在说什么？它和过拟合/欠拟合是什么关系？
协方差矩阵为什么一定是半正定的？这件事为什么重要？
欧氏距离和马氏距离的区别是什么？为什么后者更“懂数据分布”？
为什么 embedding 检索和相似度匹配里经常用 cosine similarity？
矩阵求导里最值得熟记的几类模板有哪些？
为什么大家老用 trace trick？它在矩阵推导里到底方便在哪？
KKT 条件是什么？它和拉格朗日乘数法是什么关系？
原问题和对偶问题是什么关系？为什么 duality 在优化里重要？
Jensen 不等式为什么在机器学习里经常出现？
log-sum-exp 为什么是数值稳定里的高频技巧？
reparameterization trick 在干什么？为什么它对 VAE 很关键？
Monte Carlo estimation 是什么？为什么它常和“无偏但高方差”绑定出现？
为什么训练里经常做 EMA（指数滑动平均）？
为什么标准化、归一化、LayerNorm 往往能让优化更稳定？

#就地速答

问：attention 里为什么要除以 sqrt(d_k)？
答：因为点积维度越大，数值方差通常越大，不缩放会让 softmax 更容易饱和；除以 sqrt(d_k) 是在把 logits 拉回更稳定的尺度。
问：sigmoid、tanh、softmax 的导数性质有什么关键差别？为什么会有梯度饱和？
答：它们都可导，但 sigmoid/tanh 在输入绝对值很大时导数会很小，因此容易饱和；softmax 则是多类耦合导数，常和交叉熵一起分析。
问：为什么 softmax + cross-entropy 的梯度会化成 p - y？
答：因为交叉熵对 log softmax 求导后，复杂 Jacobian 会简化，最终得到“预测概率减真实分布”，这是分类训练特别高效的原因之一。
问：MSE 和 cross-entropy 各自隐含了什么概率假设？什么时候更合适？
答：MSE 常对应高斯噪声回归假设，cross-entropy 更对应分类分布建模；前者常用于连续值回归，后者更适合概率分类。
问：最小二乘为什么会导向正规方程 X^T X w = X^T y？
答：因为平方误差对参数求导并令其为零后，就会得到这个线性系统；本质是在找残差平方和最小的闭式解。
问：L1 正则和 L2 正则为什么一个更容易产生稀疏，一个更偏平滑收缩？
答：L1 的几何边界有尖角，更容易把最优点压到坐标轴上形成 0；L2 边界更圆滑，通常是整体缩小而不是直接置零。
问：bias-variance trade-off 到底在说什么？它和过拟合/欠拟合是什么关系？
答：模型太简单时偏差大，太复杂时方差大；欠拟合常偏高 bias，过拟合常偏高 variance，泛化最好通常在两者之间找平衡。
问：协方差矩阵为什么一定是半正定的？这件事为什么重要？
答：因为任意方向上的投影方差都不可能为负，所以对应二次型一定非负；这让它能安全表示分布形状、做 PCA、定义马氏距离。
问：欧氏距离和马氏距离的区别是什么？为什么后者更“懂数据分布”？
答：欧氏距离把各方向一视同仁，马氏距离会按协方差做缩放和去相关，因此更能体现“在当前分布下多异常”。
问：为什么 embedding 检索和相似度匹配里经常用 cosine similarity？
答：因为很多场景更关心方向而不是长度，cosine similarity 会把向量范数影响剥掉，更适合比较语义方向接近程度。
问：矩阵求导里最值得熟记的几类模板有哪些？
答：最常见的是线性项、二次型、trace 形式和仿射变换链式求导；很多复杂推导最后都能拆回这些模板。
问：为什么大家老用 trace trick？它在矩阵推导里到底方便在哪？
答：因为 trace 允许你自由循环重排矩阵乘积，从而把标量式子改写成更容易求导的统一形式。
问：KKT 条件是什么？它和拉格朗日乘数法是什么关系？
答：KKT 可以看作拉格朗日乘数法在不等式约束下的推广，除了 stationarity，还会加入可行性与 complementary slackness。
问：原问题和对偶问题是什么关系？为什么 duality 在优化里重要？
答：对偶问题给原问题提供下界或等价视角，很多时候更容易分析、求解或解释约束的“价格”。
问：Jensen 不等式为什么在机器学习里经常出现？
答：因为期望和非线性函数不能随便交换，Jensen 正好告诉你凸/凹函数下二者的大小关系，这直接影响上界、下界和 ELBO 一类推导。
问：log-sum-exp 为什么是数值稳定里的高频技巧？
答：因为直接对很大的 logits 取 exp 容易上溢，而先减最大值再做 log-sum-exp 能保持数学等价同时更稳定。
问：reparameterization trick 在干什么？为什么它对 VAE 很关键？
答：它把“从分布采样”改写成“确定性函数 + 外部噪声”，从而让梯度能穿过采样步骤传播回参数。
问：Monte Carlo estimation 是什么？为什么它常和“无偏但高方差”绑定出现？
答：它是用随机采样平均去近似期望，优点是简单通用，缺点是样本少时波动大，所以常要配合降方差技巧。
问：为什么训练里经常做 EMA（指数滑动平均）？
答：因为参数更新带噪，EMA 相当于对训练轨迹做平滑，常能得到更稳的评估权重。
问：为什么标准化、归一化、LayerNorm 往往能让优化更稳定？
答：因为它们能缓解尺度漂移、改善条件数、控制激活分布，让不同层和不同方向的优化难度更接近。