73. 一、高频问题速览 - 大模型面试题库

#一、高频问题速览

命题、逆否、充分条件、必要条件、量词这几个概念怎么区分？
数学归纳法和递推关系为什么在算法与模型分析里经常出现？
图论里最该会的概念有哪些，为什么 DAG、拓扑排序、连通性这么常见？
条件概率、全概率公式、贝叶斯公式分别在说什么？
期望、方差、协方差、相关系数的区别是什么？
Bernoulli / Binomial / Categorical / Gaussian 这些分布最核心的区别是什么？
大数定律和中心极限定理为什么重要？
MLE 和 MAP 的区别是什么？
熵、交叉熵、KL divergence 之间是什么关系？
向量的内积、范数、投影为什么在机器学习里这么重要？
矩阵的 rank、满秩、可逆、零空间之间是什么关系？
特征值、特征向量、正定/半正定矩阵分别意味着什么？
SVD 和 PCA 的关系是什么？
偏导数、梯度、Jacobian、Hessian 怎么区分？
链式法则为什么可以支撑整个 backprop？
泰勒展开在优化里到底有什么用？
什么叫凸函数、凸集、凸优化？为什么大家总说“凸问题更好解”？
拉格朗日乘数法到底在干什么？什么时候该用？
gradient descent、stochastic gradient descent、mini-batch gradient descent 的数学差别是什么？
条件数（condition number）为什么会影响训练和数值稳定性？

#就地速答

问：命题、逆否、充分条件、必要条件、量词这几个概念怎么区分？
答：它们本质都在描述“结论是否由前提推出”以及“语句覆盖范围”。逆否命题和原命题等价，充分/必要是在区分“够不够”和“缺不缺”，量词则决定你是在说“存在一个”还是“对所有都成立”。
问：数学归纳法和递推关系为什么在算法与模型分析里经常出现？
答：因为很多算法、动态过程、网络层级结构天然就是“从前一步推到后一步”的形式，归纳法和递推是证明这种结构正确性与复杂度的最自然工具。
问：图论里最该会的概念有哪些，为什么 DAG、拓扑排序、连通性这么常见？
答：图是最直接的关系表达工具，而依赖、调用链、计算图、知识图谱、任务流都能抽成图；DAG 和拓扑排序则直接对应“有依赖但不能有环”的系统结构。
问：条件概率、全概率公式、贝叶斯公式分别在说什么？
答：条件概率是在限定信息下重算概率；全概率是在按不同可能来源做加权拆分；贝叶斯是在“观察到结果后反推原因”时更新信念。
问：期望、方差、协方差、相关系数的区别是什么？
答：期望看平均水平，方差看波动大小，协方差看两个变量是否同涨同跌，相关系数则把这种关系做了归一化，便于跨尺度比较。
问：Bernoulli / Binomial / Categorical / Gaussian 这些分布最核心的区别是什么？
答：它们描述的是不同类型随机变量：单次二元、重复计数、多类别离散、连续近似；面试时关键是能把“随机变量类型”和“参数含义”讲清楚。
问：大数定律和中心极限定理为什么重要？
答：它们解释了为什么样本均值会稳定、为什么很多独立扰动叠加后近似高斯，也因此支撑了统计估计、置信区间和很多训练时的近似分析。
问：MLE 和 MAP 的区别是什么？
答：MLE 只看数据让参数最可能；MAP 在此基础上再结合先验，因此可以理解成“数据证据 + 先验偏好”的折中。
问：熵、交叉熵、KL divergence 之间是什么关系？
答：熵是分布本身的不确定性，交叉熵是“拿一个分布去编码另一个分布”的代价，KL 则是二者差值，表示额外浪费了多少信息。
问：向量的内积、范数、投影为什么在机器学习里这么重要？
答：因为相似度、长度、方向、正交分解、最小二乘、注意力分数，本质上都在反复使用这几个基本对象。
问：矩阵的 rank、满秩、可逆、零空间之间是什么关系？
答：它们都在回答“这个线性变换丢没丢信息”：满秩意味着信息没塌缩，可逆意味着能找回输入，零空间则是被映射成 0 的那部分方向。
问：特征值、特征向量、正定/半正定矩阵分别意味着什么？
答：特征向量表示“方向不变只缩放”的方向，特征值表示缩放倍率；正定/半正定则决定一个二次型是否总向上、是否适合作为能量或损失近似。
问：SVD 和 PCA 的关系是什么？
答：SVD 是更通用的矩阵分解工具，PCA 则可以看作在中心化数据矩阵上做 SVD 后，寻找方差最大的正交方向。
问：偏导数、梯度、Jacobian、Hessian 怎么区分？
答：偏导看单变量方向变化，梯度把所有一阶偏导合起来，Jacobian 处理向量到向量映射的一阶导，Hessian 则收集二阶曲率信息。
问：链式法则为什么可以支撑整个 backprop？
答：因为神经网络本质是复合函数嵌套，链式法则允许把最终损失对前面参数的影响拆成一段一段局部导数的乘积。
问：泰勒展开在优化里到底有什么用？
答：它让你用局部多项式近似原函数，从而理解一阶方法为什么沿梯度走、二阶方法为什么要看曲率，也能解释牛顿法和二次近似。
问：什么叫凸函数、凸集、凸优化？为什么大家总说“凸问题更好解”？
答：因为凸问题没有“局部最优比全局最优差”的陷阱，局部最优就是全局最优，所以理论和算法都更干净。
问：拉格朗日乘数法到底在干什么？什么时候该用？
答：它是在做“带约束优化”时，把目标函数和约束绑定到一起，寻找在满足约束前提下目标最优的点；最常见于等式约束和 KKT 的前置直觉。
问：gradient descent、stochastic gradient descent、mini-batch gradient descent 的数学差别是什么？
答：差别在于你用的是全量梯度、单样本噪声梯度还是小批量近似梯度；本质是“估计精度”和“每步成本/噪声”之间的取舍。
问：条件数（condition number）为什么会影响训练和数值稳定性？
答：条件数大意味着不同方向尺度差异很大，优化会像在狭长峡谷里来回震荡，数值误差也更容易被放大。