001. 如何使用这本数学速修手册

#001. 如何使用这本数学速修手册

#学习目标：先建立路线

这本手册不是把数学公式堆在一起，也不是只给面试题答案。它的目标是让你从零基础或长期遗忘状态重新建立一条可用的数学路线：先知道每门数学在解决什么问题，再知道公式里的符号怎么读，最后能把基础概念迁移到大模型训练、推理、评估，以及量化研究、回测、风险控制中。

如果你过去学数学时只记住了“求导、矩阵乘法、概率公式”，但不知道它们为什么会出现在 LLM 和 Quant 面试里，本章就是使用说明。读完这一章后，你应该知道每一章该怎么读、例题该怎么做、每天怎样验收，而不是盲目从第一个公式背到最后一个公式。

目标一：恢复数学语言

看到 \(x\)、\(w\)、\(A\)、\(\Sigma\)、\(p(x)\)、\(\mathbb{E}[X]\) 这类符号时，能先判断它们是数、向量、矩阵、分布还是随机变量。很多面试失误不是不会算，而是从第一步就把对象类型读错了。

目标二：理解公式用途

每个公式都要回答“它在解决什么问题”。导数解决局部变化率，投影解决最佳近似，MLE 解决从数据估参数，KL 解决两个分布方向性差异。

目标三：形成迁移能力

同一个基础对象要能迁移到两个场景：例如梯度既是神经网络参数更新方向，也是最优化中寻找下降方向；协方差矩阵既能描述资产共同波动，也能描述特征之间的线性依赖。

本章的核心方法

不要问“这章要背哪些公式”，而要问“这章让我多了一种什么语言”。微积分给你变化语言，线性代数给你空间语言，概率统计给你不确定性语言。LLM 和 Quant 面试本质上经常是在考你能否把实际系统翻译成这三种语言。

#概念起点：三门数学分别解决什么问题

零基础复习时，最重要的不是先钻进细节，而是先知道三门数学各自的“问题域”。如果问题域混乱，就会出现典型错误：用概率直觉解释确定性优化，用一维导数理解高维矩阵，用背公式替代维度检查。

数学模块	它解决的核心问题	你要优先掌握的读法	LLM/Quant 里的对应对象
微积分与优化	当输入发生一点变化，输出怎样变化？怎样沿着更好的方向更新？	把函数看成“输入到输出的机器”，把导数看成局部变化率，把梯度看成高维方向提示。	loss 对参数的梯度、反向传播、学习率、Hessian、凸优化、约束优化。
线性代数	高维对象如何表示、变换、压缩、投影和分解？	把向量看成带方向的对象，把矩阵看成变换，把秩看成独立信息量，把特征值/SVD 看成主方向。	embedding、attention 里的矩阵乘法、LoRA 低秩更新、PCA 因子、协方差矩阵。
概率统计	不确定性怎样描述？样本怎样支持结论？风险怎样量化？	把随机变量看成“结果还没固定的数”，把分布看成可能结果的权重，把期望看成长期平均。	next-token 概率、交叉熵、MLE/MAP、采样评估、回测显著性、VaR/CVaR。

微积分的最小句子

\(f'(a)\) 读作“函数 \(f\) 在 \(a\) 附近的瞬时变化率”。如果 \(h\) 很小，\(f(a+h)\approx f(a)+f'(a)h\)，意思是用一条局部直线近似原函数。

线性代数的最小句子

\(y=Ax\) 读作“矩阵 \(A\) 把输入向量 \(x\) 变成输出向量 \(y\)”。这里 \(A\) 不是一堆数字，而是一个线性变换。

概率统计的最小句子

\(\mathbb{E}[X]\) 读作“随机变量 \(X\) 的期望”。它不是某一次一定会发生的值，而是大量重复下的平均中心。

推荐路线是先顺读 002-004，建立“变化和优化”的语言；再读 005-007，建立“空间和矩阵”的语言；再读 008-011，建立“不确定性和风险”的语言；最后读 012 和后续例题章节，把三种语言接到真实面试问题。

#怎样读公式：对象、符号、维度、含义

很多人觉得公式难，是因为一上来就想“怎么计算”，却没有先读清楚公式在说什么。正确顺序是：先判断对象类型，再解释每个符号，再检查维度是否匹配，最后说出这个公式解决了什么问题。

阅读步骤	你要问的问题	为什么重要
1. 对象	这里的 \(x\) 是数还是向量？\(A\) 是矩阵还是事件？\(p\) 是概率质量函数还是概率密度？	对象类型错了，后面每一步都会错。例如 \(x^TAx\) 只有在维度匹配时才是一个标量。
2. 符号	\(\nabla\)、\(\Sigma\)、\(\mathbb{E}\)、\(\operatorname{Var}\)、\(\arg\max\) 各表示什么操作？	符号是压缩语言。你要能把压缩句子展开成普通中文。
3. 维度	输入输出维度是什么？矩阵乘法是否能乘？结果是标量、向量还是矩阵？	LLM 和 Quant 都大量使用高维对象，维度检查是最可靠的防错工具。
4. 含义	公式表达的是变化、空间、概率、估计，还是风险？	面试回答不能停在“公式是这样”，还要解释它为什么有用。

小例子：读懂组合风险公式

量化面试里经常出现组合方差：

\operatorname{Var}(w^TR)=w^T\Sigma w

如果你完全零基础，不要先背这个结论，而要按四步读它。

第一步，看对象。\(R\) 是资产收益向量，例如两只资产时 \(R=(R_1,R_2)^T\)；\(w\) 是权重向量，例如 \(w=(0.6,0.4)^T\)；\(\Sigma\) 是收益的协方差矩阵，用来记录资产自己波动多大、资产之间是否一起涨跌。

第二步，看符号。\(w^T R\) 是组合收益，把每只资产收益按权重加权；\(\operatorname{Var}\) 是方差，衡量波动；\(w^T\Sigma w\) 是二次型，输出一个标量。

第三步，看维度。如果有 \(d\) 个资产，\(w\in\mathbb{R}^d\)，\(R\in\mathbb{R}^d\)，\(\Sigma\in\mathbb{R}^{d\times d}\)。于是 \(w^T\Sigma w\) 的维度是 \(1\times d\)、\(d\times d\)、\(d\times 1\)，最后得到 \(1\times 1\) 的数。

第四步，说含义。组合风险不只是单个资产风险的加权平均，还包含资产之间共同波动的影响。两个资产高度正相关时，分散化效果弱；负相关时，组合风险可能下降。

公式阅读的底线

只要遇到公式，就用一句话写下“输入是什么、输出是什么、它把什么问题变成了什么计算”。如果写不出来，说明不是不会背，而是还没真正读懂。

#怎样做例题：从题目翻译到完整解答

做数学例题不是为了刷数量，而是训练“把自然语言翻译成数学语言”的能力。建议每道题都按固定流程写：题目在问什么、已知对象是什么、应该用哪个概念、公式怎样代入、答案的单位和边界是什么。

先翻译题目

把“变化最快”“最佳近似”“长期平均”“风险变大”翻译成梯度、投影、期望、方差或尾部风险。面试题经常把数学对象藏在业务语言里。

再写最小公式

不要一开始写一整串推导。先写最能表达问题的公式，例如梯度下降、最小二乘、Bayes、MLE、KL。

最后解释边界

答案算出来还不够，要说明什么时候可用。比如独立同分布、可微、正定、样本量足够、没有严重非平稳，都是常见边界。

小例子：从最小二乘理解“最佳近似”

题目：给定两个样本点 \((1,2)\)、\((2,3)\)，用过原点的直线 \(\hat y=ax\) 拟合它们。求最小二乘意义下的 \(a\)。

1. 翻译题目。“过原点的直线”说明模型只有一个参数 \(a\)；“最小二乘”说明要最小化预测误差平方和。

2. 写目标函数。第一个点的预测是 \(a\)，误差是 \(a-2\)；第二个点的预测是 \(2a\)，误差是 \(2a-3\)。所以目标函数是：

\[ L(a)=(a-2)^2+(2a-3)^2 \]

3. 用微积分求最小值。对 \(a\) 求导：

\[ L'(a)=2(a-2)+4(2a-3)=10a-16 \]

令 \(L'(a)=0\)，得到 \(a=1.6\)。

4. 解释答案。这条直线不是穿过两个点，而是在平方误差总和最小的意义下尽量接近它们。线性代数里，这对应把观测向量投影到模型列空间上。

小例子：从 softmax 读出概率

题目：模型给三个 token 的 logits 是 \((2,1,0)\)。写出 softmax 概率的形式，并解释哪个 token 更可能被采样。

1. 翻译题目。logits 是未归一化分数，不是概率。softmax 的作用是把任意实数分数变成总和为 1 的概率向量。

p_i=\frac{e^{z_i}}{\sum_j e^{z_j}}

2. 代入。这里 \(z=(2,1,0)\)，所以三个概率分别与 \(e^2\)、\(e^1\)、\(e^0\) 成正比。第一个 token 的分数最高，因此概率最大。

3. 解释边界。logits 差距越大，softmax 越接近把概率集中在最高分 token 上；如果引入 temperature，分布会变平或变尖。后续 LLM 章节会把它连接到采样、交叉熵和 KL。

#从基础章过渡到 LLM 与 Quant 应用

不要把基础数学和应用割裂开。更好的学习方式是每学一个基础概念，就立刻问它在 LLM 和 Quant 中各自对应什么对象。这样你在面试里不会只说“我学过导数/矩阵/概率”，而能说“这个概念如何改变模型训练或策略评估”。

基础概念	先掌握的数学意思	LLM 面试连接	Quant 面试连接
导数与梯度	函数局部变化率；高维中指向最陡上升方向。	loss 对参数求梯度，反向传播把误差信号传回每层。	优化目标对权重或参数的敏感性，调参和约束优化。
Taylor 展开	用当前点附近的低阶多项式近似复杂函数。	解释优化器、二阶方法、数值稳定近似。	风险函数近似、局部敏感性、希腊字母直觉。
矩阵乘法	线性变换与多个方向的组合。	embedding 映射、attention 投影、MLP 层。	因子暴露、协方差变换、组合收益。
投影与最小二乘	在一个可表达空间里找离目标最近的点。	线性 probe、表示分析、残差解释。	回归因子模型、残差收益、风险暴露剥离。
期望与方差	长期平均与围绕平均的波动。	采样评测的平均指标、reward 估计不确定性。	收益均值、波动率、Sharpe、风险预算。
MLE、KL、交叉熵	从数据估参数；比较分布；衡量预测分布与真实分布差异。	next-token prediction、偏好优化、KL regularization。	分布拟合、似然模型、风险情景模拟。

迁移训练

读每一章时，强制自己写两句话：一句 LLM 连接，一句 Quant 连接。例如“梯度是 loss 变小的方向提示；在 LLM 中它更新模型参数，在 Quant 中它帮助优化组合权重或目标函数参数”。如果某个概念写不出连接，说明你还停留在教材层，没有进入面试层。

#每天如何学习与验收

这本手册适合用短周期反复学习。每天不要只读完页面，而要留下可检查的产物。最小产物包括：一张概念卡、一条公式解释、一题完整解答、两个应用连接、一个边界条件。

时间块	做什么	当天必须产出的内容
15 分钟	浏览本章地图，标出今天要学的 3 个核心词。	写下每个核心词解决的问题，例如“梯度解决高维函数往哪里变的问题”。
30 分钟	精读公式，逐个解释符号和维度。	至少把一个公式翻译成普通中文，并写明输入、输出、对象类型。
30 分钟	做一个 worked example，完整写出步骤。	不要只写答案，要写“为什么用这个公式”。
15 分钟	连接 LLM/Quant 场景。	各写一个应用句子，并补一句边界或风险。
10 分钟	闭卷复述。	不用看页面，说出本章最重要的 3 个概念、1 个公式、1 个误区。

当天读完后，能否用自己的话解释本章标题里的关键词？不能解释就不要进入下一章。
当天至少手写或打出一个公式的符号解释，不要只复制公式。
当天至少做一道例题，并检查每一步的对象类型和维度。
当天至少写一个 LLM 连接和一个 Quant 连接，避免数学和应用脱节。
当天必须写一个“这个结论什么时候可能失效”。没有边界意识的答案在面试里很脆。

#常见误区：看似会了但面试会掉坑

零基础复习最危险的状态是“看懂了文字，但无法独立使用”。下面这些误区要在读每章时主动检查。

误区	为什么会错	修正方式
只背公式，不读对象	同一个字母在不同章节可能代表数、向量、矩阵、事件或随机变量。	每次先写对象类型和维度，再写公式。
把一维直觉硬套到高维	一维导数只有左右变化，高维梯度涉及方向；矩阵也不是普通数字。	遇到高维问题就画成“方向、空间、变换”。
把相关当成因果	协方差、相关系数只能描述共同变化，不自动说明谁导致谁。	量化因子和模型分析都要区分统计关系、预测关系和因果机制。
忽略样本和分布假设	估计、显著性、回测、采样评测都依赖样本质量和分布稳定性。	回答概率统计问题时，补充独立性、样本量、非平稳、厚尾等边界。
把 LLM 术语当黑箱	softmax、cross entropy、KL、attention 都是基础数学对象的组合。	把每个模型术语拆回向量、矩阵、概率分布和优化目标。

小例子：一个高质量面试回答长什么样

问题：为什么语言模型训练里会用交叉熵？

弱回答：因为交叉熵可以衡量两个分布差异，训练时让 loss 变小。

更好的回答：在 next-token prediction 里，模型对词表输出一个概率分布 \(q\)，真实下一个 token 可以看成 one-hot 分布 \(p\)。交叉熵 \(H(p,q)\) 会惩罚模型给真实 token 的概率太低。因为 one-hot 下只有真实 token 的 \(p_i=1\)，所以 loss 变成真实 token 概率的负对数：

H(p,q)=-\sum_i p_i\log q_i=-\log q_{\text{true}}

这解释了为什么模型越相信正确 token，loss 越小；也解释了为什么 softmax 概率、logits 和梯度会连在一起。边界是：交叉熵只是在给定训练数据分布上做 next-token 拟合，不等于模型真正理解、诚实或安全。

#最后检查清单

完成本章后，你不需要记住后面所有公式，但必须掌握使用手册的方法。下面这份清单用于判断你是否已经准备好进入第 002 章。

我能说清三门数学分别解决什么问题：微积分处理变化和优化，线性代数处理高维空间和变换，概率统计处理不确定性和估计。
我看到公式时会先判断对象类型：数、向量、矩阵、分布、随机变量、事件或函数。
我会检查维度，例如 \(w^T\Sigma w\) 为什么最后是一个标量。
我知道例题不能只写答案，要写题目翻译、公式选择、代入计算、结果解释和边界条件。
我能把至少三个基础概念连接到 LLM：梯度、矩阵乘法、softmax/交叉熵。
我能把至少三个基础概念连接到 Quant：协方差、最小二乘、期望/方差或 VaR/CVaR。
我知道每天的验收方式：概念卡、公式解释、完整例题、应用连接、边界条件。
我不会把“看过一遍”当成“掌握”。真正掌握的标准是能闭卷复述、能做小例子、能说明什么时候不能乱用。