009. 概率二：期望、方差、大数定律与中心极限定理

#009. 概率二：期望、方差、大数定律与中心极限定理

#学习目标与概念起点

上一章把“随机结果”变成了随机变量。本章继续问一个更实际的问题：如果结果每次都不一样，我们怎样用少数几个数字描述它？最常用的答案是：用期望描述平均水平，用方差描述波动强度，用协方差和相关系数描述两个随机变量是否一起变化，用样本平均估计未知期望，再用大数定律和中心极限定理判断这个估计到底有多可靠。

你要会读符号

\(X\) 是随机变量，\(x\) 是它可能取到的一个具体数值，\(p(x)\) 或 \(P(X=x)\) 是这个数值出现的概率，\(\mu=\mathbb{E}[X]\) 是真实均值，\(\bar X_n\) 是用 \(n\) 个样本算出来的样本平均。

你要会算小例题

给出一个离散分布时，能从概率表算出期望、方差、标准差、协方差和相关系数；给出样本量和波动大小时，能估算样本平均的标准误。

你要会讲应用含义

mini-batch 梯度是对全数据梯度的随机估计，LLM 评测得分是对题目分布的样本平均，回测收益均值也是对未来收益期望的估计。它们都受采样误差影响。

本章主线

期望回答“中心在哪里”，方差回答“离中心通常有多远”，协方差回答“两个量是不是同涨同跌”，样本平均回答“我用有限样本能不能估中心”，CLT 和标准误回答“估计误差大概多大”。

能解释为什么只看平均值不够，还要看波动和样本误差。
能把 \(\mathbb{E}[X]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Cov}(X,Y)\)、\(\rho\)、\(\operatorname{SE}\) 读成中文问题。
能说清楚“样本量增加 4 倍，误差大约减半”的来源。

#期望：长期平均

期望不是“最可能出现的值”，而是“如果同一个随机实验重复很多次，数值平均下来会靠近哪里”。离散随机变量的期望把每个可能结果按概率加权；连续随机变量则把求和换成积分。

离散形式\(\mathbb{E}[X]=\sum_x xP(X=x)\)

连续形式\(\mathbb{E}[X]=\int x p(x)\,dx\)

函数的期望\(\mathbb{E}[g(X)]=\sum_x g(x)P(X=x)\)

读公式时要逐个读对象：\(\sum_x\) 表示把所有可能的 \(x\) 都加起来；\(xP(X=x)\) 表示“数值 \(x\)”乘以“它出现的概率”；所有项加起来就是概率加权平均。若某个结果很大但概率很小，它仍然会影响期望，只是影响大小由概率折扣。

小例子：一次促销收益的期望

某策略一天收益 \(X\) 可能为 \(-2,1,4\)，概率分别为 \(0.2,0.5,0.3\)。求期望。

按定义加权：

\mathbb{E}[X]=(-2)\times 0.2+1\times 0.5+4\times 0.3=-0.4+0.5+1.2=1.3

所以这个随机收益的长期平均是 \(1.3\)。注意 \(1.3\) 不一定是可能出现的结果，它是重复很多次后的平均水平。

为什么 loss 经常写成期望？

训练集中的每个样本可以看作从数据分布抽到的随机样本。模型的真实目标不是只在某一条样本上 loss 小，而是在数据分布上平均 loss 小，所以常写成 \(\mathbb{E}_{(x,y)\sim D}[\ell(f_\theta(x),y)]\)。实际训练时无法对完整真实分布积分，只能用样本平均近似。

#方差与标准差：波动尺度

两个随机变量可以有相同期望，但风险完全不同。例如一个策略每天稳定赚 \(1\)，另一个策略一半时间赚 \(11\)、一半时间亏 \(9\)，二者期望都是 \(1\)，但后者波动大得多。方差就是为了描述“围绕均值的典型偏离”。

均值\(\mu=\mathbb{E}[X]\)

方差\(\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]\)

计算捷径\(\operatorname{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\)

标准差\(\sigma=\sqrt{\operatorname{Var}(X)}\)

\(X-\mu\) 是一次结果相对均值的偏离；平方 \((X-\mu)^2\) 有两个作用：让正偏离和负偏离都变成非负数，并且更重地惩罚大偏离。方差的单位是原单位的平方，所以实际解释波动时常用标准差 \(\sigma\)，因为它回到了原变量的单位。

小例子：同均值不同风险

A 策略每天固定收益 \(1\)。B 策略以 \(0.5\) 概率收益 \(11\)，以 \(0.5\) 概率收益 \(-9\)。比较二者期望和方差。

A 的期望是 \(1\)，每次都等于均值，所以方差是 \(0\)。B 的期望为：

\mathbb{E}[B]=11\times 0.5+(-9)\times 0.5=1

B 的两个结果都离均值 \(1\) 距离 \(10\)，所以方差为：

\operatorname{Var}(B)=(11-1)^2\times 0.5+(-9-1)^2\times 0.5=100

标准差是 \(\sqrt{100}=10\)。结论：期望相同不代表风险相同，B 的收益围绕均值剧烈波动。

#协方差与相关系数

方差只看一个变量自己的波动。协方差看两个变量是否一起偏离各自均值：如果 \(X\) 高于均值时 \(Y\) 也常高于均值，协方差为正；如果 \(X\) 高于均值时 \(Y\) 常低于均值，协方差为负；如果线性同涨同跌关系很弱，协方差接近 \(0\)。

协方差\(\operatorname{Cov}(X,Y)=\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]\)

计算捷径\(\operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]\)

相关系数\(\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}\)

协方差有单位，且数值大小受两个变量本身尺度影响。例如收益单位从“元”改成“万元”，协方差数值会变。相关系数把协方差除以两个标准差，标准化到 \([-1,1]\)，因此更适合比较线性关系强弱。

量	回答的问题	面试里要补的边界
方差	单个变量围绕均值波动多大？	不描述偏斜和尾部厚度。
协方差	两个变量是否同向偏离均值？	数值受单位影响，不适合跨尺度直接比较。
相关系数	标准化后的线性同涨同跌强度多大？	只看线性依赖，不代表因果，也不保证独立。

组合风险为什么自然出现协方差？

如果组合收益是 \(R_p=w_1R_1+w_2R_2\)，那么 \(\operatorname{Var}(R_p)\) 里会出现 \(2w_1w_2\operatorname{Cov}(R_1,R_2)\)。这说明分散化收益不只取决于单资产波动，还取决于资产之间是否一起跌。

#离散随机变量完整例题

下面用一个二维离散分布把期望、方差、协方差、相关系数一次算完整。面试中这类题的关键不是算得花哨，而是每一步都知道自己在估计什么对象。

例题：两个离散随机变量的均值、方差、协方差和相关系数

一次实验有三种等概率状态，概率均为 \(1/3\)。状态 1: \(X=0,Y=1\)；状态 2: \(X=1,Y=2\)；状态 3: \(X=2,Y=1\)。求 \(\mathbb{E}[X]\)、\(\mathbb{E}[Y]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Var}(Y)\)、\(\operatorname{Cov}(X,Y)\)、\(\rho_{XY}\)。

第一步，算均值。因为三种状态等概率，直接取平均：

\mathbb{E}[X]=\frac{0+1+2}{3}=1,\qquad \mathbb{E}[Y]=\frac{1+2+1}{3}=\frac{4}{3}

第二步，算二阶矩，再用 \(\operatorname{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\)：

\mathbb{E}[X^2]=\frac{0^2+1^2+2^2}{3}=\frac{5}{3},\qquad \operatorname{Var}(X)=\frac{5}{3}-1^2=\frac{2}{3}

\mathbb{E}[Y^2]=\frac{1^2+2^2+1^2}{3}=2,\qquad \operatorname{Var}(Y)=2-\left(\frac{4}{3}\right)^2=\frac{2}{9}

第三步，算 \(\mathbb{E}[XY]\)：

\mathbb{E}[XY]=\frac{0\times 1+1\times 2+2\times 1}{3}=\frac{4}{3}

所以协方差为：

\operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]=\frac{4}{3}-1\times\frac{4}{3}=0

第四步，相关系数为：

\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)}\sqrt{\operatorname{Var}(Y)}}=0

解释：这里 \(X\) 和 \(Y\) 不相关，但不代表它们独立。因为当 \(X=1\) 时一定有 \(Y=2\)，当 \(X=0\) 或 \(X=2\) 时 \(Y=1\)，\(Y\) 明显依赖 \(X\)。这正是“不相关不等于独立”的典型例子。

#样本平均、大数定律与标准误

真实期望 \(\mu=\mathbb{E}[X]\) 往往不知道，只能抽样估计。给定独立同分布样本 \(X_1,\ldots,X_n\)，样本平均是最基本的估计量：

\bar X_n=\frac{1}{n}\sum_{i=1}^n X_i

大数定律说，在样本独立同分布且期望存在等条件下，样本平均会随着 \(n\) 增大而接近真实期望：

\bar X_n\longrightarrow \mu

这句话解决的是“长期会不会靠近”的问题，但还没有告诉我们“给定 \(n=100\) 或 \(n=1000\) 时误差大概多大”。误差大小由样本平均的方差决定。若单个样本方差是 \(\sigma^2\)，且样本之间独立：

\operatorname{Var}(\bar X_n)=\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\sum_{i=1}^n\operatorname{Var}(X_i)=\frac{\sigma^2}{n}

样本平均的标准差叫标准误，表示“估计均值本身的典型误差尺度”：

\operatorname{SE}(\bar X_n)=\sqrt{\operatorname{Var}(\bar X_n)}=\frac{\sigma}{\sqrt n}

为什么是 \(1/\sqrt n\)，不是 \(1/n\)？

独立噪声相加时，方差会相加，所以 \(n\) 个样本求和的方差是 \(n\sigma^2\)。但样本平均还要除以 \(n\)，方差会被除以 \(n^2\)，最后得到 \(\sigma^2/n\)。标准误是方差开根号，因此是 \(\sigma/\sqrt n\)。这就是误差按 \(1/\sqrt n\) 下降的来源。

例题：样本平均误差要多少样本才会变小？

某评测题的单题得分 \(X\) 在 \(0\) 到 \(1\) 之间，经验标准差约为 \(\sigma=0.4\)。如果随机抽 \(n=100\) 道题估计模型平均得分，样本平均的标准误是多少？如果想把标准误减半，需要多少题？

标准误为：

\operatorname{SE}(\bar X_{100})=\frac{0.4}{\sqrt{100}}=\frac{0.4}{10}=0.04

如果想减半到 \(0.02\)，需要：

\frac{0.4}{\sqrt n}=0.02\quad\Rightarrow\quad \sqrt n=20\quad\Rightarrow\quad n=400

所以样本量要从 \(100\) 变成 \(400\)，也就是增加 4 倍，标准误才减半。这个结论解释了为什么 LLM 评测、Monte Carlo 风险模拟和回测统计很快会遇到采样成本瓶颈。

#中心极限定理与误差尺度

大数定律告诉我们样本平均会收敛，但没有直接给出误差分布。中心极限定理更进一步说明：在独立同分布、方差有限等条件下，即使原始 \(X\) 不服从正态，样本平均的误差经过标准化后也常常近似正态。

\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\Rightarrow \mathcal{N}(0,1)

这条公式可以这样读：\(\bar X_n-\mu\) 是样本平均和真实均值的误差；乘上 \(\sqrt n\) 是把误差放大到稳定尺度；再除以 \(\sigma\) 是按单样本波动做标准化；右边的 \(\mathcal{N}(0,1)\) 是标准正态分布。

用更工程化的话说，当 \(n\) 足够大时：

\bar X_n \approx \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)

因此可以用“估计值加减若干个标准误”表达不确定性。例如常见的粗略 95% 区间是：

\bar X_n \pm 1.96\frac{\hat\sigma}{\sqrt n}

这里 \(\hat\sigma\) 是用样本估出来的标准差。这个区间不是说真实均值随机跳来跳去，而是说在重复抽样的意义下，这种构造区间的方法大约有 95% 的机会覆盖真实均值。

概念	它回答的问题	常见面试追问
大数定律	样本平均最终会不会靠近真实均值？	需要独立同分布吗？厚尾会怎样？
中心极限定理	样本平均误差近似服从什么分布？	为什么很多误差可以近似正态？
标准误	有限样本下均值估计大概有多不准？	样本量扩大后误差怎么缩小？

#LLM/量化面试连接

mini-batch 梯度

全数据梯度是对数据分布的期望，mini-batch 梯度是样本平均。batch size 增大时，梯度噪声的标准误按 \(1/\sqrt n\) 下降，但计算成本上升，所以不能期待 batch size 翻倍带来误差翻倍下降。

LLM 评测采样

一个 benchmark 的平均分是对题目分布和采样随机性的估计。题目数量少、题目相关、prompt 改动或 decoding 随机性都会扩大不确定性。两个模型相差很小的时候，应先问标准误和置信区间，而不是直接宣称显著领先。

回测置信度

回测收益均值、胜率、Sharpe 都是样本统计量。样本期越短、收益波动越大、自相关越强、市场 regime 越不稳定，样本平均越不可靠。漂亮均值必须配合标准误、样本外和压力测试一起看。

面试说法：为什么扩大样本很贵？

如果当前评测标准误是 \(0.02\)，业务希望降低到 \(0.01\)，样本数需要怎么变？

标准误满足 \(\operatorname{SE}=\sigma/\sqrt n\)。在单题波动 \(\sigma\) 不变时，标准误从 \(0.02\) 降到 \(0.01\)，相当于减半，所以 \(\sqrt n\) 要变成原来的 2 倍，\(n\) 要变成原来的 4 倍。

高质量回答不能只说“多测一点”。应该说：采样误差下降很慢，评测题数、推理成本、人工标注成本和回测历史长度都会成为约束；同时，若样本不是独立同分布，单纯增加相似样本不一定按公式改善置信度。

#常见误区与检查清单

误区	为什么错	正确说法
把期望当作最可能值	期望是加权平均，可能不是任何一个可取值。	众数才是最可能值；期望是长期平均。
只报告平均收益或平均得分	均值不说明波动、尾部和估计误差。	至少同时说明方差/标准差、样本量和标准误。
认为不相关就是独立	相关系数只检查线性关系。	独立要求联合分布可分解，比零相关强得多。
以为样本量翻倍误差就减半	标准误按 \(1/\sqrt n\) 下降。	误差减半通常需要 4 倍样本。
机械套用 CLT	强相关、分布漂移、无限方差或厚尾会破坏近似。	先检查独立性、稳定性、尾部和有效样本量。

我能从概率表计算 \(\mathbb{E}[X]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Cov}(X,Y)\) 和 \(\rho_{XY}\)。
我能解释 \(\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]\) 中每个符号的含义。
我能说清楚标准差和标准误的区别：前者描述单个样本波动，后者描述样本平均估计误差。
我能推导 \(\operatorname{SE}(\bar X_n)=\sigma/\sqrt n\)，并解释为什么误差下降慢。
我能把大数定律和中心极限定理区分开：前者讲收敛，后者讲误差分布近似。
我能在 LLM 评测、mini-batch 训练和量化回测里主动补充采样误差、相关性和置信度边界。