#009. 概率二:期望、方差、大数定律与中心极限定理

概率二:期望、方差、大数定律与中心极限定理 图示

#学习目标与概念起点

上一章把“随机结果”变成了随机变量。本章继续问一个更实际的问题:如果结果每次都不一样,我们怎样用少数几个数字描述它?最常用的答案是:用期望描述平均水平,用方差描述波动强度,用协方差和相关系数描述两个随机变量是否一起变化,用样本平均估计未知期望,再用大数定律和中心极限定理判断这个估计到底有多可靠。

你要会读符号

\(X\) 是随机变量,\(x\) 是它可能取到的一个具体数值,\(p(x)\) 或 \(P(X=x)\) 是这个数值出现的概率,\(\mu=\mathbb{E}[X]\) 是真实均值,\(\bar X_n\) 是用 \(n\) 个样本算出来的样本平均。

你要会算小例题

给出一个离散分布时,能从概率表算出期望、方差、标准差、协方差和相关系数;给出样本量和波动大小时,能估算样本平均的标准误。

你要会讲应用含义

mini-batch 梯度是对全数据梯度的随机估计,LLM 评测得分是对题目分布的样本平均,回测收益均值也是对未来收益期望的估计。它们都受采样误差影响。

本章主线

期望回答“中心在哪里”,方差回答“离中心通常有多远”,协方差回答“两个量是不是同涨同跌”,样本平均回答“我用有限样本能不能估中心”,CLT 和标准误回答“估计误差大概多大”。

  • 能解释为什么只看平均值不够,还要看波动和样本误差。
  • 能把 \(\mathbb{E}[X]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Cov}(X,Y)\)、\(\rho\)、\(\operatorname{SE}\) 读成中文问题。
  • 能说清楚“样本量增加 4 倍,误差大约减半”的来源。

#期望:长期平均

期望不是“最可能出现的值”,而是“如果同一个随机实验重复很多次,数值平均下来会靠近哪里”。离散随机变量的期望把每个可能结果按概率加权;连续随机变量则把求和换成积分。

离散形式\(\mathbb{E}[X]=\sum_x xP(X=x)\)
连续形式\(\mathbb{E}[X]=\int x p(x)\,dx\)
函数的期望\(\mathbb{E}[g(X)]=\sum_x g(x)P(X=x)\)

读公式时要逐个读对象:\(\sum_x\) 表示把所有可能的 \(x\) 都加起来;\(xP(X=x)\) 表示“数值 \(x\)”乘以“它出现的概率”;所有项加起来就是概率加权平均。若某个结果很大但概率很小,它仍然会影响期望,只是影响大小由概率折扣。

小例子:一次促销收益的期望

某策略一天收益 \(X\) 可能为 \(-2,1,4\),概率分别为 \(0.2,0.5,0.3\)。求期望。

按定义加权:

\[\mathbb{E}[X]=(-2)\times 0.2+1\times 0.5+4\times 0.3=-0.4+0.5+1.2=1.3\]

所以这个随机收益的长期平均是 \(1.3\)。注意 \(1.3\) 不一定是可能出现的结果,它是重复很多次后的平均水平。

为什么 loss 经常写成期望?

训练集中的每个样本可以看作从数据分布抽到的随机样本。模型的真实目标不是只在某一条样本上 loss 小,而是在数据分布上平均 loss 小,所以常写成 \(\mathbb{E}_{(x,y)\sim D}[\ell(f_\theta(x),y)]\)。实际训练时无法对完整真实分布积分,只能用样本平均近似。

#方差与标准差:波动尺度

两个随机变量可以有相同期望,但风险完全不同。例如一个策略每天稳定赚 \(1\),另一个策略一半时间赚 \(11\)、一半时间亏 \(9\),二者期望都是 \(1\),但后者波动大得多。方差就是为了描述“围绕均值的典型偏离”。

均值\(\mu=\mathbb{E}[X]\)
方差\(\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]\)
计算捷径\(\operatorname{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\)
标准差\(\sigma=\sqrt{\operatorname{Var}(X)}\)

\(X-\mu\) 是一次结果相对均值的偏离;平方 \((X-\mu)^2\) 有两个作用:让正偏离和负偏离都变成非负数,并且更重地惩罚大偏离。方差的单位是原单位的平方,所以实际解释波动时常用标准差 \(\sigma\),因为它回到了原变量的单位。

小例子:同均值不同风险

A 策略每天固定收益 \(1\)。B 策略以 \(0.5\) 概率收益 \(11\),以 \(0.5\) 概率收益 \(-9\)。比较二者期望和方差。

A 的期望是 \(1\),每次都等于均值,所以方差是 \(0\)。B 的期望为:

\[\mathbb{E}[B]=11\times 0.5+(-9)\times 0.5=1\]

B 的两个结果都离均值 \(1\) 距离 \(10\),所以方差为:

\[\operatorname{Var}(B)=(11-1)^2\times 0.5+(-9-1)^2\times 0.5=100\]

标准差是 \(\sqrt{100}=10\)。结论:期望相同不代表风险相同,B 的收益围绕均值剧烈波动。

#协方差与相关系数

方差只看一个变量自己的波动。协方差看两个变量是否一起偏离各自均值:如果 \(X\) 高于均值时 \(Y\) 也常高于均值,协方差为正;如果 \(X\) 高于均值时 \(Y\) 常低于均值,协方差为负;如果线性同涨同跌关系很弱,协方差接近 \(0\)。

协方差\(\operatorname{Cov}(X,Y)=\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]\)
计算捷径\(\operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]\)
相关系数\(\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}\)

协方差有单位,且数值大小受两个变量本身尺度影响。例如收益单位从“元”改成“万元”,协方差数值会变。相关系数把协方差除以两个标准差,标准化到 \([-1,1]\),因此更适合比较线性关系强弱。

回答的问题面试里要补的边界
方差单个变量围绕均值波动多大?不描述偏斜和尾部厚度。
协方差两个变量是否同向偏离均值?数值受单位影响,不适合跨尺度直接比较。
相关系数标准化后的线性同涨同跌强度多大?只看线性依赖,不代表因果,也不保证独立。
组合风险为什么自然出现协方差?

如果组合收益是 \(R_p=w_1R_1+w_2R_2\),那么 \(\operatorname{Var}(R_p)\) 里会出现 \(2w_1w_2\operatorname{Cov}(R_1,R_2)\)。这说明分散化收益不只取决于单资产波动,还取决于资产之间是否一起跌。

#离散随机变量完整例题

下面用一个二维离散分布把期望、方差、协方差、相关系数一次算完整。面试中这类题的关键不是算得花哨,而是每一步都知道自己在估计什么对象。

例题:两个离散随机变量的均值、方差、协方差和相关系数

一次实验有三种等概率状态,概率均为 \(1/3\)。状态 1: \(X=0,Y=1\);状态 2: \(X=1,Y=2\);状态 3: \(X=2,Y=1\)。求 \(\mathbb{E}[X]\)、\(\mathbb{E}[Y]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Var}(Y)\)、\(\operatorname{Cov}(X,Y)\)、\(\rho_{XY}\)。

第一步,算均值。因为三种状态等概率,直接取平均:

\[\mathbb{E}[X]=\frac{0+1+2}{3}=1,\qquad \mathbb{E}[Y]=\frac{1+2+1}{3}=\frac{4}{3}\]

第二步,算二阶矩,再用 \(\operatorname{Var}(X)=\mathbb{E}[X^2]-(\mathbb{E}[X])^2\):

\[\mathbb{E}[X^2]=\frac{0^2+1^2+2^2}{3}=\frac{5}{3},\qquad \operatorname{Var}(X)=\frac{5}{3}-1^2=\frac{2}{3}\]
\[\mathbb{E}[Y^2]=\frac{1^2+2^2+1^2}{3}=2,\qquad \operatorname{Var}(Y)=2-\left(\frac{4}{3}\right)^2=\frac{2}{9}\]

第三步,算 \(\mathbb{E}[XY]\):

\[\mathbb{E}[XY]=\frac{0\times 1+1\times 2+2\times 1}{3}=\frac{4}{3}\]

所以协方差为:

\[\operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]=\frac{4}{3}-1\times\frac{4}{3}=0\]

第四步,相关系数为:

\[\rho_{XY}=\frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)}\sqrt{\operatorname{Var}(Y)}}=0\]

解释:这里 \(X\) 和 \(Y\) 不相关,但不代表它们独立。因为当 \(X=1\) 时一定有 \(Y=2\),当 \(X=0\) 或 \(X=2\) 时 \(Y=1\),\(Y\) 明显依赖 \(X\)。这正是“不相关不等于独立”的典型例子。

#样本平均、大数定律与标准误

真实期望 \(\mu=\mathbb{E}[X]\) 往往不知道,只能抽样估计。给定独立同分布样本 \(X_1,\ldots,X_n\),样本平均是最基本的估计量:

\[\bar X_n=\frac{1}{n}\sum_{i=1}^n X_i\]

大数定律说,在样本独立同分布且期望存在等条件下,样本平均会随着 \(n\) 增大而接近真实期望:

\[\bar X_n\longrightarrow \mu\]

这句话解决的是“长期会不会靠近”的问题,但还没有告诉我们“给定 \(n=100\) 或 \(n=1000\) 时误差大概多大”。误差大小由样本平均的方差决定。若单个样本方差是 \(\sigma^2\),且样本之间独立:

\[\operatorname{Var}(\bar X_n)=\operatorname{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right)=\frac{1}{n^2}\sum_{i=1}^n\operatorname{Var}(X_i)=\frac{\sigma^2}{n}\]

样本平均的标准差叫标准误,表示“估计均值本身的典型误差尺度”:

\[\operatorname{SE}(\bar X_n)=\sqrt{\operatorname{Var}(\bar X_n)}=\frac{\sigma}{\sqrt n}\]
为什么是 \(1/\sqrt n\),不是 \(1/n\)?

独立噪声相加时,方差会相加,所以 \(n\) 个样本求和的方差是 \(n\sigma^2\)。但样本平均还要除以 \(n\),方差会被除以 \(n^2\),最后得到 \(\sigma^2/n\)。标准误是方差开根号,因此是 \(\sigma/\sqrt n\)。这就是误差按 \(1/\sqrt n\) 下降的来源。

例题:样本平均误差要多少样本才会变小?

某评测题的单题得分 \(X\) 在 \(0\) 到 \(1\) 之间,经验标准差约为 \(\sigma=0.4\)。如果随机抽 \(n=100\) 道题估计模型平均得分,样本平均的标准误是多少?如果想把标准误减半,需要多少题?

标准误为:

\[\operatorname{SE}(\bar X_{100})=\frac{0.4}{\sqrt{100}}=\frac{0.4}{10}=0.04\]

如果想减半到 \(0.02\),需要:

\[\frac{0.4}{\sqrt n}=0.02\quad\Rightarrow\quad \sqrt n=20\quad\Rightarrow\quad n=400\]

所以样本量要从 \(100\) 变成 \(400\),也就是增加 4 倍,标准误才减半。这个结论解释了为什么 LLM 评测、Monte Carlo 风险模拟和回测统计很快会遇到采样成本瓶颈。

#中心极限定理与误差尺度

大数定律告诉我们样本平均会收敛,但没有直接给出误差分布。中心极限定理更进一步说明:在独立同分布、方差有限等条件下,即使原始 \(X\) 不服从正态,样本平均的误差经过标准化后也常常近似正态。

\[\frac{\sqrt n(\bar X_n-\mu)}{\sigma}\Rightarrow \mathcal{N}(0,1)\]

这条公式可以这样读:\(\bar X_n-\mu\) 是样本平均和真实均值的误差;乘上 \(\sqrt n\) 是把误差放大到稳定尺度;再除以 \(\sigma\) 是按单样本波动做标准化;右边的 \(\mathcal{N}(0,1)\) 是标准正态分布。

用更工程化的话说,当 \(n\) 足够大时:

\[\bar X_n \approx \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)\]

因此可以用“估计值加减若干个标准误”表达不确定性。例如常见的粗略 95% 区间是:

\[\bar X_n \pm 1.96\frac{\hat\sigma}{\sqrt n}\]

这里 \(\hat\sigma\) 是用样本估出来的标准差。这个区间不是说真实均值随机跳来跳去,而是说在重复抽样的意义下,这种构造区间的方法大约有 95% 的机会覆盖真实均值。

概念它回答的问题常见面试追问
大数定律样本平均最终会不会靠近真实均值?需要独立同分布吗?厚尾会怎样?
中心极限定理样本平均误差近似服从什么分布?为什么很多误差可以近似正态?
标准误有限样本下均值估计大概有多不准?样本量扩大后误差怎么缩小?

#LLM/量化面试连接

mini-batch 梯度

全数据梯度是对数据分布的期望,mini-batch 梯度是样本平均。batch size 增大时,梯度噪声的标准误按 \(1/\sqrt n\) 下降,但计算成本上升,所以不能期待 batch size 翻倍带来误差翻倍下降。

LLM 评测采样

一个 benchmark 的平均分是对题目分布和采样随机性的估计。题目数量少、题目相关、prompt 改动或 decoding 随机性都会扩大不确定性。两个模型相差很小的时候,应先问标准误和置信区间,而不是直接宣称显著领先。

回测置信度

回测收益均值、胜率、Sharpe 都是样本统计量。样本期越短、收益波动越大、自相关越强、市场 regime 越不稳定,样本平均越不可靠。漂亮均值必须配合标准误、样本外和压力测试一起看。

面试说法:为什么扩大样本很贵?

如果当前评测标准误是 \(0.02\),业务希望降低到 \(0.01\),样本数需要怎么变?

标准误满足 \(\operatorname{SE}=\sigma/\sqrt n\)。在单题波动 \(\sigma\) 不变时,标准误从 \(0.02\) 降到 \(0.01\),相当于减半,所以 \(\sqrt n\) 要变成原来的 2 倍,\(n\) 要变成原来的 4 倍。

高质量回答不能只说“多测一点”。应该说:采样误差下降很慢,评测题数、推理成本、人工标注成本和回测历史长度都会成为约束;同时,若样本不是独立同分布,单纯增加相似样本不一定按公式改善置信度。

#常见误区与检查清单

误区为什么错正确说法
把期望当作最可能值期望是加权平均,可能不是任何一个可取值。众数才是最可能值;期望是长期平均。
只报告平均收益或平均得分均值不说明波动、尾部和估计误差。至少同时说明方差/标准差、样本量和标准误。
认为不相关就是独立相关系数只检查线性关系。独立要求联合分布可分解,比零相关强得多。
以为样本量翻倍误差就减半标准误按 \(1/\sqrt n\) 下降。误差减半通常需要 4 倍样本。
机械套用 CLT强相关、分布漂移、无限方差或厚尾会破坏近似。先检查独立性、稳定性、尾部和有效样本量。
  • 我能从概率表计算 \(\mathbb{E}[X]\)、\(\operatorname{Var}(X)\)、\(\operatorname{Cov}(X,Y)\) 和 \(\rho_{XY}\)。
  • 我能解释 \(\operatorname{Var}(X)=\mathbb{E}[(X-\mu)^2]\) 中每个符号的含义。
  • 我能说清楚标准差和标准误的区别:前者描述单个样本波动,后者描述样本平均估计误差。
  • 我能推导 \(\operatorname{SE}(\bar X_n)=\sigma/\sqrt n\),并解释为什么误差下降慢。
  • 我能把大数定律和中心极限定理区分开:前者讲收敛,后者讲误差分布近似。
  • 我能在 LLM 评测、mini-batch 训练和量化回测里主动补充采样误差、相关性和置信度边界。