大数定律和中心极限定理

前置知识

Chebyshev不等式

定理

设随机变量\(X\)的期望\(\E(X)\)及方差\(\Var(X)\)存在，则对于任意\(\epsilon > 0\)，有 \[ P(|X-\E(X)| \ge \epsilon) \le \frac{\Var(X)}{\epsilon^2} \]
证明
1. \(X\)为连续型随机变量 \[ \begin{aligned} &P(|X-\E(X)| \ge \epsilon) = \mathop \int_{|x - \E(x)| \ge \epsilon} p(x)dx \\ &\le \mathop \int_{|x - \E(x)| \ge \epsilon} \bigg( \frac{X - \E(x)}{\epsilon} \bigg)^2 p(x)dx \\ &= \frac{1}{\epsilon^2} \mathop \int_{|x - \E(x)| \ge \epsilon} \big( X - \E(x) \big)^2 p(x)dx \\ &\le \frac{1}{\epsilon^2} \mathop \int_{x \in X} \big( X - \E(x) \big)^2 p(x)dx \\ &= \frac{\Var(X)}{\epsilon^2} \\ \end{aligned} \]
2. \(X\)为离散型随机变量 \[ \begin{aligned} &P(|X-\E(X)| \ge \epsilon) = \mathop \sum_{|x - \E(x)| \ge \epsilon} P(x) \\ &\le \mathop \sum_{|x - \E(x)| \ge \epsilon} \bigg( \frac{x - \E(x)}{\epsilon} \bigg)^2 P(x) \\ &= \frac{1}{\epsilon^2} \mathop \sum_{|x - \E(x)| \ge \epsilon} \big( x - \E(x) \big)^2 P(x) \\ &\le \frac{1}{\epsilon^2} \mathop \sum_{x \in X} \big( x - \E(x) \big)^2 P(x) \\ &= \frac{\Var(X)}{\epsilon^2} \\ \end{aligned} \]

Chebyshev不等式的作用是“估计随机变量偏离其期望的概率”，但显然这种估计是十分粗糙的，Chebyshev不等式的作用是作为证明其它大数定理的基础工具。

依概率收敛

随机变量序列即是由随机变量构成。对于一个普通数列\(\{x_n\}\)来说，若其收敛于\(c\)，则当\(n\)充分大时，\(x_n\)和\(c\)的距离可以达到任意小。而随机变量序列\(X_1, X_2, \dots\)的极限却不能按照这样定义，因为\(X_n\)取值不确定，不可能和某个数字\(c\)的距离任意小。

随机变量是事件的映射，当试验次数足够多时，事件的频率会依概率收敛到该事件的概率。

定义

设\(X_1, X_2, \dots,\)是一个随机变量序列，如果存在一个常数\(c\)，使得对于任意\(\epsilon > 0\)，都有\(\lim_{n \to \infty} P(|X_n - c| < \epsilon) = 1\)，则称该随机变量序列依概率收敛于\(c\)，记作\(X_n \stackrel{P}{\to} c\)。或者，对于任意\(\epsilon > 0\)，都有\(\lim_{n \to \infty} P(|X_n - c| \ge \epsilon) = 0\)。 ### Markov不等式

Chebyshev不等式其实是Markov不等式的一个特例。令\(X\)为一非负随机变量、\(\alpha\)为一非负实数，Markov不等式描述的是以下关系： \[ P(X \ge \alpha) \le \frac{\E(X)}{\alpha} \] 以连续型随机变量为例，证明如下： \[ P(X \ge \alpha) = \int_{x \ge \alpha} p(x) \d x \le \int_{x \ge \alpha} \frac{x}{\alpha} p(x) \d x \le \int_x \frac{x}{\alpha} p(x) \d x = \frac{\E(X)}{\alpha} \] 由于\(|X - \E(x)| \ge \epsilon \iff (X - \E(X))^2 \ge \epsilon^2\)，将Markov不等式中的的\(X\)替换为\((X - \E(X))^2\)、\(\alpha\)替换为\(\epsilon^2\)，即可得到Chebyshev不等式。不过由于Markov不等式有随机变量非负的要求，适用范围就小了一些；而且同样，Markov不等式的这种估计也是很粗糙的。

弱大数定律（Weak Law of large numbers）

Chebyshev大数定律

定理

设随机变量序列\(X_1,X_2,\dots\)两两不相关，若存在常数\(c\)，使得\(\Var(X_i) \le c \ne +\infty, i=1,2,\dots\)，则对任意\(\epsilon > 0\)，有 \[ \lim_{n \to \infty} P(|\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| < \epsilon) = 1 \] 亦即\(\bar X = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\to} \frac{1}{n} \sum_{i=1}^n \E(X_i)\)。
证明

由于该随机序列两两不相关，故根据期望及方差的性质， \[ \E(\frac{1}{n} \sum_{i=1}^n X_i) = \frac{1}{n} \sum_{i=1}^n \E(X_i),\quad \Var(\frac{1}{n} \sum_{i=1}^N X_i) = \frac{1}{n^2} \sum_{i=1}^n \Var(X_i) \le \frac{c}{n} \] 根据Chebyshev不等式， \[ \begin{gather} 0 \le P(|\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) < \frac{\Var(\frac{1}{n} \sum_{i=1}^N X_i)}{\epsilon^2} \le \frac{c}{n \epsilon} \\ \underbrace{\lim_{n \to \infty} 0}_0 \le \lim_{n \to \infty} P(\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) \le \underbrace{\lim_{n \to \infty} \frac{c}{n \epsilon}}_0 \Rightarrow\\ \lim_{n \to \infty} P(\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) = 0 \end{gather} \]

Khinchin大数定律

相互独立同分布大数定律

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布，若\(\E(X_i) = \mu, \Var(X_i) = \sigma^2 \ne \infty, i=1,2,\dots\)，则对任意\(\epsilon > 0\)，有 \[ \lim_{n \to \infty} P (|\frac{1}{n} \sum_{i=1}^n X_i - \mu| < \epsilon) = 1 \]

相互独立同分布大数定律是Chebyshev大数定律的一个特例，然而在方差不存在的情况下，数学家Khinchin证明该定律依然成立，即：

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布，若\(\E(X_i) = \mu\)，则对任意\(\epsilon > 0\)，有 \[ \lim_{n \to \infty} P (|\frac{1}{n} \sum_{i=1}^n X_i - \mu| < \epsilon) = 1 \]

Bernoulli大数定律

随机变量序列\(X_1, X_2, \dots\)相互独立且同分布，若\(X_i \sim B(1,p), i=1,2,\dots\)，则对任意\(\epsilon > 0\)，有 \[ \lim_{n \to \infty} P(|\frac{1}{n} \sum_{i=1}^n X_i - p| < \epsilon) = 1 \]

显然Bernoulli大数定律也是Chebyshev大数定律的一个特例。

中心极限定理

注意，在本节中，我们用\(\Phi\)表示标准正态分布的分布函数。

Lindburg-Levy中心极限定理

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布，若\(\E(X_i) = \mu, \Var(X_i) = \sigma^2 \ne \infty, i=1,2,\dots\)，则对任意实数\(x\)，有 \[ \lim_{n \to \infty} P(\frac{\sum_{i=1}^n X_i - n \mu}{\sqrt n \sigma} \le x) = \Phi(x) \]

de Moivre-Laplace中心极限定理

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布，且\(X_i \sim B(1,p), i=1,2,\dots\)，则对任意实数\(x\)，有 \[ \lim_{n \to \infty} P(\frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}} \le x) = \Phi(x) \] 显然de Moivre-Laplace中心极限定理是Lindburg-Levy中心极限定理的特例。

前面的Bernoulli大数定律告诉我们可以用\(\frac{1}{n} \sum_{i=1}^n X_i\)（频率）近似\(p\)（概率），而至于近似程度如何，却不得而知。de Moivre-Laplace中心极限定理则告诉我们当\(n\)足够大时，近似程度如何： \[ P(|\frac{1}{n}\sum_{i=1}^n X_i - p| \le \epsilon) = P(|\frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}}| \le \frac{\sqrt n \epsilon}{\sqrt{p(1-p)}}) \approx 2\Phi(\frac{\sqrt n \epsilon}{\sqrt{p(1-p)}}) - 1 \]

上式实际是在用正态分布近似二项分布（多个伯努利分布随机变量加和为伯努利分布），比如在Galton Board游戏中，我们就可以应用de Moivre-Laplace中心极限定理来近似实际概率。

Last updated on May 20, 2022