大数定律和中心极限定理

前置知识

Chebyshev不等式

  • 定理

    设随机变量\(X\)的期望\(\E(X)\)及方差\(\Var(X)\)存在,则对于任意\(\epsilon > 0\),有 \[ P(|X-\E(X)| \ge \epsilon) \le \frac{\Var(X)}{\epsilon^2} \]

  • 证明

    1. \(X\)为连续型随机变量 \[ \begin{aligned} &P(|X-\E(X)| \ge \epsilon) = \mathop \int_{|x - \E(x)| \ge \epsilon} p(x)dx \\ &\le \mathop \int_{|x - \E(x)| \ge \epsilon} \bigg( \frac{X - \E(x)}{\epsilon} \bigg)^2 p(x)dx \\ &= \frac{1}{\epsilon^2} \mathop \int_{|x - \E(x)| \ge \epsilon} \big( X - \E(x) \big)^2 p(x)dx \\ &\le \frac{1}{\epsilon^2} \mathop \int_{x \in X} \big( X - \E(x) \big)^2 p(x)dx \\ &= \frac{\Var(X)}{\epsilon^2} \\ \end{aligned} \]

    2. \(X\)为离散型随机变量 \[ \begin{aligned} &P(|X-\E(X)| \ge \epsilon) = \mathop \sum_{|x - \E(x)| \ge \epsilon} P(x) \\ &\le \mathop \sum_{|x - \E(x)| \ge \epsilon} \bigg( \frac{x - \E(x)}{\epsilon} \bigg)^2 P(x) \\ &= \frac{1}{\epsilon^2} \mathop \sum_{|x - \E(x)| \ge \epsilon} \big( x - \E(x) \big)^2 P(x) \\ &\le \frac{1}{\epsilon^2} \mathop \sum_{x \in X} \big( x - \E(x) \big)^2 P(x) \\ &= \frac{\Var(X)}{\epsilon^2} \\ \end{aligned} \]

Chebyshev不等式的作用是“估计随机变量偏离其期望的概率”,但显然这种估计是十分粗糙的,Chebyshev不等式的作用是作为证明其它大数定理的基础工具。

依概率收敛

随机变量序列即是由随机变量构成。对于一个普通数列\(\{x_n\}\)来说,若其收敛于\(c\),则当\(n\)充分大时,\(x_n\)\(c\)的距离可以达到任意小。而随机变量序列\(X_1, X_2, \dots\)的极限却不能按照这样定义,因为\(X_n\)取值不确定,不可能和某个数字\(c\)的距离任意小。

随机变量是事件的映射,当试验次数足够多时,事件的频率会依概率收敛到该事件的概率。

  • 定义

    \(X_1, X_2, \dots,\)是一个随机变量序列,如果存在一个常数\(c\),使得对于任意\(\epsilon > 0\),都有\(\lim_{n \to \infty} P(|X_n - c| < \epsilon) = 1\),则称该随机变量序列依概率收敛于\(c\),记作\(X_n \stackrel{P}{\to} c\)。或者,对于任意\(\epsilon > 0\),都有\(\lim_{n \to \infty} P(|X_n - c| \ge \epsilon) = 0\)。 ### Markov不等式

Chebyshev不等式其实是Markov不等式的一个特例。令\(X\)为一非负随机变量、\(\alpha\)为一非负实数,Markov不等式描述的是以下关系: \[ P(X \ge \alpha) \le \frac{\E(X)}{\alpha} \] 以连续型随机变量为例,证明如下: \[ P(X \ge \alpha) = \int_{x \ge \alpha} p(x) \d x \le \int_{x \ge \alpha} \frac{x}{\alpha} p(x) \d x \le \int_x \frac{x}{\alpha} p(x) \d x = \frac{\E(X)}{\alpha} \] 由于\(|X - \E(x)| \ge \epsilon \iff (X - \E(X))^2 \ge \epsilon^2\),将Markov不等式中的的\(X\)替换为\((X - \E(X))^2\)\(\alpha\)替换为\(\epsilon^2\),即可得到Chebyshev不等式。不过由于Markov不等式有随机变量非负的要求,适用范围就小了一些;而且同样,Markov不等式的这种估计也是很粗糙的。

弱大数定律(Weak Law of large numbers)

Chebyshev大数定律

  • 定理

    设随机变量序列\(X_1,X_2,\dots\)两两不相关,若存在常数\(c\),使得\(\Var(X_i) \le c \ne +\infty, i=1,2,\dots\),则对任意\(\epsilon > 0\),有 \[ \lim_{n \to \infty} P(|\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| < \epsilon) = 1 \] 亦即\(\bar X = \frac{1}{n} \sum_{i=1}^n X_i \stackrel{P}{\to} \frac{1}{n} \sum_{i=1}^n \E(X_i)\)

  • 证明

    由于该随机序列两两不相关,故根据期望及方差的性质, \[ \E(\frac{1}{n} \sum_{i=1}^n X_i) = \frac{1}{n} \sum_{i=1}^n \E(X_i),\quad \Var(\frac{1}{n} \sum_{i=1}^N X_i) = \frac{1}{n^2} \sum_{i=1}^n \Var(X_i) \le \frac{c}{n} \] 根据Chebyshev不等式, \[ \begin{gather} 0 \le P(|\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) < \frac{\Var(\frac{1}{n} \sum_{i=1}^N X_i)}{\epsilon^2} \le \frac{c}{n \epsilon} \\ \underbrace{\lim_{n \to \infty} 0}_0 \le \lim_{n \to \infty} P(\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) \le \underbrace{\lim_{n \to \infty} \frac{c}{n \epsilon}}_0 \Rightarrow\\ \lim_{n \to \infty} P(\frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \E(X_i)| \ge \epsilon) = 0 \end{gather} \]

Khinchin大数定律

相互独立同分布大数定律

  • 设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布,若\(\E(X_i) = \mu, \Var(X_i) = \sigma^2 \ne \infty, i=1,2,\dots\),则对任意\(\epsilon > 0\),有 \[ \lim_{n \to \infty} P (|\frac{1}{n} \sum_{i=1}^n X_i - \mu| < \epsilon) = 1 \]

相互独立同分布大数定律是Chebyshev大数定律的一个特例,然而在方差不存在的情况下,数学家Khinchin证明该定律依然成立,即:

  • 设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布,若\(\E(X_i) = \mu\),则对任意\(\epsilon > 0\),有 \[ \lim_{n \to \infty} P (|\frac{1}{n} \sum_{i=1}^n X_i - \mu| < \epsilon) = 1 \]

Bernoulli大数定律

  • 随机变量序列\(X_1, X_2, \dots\)相互独立且同分布,若\(X_i \sim B(1,p), i=1,2,\dots\),则对任意\(\epsilon > 0\),有 \[ \lim_{n \to \infty} P(|\frac{1}{n} \sum_{i=1}^n X_i - p| < \epsilon) = 1 \]

显然Bernoulli大数定律也是Chebyshev大数定律的一个特例。

中心极限定理

注意,在本节中,我们用\(\Phi\)表示标准正态分布的分布函数。

Lindburg-Levy中心极限定理

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布,若\(\E(X_i) = \mu, \Var(X_i) = \sigma^2 \ne \infty, i=1,2,\dots\),则对任意实数\(x\),有 \[ \lim_{n \to \infty} P(\frac{\sum_{i=1}^n X_i - n \mu}{\sqrt n \sigma} \le x) = \Phi(x) \]

de Moivre-Laplace中心极限定理

设随机变量序列\(X_1, X_2, \dots\)相互独立且同分布,且\(X_i \sim B(1,p), i=1,2,\dots\),则对任意实数\(x\),有 \[ \lim_{n \to \infty} P(\frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}} \le x) = \Phi(x) \] 显然de Moivre-Laplace中心极限定理是Lindburg-Levy中心极限定理的特例。

前面的Bernoulli大数定律告诉我们可以用\(\frac{1}{n} \sum_{i=1}^n X_i\)(频率)近似\(p\)(概率),而至于近似程度如何,却不得而知。de Moivre-Laplace中心极限定理则告诉我们当\(n\)足够大时,近似程度如何: \[ P(|\frac{1}{n}\sum_{i=1}^n X_i - p| \le \epsilon) = P(|\frac{\sum_{i=1}^n X_i - np}{\sqrt{np(1-p)}}| \le \frac{\sqrt n \epsilon}{\sqrt{p(1-p)}}) \approx 2\Phi(\frac{\sqrt n \epsilon}{\sqrt{p(1-p)}}) - 1 \]

上式实际是在用正态分布近似二项分布(多个伯努利分布随机变量加和为伯努利分布),比如在Galton Board游戏中,我们就可以应用de Moivre-Laplace中心极限定理来近似实际概率。

Previous
Next