随机变量的收敛
依概率收敛(convergence in probability)
随机变量序列即是由随机变量构成的序列。对于一个普通数列\(\{x_n\}\)来说,若其收敛于\(c\),则意味着当\(n\)充分大时,\(x_n\)和\(c\)的距离可以达到任意小。而随机变量序列\(X_1, X_2, \dots\)的极限却不能按照这样定义,因为\(X_n\)取值不确定,不可能总和某个数字\(c\)的距离任意小。
定义
设\(X_1, X_2, \dots\)是一个随机变量序列,如果存在一个常数\(c\),使得对于任意\(\epsilon > 0\),都有\(\lim_{n \to \infty} P(|X_n - c| < \epsilon) = 1\),抑或是,对于任意\(\epsilon > 0\),都有\(\lim_{n \to \infty} P(|X_n - c| \ge \epsilon) = 0\)),则称该随机变量序列依概率收敛于\(c\),记作\(X_n \stackrel{P}{\to} c\)。
换言之,对于任意\(\epsilon, \delta > 0\),都存在\(N > 0\),使得\(n > N\)时,始终有 \[ 1 - \delta < P(|X_n - c| < \epsilon) \le 1 \]
依概率收敛的一个例子便是Bernoulli大数定律,即当试验次数足够多时,事件的频率会依概率收敛到该事件的概率。
几乎必然收敛(almost-sure convergence)
在某些情况下,若随机变量序列能够和某个数字\(c\)几乎接近,我们说它几乎必然收敛。
定义
设\(X_1, X_2, \dots\)是一个随机变量序列,如果存在一个常数\(c\),使得\(P(\lim_{n \to \infty} X_n = c) = 1\),则称该随机变量序列几乎必然收敛于\(c\),记作\(X_n \stackrel{a.s.}{\to} c\)。
换言之,对于任意\(\epsilon > 0\),都存在\(N > 0\),使得\(n > N\)时,始终有 \[ P(|X_n - c| < \epsilon) = 1 \]
需要注意的是,几乎必然收敛和依概率收敛是不等价的,因为\(\lim_{n \to \infty} f(x_n)\)中的极限符号不总是能够交换到函数\(f\)内部,举个简单的例子: \[ \begin{gathered} \{ x_n \} = -\frac{1}{n}, \ f(x) = \begin{cases} x^2 - 1, & -1 \le x < 0 \\ x, & x \ge 0 \end{cases} \\ \lim_{n \to \infty} f(x_n) = \lim_{n \to \infty}(\frac{1}{n^2}-1) = -1 \ne f(\lim_{n \to \infty} x_n) = f(0) = 0 \end{gathered} \] 注意\(f\)是右连续的,这也意味着,我们可以找到类似的右连续的分布函数\(P\),使得极限符号不能被移至\(P\)内部。也就是说,几乎必然收敛和依概率收敛是不等价的,而显然,几乎必然收敛是强于依概率收敛的。
\(L_p\)收敛(convergence in \(L_p\))
定义
设\(X_1, X_2, \dots\)是一个随机变量序列,对于某个\(p > 0\),如果存在一个常数\(c\),使得\(\lim_{n \to \infty} \E(|| X_n - c||_p^p) = 0\),则称该随机变量序列\(L_p\)收敛于\(c\),记作\(X_n \stackrel{L_p}{\to} c\)。
均方收敛
当\(p=2\)时,\(L_p\)收敛又称作均方收敛。根据Chebyshev不等式, \[ P(|X_n-\E(X_n)| \ge \epsilon) \le \frac{\Var(X_n)}{\epsilon^2} = \frac{\E[(X_n - \E(X_n))^2]}{\epsilon^2} \] 在两边取\(n \to \infty\)可以得到 \[ \lim_{n \to \infty} P(|X_n-\E(X_n)| \ge \epsilon) \le \lim_{n \to \infty} \frac{\E[(X_n - \E(X_n))^2]}{\epsilon^2} = 0 \] 即均方收敛成立时,依概率收敛也成立,反之则不必然,故均方收敛也强于依概率收敛;但均方收敛和几乎必然收敛之间并没有推导关系。
依分布收敛(convergence in distribution)
前面三者描述的是随机变量序列取值的某种特性,而依分布收敛则不同,它描述的是随机变量序列分布函数的特性。
定义
设\(X_1, X_2, \dots\)是一个随机变量序列,让\(F_n\)表示\(X_n\)的分布函数,如果存在一个分布函数\(F\),使得\(\lim_{n \to \infty} F_n(x) = F(x)\),则称该随机变量序列依分布收敛于\(F\),记作\(X_n \stackrel{d}{\to} F\)。
“收敛到随机变量”
除了上述讨论的收敛到值、收敛到(分布)函数的情况外,另外一个比较有趣的话题是“收敛到随机变量”,或者说“两个随机变量相等”是一个怎样的概念?
我们讨论概率的时候,会涉及到两个函数:一个是概率函数,另一个是随机变量这一从事件到数字的映射。方便起见我们令\(X\)和\(Y\)为两个随机变量,随机变量相等,则意味着这两个从事件到数字的映射相等,进而\(P(X = Y) = 1\)。
映射相等,意味着定义域、值域、映射关系完全相等。如果我有两个骰子,令\(X\)表示第一个骰子掷出的点数、\(Y\)表示第二个骰子掷出的点数,那么\(X = Y\)吗?答案是不,因为这两个随机变量的定义域不相等:\(X\)的定义域表示第一个骰子的所有可能事件,\(Y\)的定义域表示第二个骰子的所有可能事件;虽然两个骰子掷出的点数都只能是1、2、3、4、5、6,但这代表的仅是值域相同,而“第一个骰子掷出一”(注意这里避免使用阿拉伯数字,以表示它是一个事件)这个事件和“第二个骰子掷出一”是不一样的,因为\(X\)不会因为第二个骰子掷出一而取为1。
至此,我们更加能够体会到“收敛到函数”的含义:只是碰巧该随机变量的分布函数在极限情况下与某个满足分布函数条件的函数相同而已。而“收敛到值”相较于“收敛到函数”,提供的信息更少,因为“收敛到值”只是告诉我们在极限情况下,该随机变量在某一处取值的概率趋近于\(1\)而已。