参数估计

点估计

设总体\(X \sim p(x;\theta)\)的分布形式已知,但其参数\(\theta\)未知。设\(X_1, \dots, X_n\)为总体的一组样本,若用一个统计量\(\hat \theta = \hat \theta(X_1, \dots, X_n)\)来估计\(\theta\),则称\(\hat \theta\)为参数\(\theta\)的一个点估计量。构造点估计量的常用方式有两种:矩估计法和最大似然估计法。

矩估计

矩估计的思想就是就是替换思想,即用样本矩替换总体矩。设总体的\(k\)阶原点矩(origin moment)\(\mu_k = \E[X^k]\),总体的\(k\)中心矩(central moment)\(\alpha_k = \E[(X - \mu)^k]\);样本的\(k\)阶原点矩为\(m_k = \frac 1 n \sum_{i=1}^n X_i^k\),样本的\(k\)阶中心矩为\(a_k = \frac 1 n \sum_{i=1}^n (X_i - \bar X)^k\)

仅以中心矩为例,如果未知参数\(\theta = \varphi(\mu_1, \dots, \mu_p)\),则其估计量\(\hat \theta = \varphi(m_1, \dots, m_p)\),这种估计总体未知参数的方法叫作矩估计法。矩估计往往不唯一,如设\(X \sim P(\lambda)\),则由于\(\E(X) = \lambda\)\(\hat \lambda\)可写作\(\bar X\);又\(\Var(X) = \lambda\)\(\hat \lambda\)可写作\(\frac 1 n \sum_{i=1}^n X_i^2 - \bar X^2\)。此时往往采用较低阶的矩来估计未知参数。

最大似然估计

设总体有分布律\(X \sim P(X=x;\theta)\)或密度函数\(X \sim p(x;\theta)\)\(x_1, \dots, x_n\)为取自总体的一组样本观测值,将样本的联合分布律或联合密度函数看作\(\theta\)的函数: \[ L(\theta) = \prod_{i=1}^n P(X=x_i;\theta)\ \text或 \ L(\theta) = \prod_{i=1}^n p(x_i;\theta) \] \(L(\theta)\)又称作\(\theta\)的似然函数,似然函数满足关系式\(L(\hat \theta) = \max_{\theta} L(\theta)\)的解\(\hat \theta\)\(\theta\)的最大似然估计量。

由于最大似然估计对样本使用较为充分,通常其方差较小。

优良性评判

无偏性(unbiasedness)

\(\hat \theta = \hat \theta(X_1, \dots, X_n)\)\(\theta\)的一个估计量,\(\theta\)的取值空间为\(\Theta\),若对任意的\(\theta \in \Theta\),有 \[ \E [\hat \theta(X_1, \dots, X_n)] = \theta \] 则称\(\hat \theta\)\(\theta\)的一个无偏估计(量),否则则称作有偏估计(量)。如果有 \[ \lim_{n \to \infty} \E [\hat \theta(X_1, \dots, X_n)] = \theta \] 则称\(\hat \theta\)\(\theta\)的一个渐进无偏估计(量)。渐进无偏亦记作\(\hat \theta \stackrel{L_1}{\to} \theta\)

估计的无偏性是指,估计量相对于未知参数真值来说,取某些样本时估计值也许偏大,取另一些样本时估计量也许偏小,但多次取样本进行估计,平均来讲偏差为\(0\)。如果估计量不具有无偏性,则无论取多少次样本,其平均值与真值也有偏差,亦即系统误差

有趣的是,有一些估计虽然不满足无偏性,但满足一致性,所以我们依旧会采用这些估计。比如在估计正态总体的方差时,令\(S_n^2 \triangleq a_2\),则最大似然估计为\(S_n^2\),该估计不满足无偏性,但满足一致性;\(S_n^2/k\)形式(\(k\)为待定系数)的最小均方差估计为\(n S_n^2/(n+1)\)参此),也不满足无偏性,但满足一致性。

最小方差(minimum-variance)

\(\hat \theta_1 = \hat \theta_2\)\(\theta\)的两个估计量,\(\theta\)的取值空间为\(\Theta\),若对任意的\(\theta \in \Theta\),有\(\Var(\hat \theta_1) \le \Var(\hat \theta_2)\),且至少有一个\(\theta \in \Theta\)使得该不等式严格成立,则称\(\hat \theta_1\)\(\hat \theta_2\)有效。

一致性(consistency)

\(\hat \theta = \hat \theta(X_1, \dots, X_n)\)\(\theta\)的一个估计量,若对任意\(\epsilon > 0\),有 \[ \lim_{n \to \infty} P(|\hat \theta - \theta| > \epsilon) = 0 \\ \equiv \\ \lim_{n \to \infty} P(|\hat \theta - \theta| \le \epsilon) = 1 \] 则称估计量\(\hat \theta\)具有一致性,一致性描述的是一个估计量依概率收敛到真实值的过程,一致性亦记作\(\hat \theta \stackrel{P}{\to} \theta\)

一致性是一个很基本(“基本”不是指“一致性是其他两条性质的必要条件”)的要求:随着样本数量增加,如果估计量不能够将偏差缩小到任意指定精度,那么这个估计通常是不好的。不满足一致性的估计量一般不予考虑。

Cramer-Rao不等式

实际上,点估计量不仅仅可以估计未知参数\(\theta\)本身(假设为一元情况),更可以估计未知参数的某个函数\(g(\theta)\),即给定总体的一组样本\(X_1, \dots, X_n\),用统计量\(\hat g = \hat g(X_1, \dots, X_n)\)估计\(g(\theta)\)。估计量最好的效果便是达到最小方差无偏(minimum-variance unbiased <MVU>)估计,Cramer-Rao不等式给出了点估计量\(\hat g\)方差的一个下界。 \[ \begin{equation} \label{cr} \Var(\hat g) \ge (g'(\theta))^2 / (nI(\theta)) \end{equation} \] 其中,\(I(\theta) = \int [(\frac{\partial p(x;\theta)}{\partial \theta})^2 / p(x;\theta)] \d x\)为Fisher Information。当\(g(\theta) = \theta\),即只估计未知参数本身时,有\(\Var(\hat g) \ge 1 / (nI(\theta))\)

\(\eqref{cr}\)成立有一定的条件,其本身就暗含了\(\frac{\partial p(x;\theta)}{\partial \theta}\)存在及\(g'(\theta)\)存在的条件。记 \[ S = S(X_1, \dots, X_n, \theta) = \sum_{i=1}^n \frac{\partial \ln p(X_i;\theta)} {\partial \theta} = \sum_{i=1}^n [\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta)] \] \(\int p(x;\theta)\ \d x = 1\),此式两边同时对\(\theta\)求导,并假定此处求导可以移至积分号内部,可得到\(\int \frac{\partial p(x;\theta)}{\partial \theta} \d x = 0\)。根据LOTUS\[ \E [\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta)] = \int [\frac{\partial p(x;\theta)} {\partial \theta} / p(x;\theta)] p(x;\theta)\ \d x = \int \frac{\partial p(x;\theta)} {\partial \theta}\d x = 0 \]

由于\(X_1, \dots, X_n\)的独立性, \[ \begin{aligned} \Var(S) &= \sum_{i=1}^n \Var [\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta)] \\ &= \sum_{i=1}^n \{ \E [\big (\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta) \big)^2] - \E^2 [\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta)] \} \\ &= \sum_{i=1}^n \E [\big (\frac{\partial p(X_i;\theta)} {\partial \theta} / p(X_i;\theta) \big)^2] \\ &= n \int \big (\frac{\partial p(x;\theta)} {\partial \theta} / p(x;\theta) \big)^2 p(x;\theta)\ \d x \\ &= n I(\theta) \end{aligned} \]

根据协方差的性质, \[ \begin{equation} \label{cov_prop} [\Cov(\hat g, S)]^2 \le \Var(\hat g) \Var(S) = \Var(\hat g) n I(\theta) \end{equation} \]

\(\E(S) = 0\)\[ \begin{aligned} \Cov(\hat g, S) = \E (\hat g S) &= \int \dots \int \hat g(x_1, \dots, x_n) \sum_{i=1}^n [\frac{\partial p(x_i;\theta)} {\partial \theta} / p(x_i;\theta)] \prod_{i=1}^n p(x_1;\theta)\ \d x_1 \dots \d x_n \\ &= \int \dots \int \hat g(x_1, \dots, x_n) \frac{\partial p(x_1;\theta) \dots p(x_n;\theta)} {\partial \theta}\ \d x_1 \dots \d x_n \end{aligned} \] 假定此处对\(\theta\)求导可以移至积分号外部, \[ \begin{aligned} \Cov(\hat g, S) &= \frac \partial{\partial \theta} \int \dots \int \hat g(x_1, \dots, x_n) p(x_1;\theta) \dots p(x_n;\theta)\ \d x_1 \dots \d x_n \\ &= \frac \partial{\partial \theta} g(\theta) = g'(\theta) \end{aligned} \] 将上式重新带入\(\eqref{cov_prop}\),从而得到\(\eqref{cr}\)

参考

对Cramer-Rao不等式的理解 || Wiki (see the multi-variate case)

区间估计

点估计得到是未知参数的某个特定值,然而实际上由于点估计的方差因素,我们不可能得到完全准确的估计值。如果我们能够给出一个区间,使得我们有较大把握参数的真实值落在这个区间范围内,则显得我们的估计更加有效、可信,这个区间也叫作置信区间(confidence interval)。

设总体\(X \sim f(x;\theta)\)的分布形式已知,但其参数\(\theta\)未知。设\(X_1, \dots, X_n\)为总体的一组样本,给定一个很小的数\(0 < \alpha < 1\),若有统计量\(\theta_l = \theta_l (X_1, \dots, X_n) \le \theta_r(X_1, \dots, X_n) = \theta_r\),使得 \[ P(\theta_l \le \theta \le \theta_r) \ge 1 - \alpha \] 我们称\(1 - \alpha\)\([\theta_l, \theta_r]\)置信水平(confidence level),\(\theta_l\)置信下限\(\theta_r\)置信上限。一般来说置信水平不唯一,因为若\(1 - \alpha\)是某个区间的置信水平,则对于任意\(\alpha < \tilde \alpha < 1\)\(1 - \tilde \alpha\)亦是该区间的置信水平。故一般的“置信水平”是这一系列置信水平中的最大者。

枢轴变量法

区间估计一般采用枢轴变量法,枢轴变量法的一般步骤为:

  1. 构造\(\theta\)的一个点估计\(\hat \theta\)(如\(\bar X\)

  2. 构造\(\theta\)\(\hat \theta\)的一个函数\(G = G(\theta, \hat \theta)\)(称作枢轴(pivot)函数),且

    • \(G\)的分布函数\(F\)完全已知,且其分布与\(\theta\)无关,
    • 对任何常数\(a < b\),不等式\(a \le G(\theta, \hat \theta) \le b\)能够改写成等价的\(A \le \theta \le B\),且\(A,B\)仅与\(\hat \theta,a,b\)有关,与\(\theta\)无关。
  3. \(F\)的上\(\alpha/2\)分位点\(w_{\alpha/2}\)\(F(w_{\alpha / 2}) = 1 - \alpha/2\))及上\(1-\alpha/2\)分位点\(w_{1-\alpha/2}\)\(F(w_{1 - \alpha / 2}) = \alpha / 2\)),此时有\(F(w_{\alpha/2}) - F(w_{1 - \alpha / 2}) = 1 - \alpha\),即 \[ P(w_{1-\alpha/2} \le G(\theta, \hat \theta) \le w_{\alpha/2}) = 1 - \alpha \] \(w_{1-\alpha/2} \le G(\theta, \hat \theta) \le w_{\alpha/2}\)可改写为对应的\(A \le \theta \le B\)的形式,且\(A, B\)仅与估计量和两个分位点有关,\(A,B\)就构成了\(\theta\)的一个置信水平为\(1-\alpha\)的置信区间。

在构造枢轴函数时,一般会使用一些现有结论,比如中心极限定理的近似、三大分布与正态总体的抽样分布等等。

Previous
Next