假设检验

假设检验

参数估计是根据样本值得出参数的一个估计量,并且在区间估计中,我们还能得到一个这个参数置信区间和相应的置信水平。而在假设检验中,我们要做的则是根据某个假设(hypothesis)以及给定的样本,决定是否接受这个假设。注意我们特地将假设和估计(estimation)区分开,因为这个假设并不是由样本得到的一个估计量,而是一条已有的断言(assertion);我们要做的,则是给出在什么样的情况下(对应置信区间),我们能够以多高的信心否定这个断言(对应置信水平)。

至于假设检验和区间估计的关系,其实我们会发现,如果本身就能对未知参数做有效的区间估计,那其实对它的假设检验设计,自然迎刃而解。

一般检验方法

一般检验方法指Neyman-Pearson方法。

建立假设

对要检验的问题,一般有一个原假设\(H_0\)(也叫零假设,null hypothesis)以及一个备择假设\(H_1\)(alternative hypothesis)。原假设一般是总体的某个未知参数\(\theta\)等于某个具体值\(\theta_0\),即 \[ H_0: \theta = \theta_0 \] 这种只包含一个假设值(即\(\theta_0\))的原假设又叫作简单原假设(simple hypothesis null)。而备择假设一般和原假设互斥,它通常有以下三种形式:

  1. \(H_1: \theta \ne \theta_0\),此时\(H_0\)\(H_1\)为对立关系,我们要检验\(\theta\)落在\(\theta_0\)两侧的可能,这样的检测问题也称为双边检验(two-sided test);
  2. \(H_1: \theta > \theta_0\),此时我们要检验\(\theta\)落在\(\theta_0\)右侧的可能,这样的检测问题也称为右侧的单边检验;
  3. \(H_1: \theta < \theta_0\),此时我们要检验\(\theta\)落在\(\theta_0\)左侧的可能,这样的检测问题也称为左侧的单边检验;

选择否定域形式

根据已有的样本,我们能够给出未知参数的点估计量\(\hat \theta\)(在假设检验中又称作检验统计量<test statistic>),如果\(\hat \theta\)\(\theta_0\)的距离小于某个临界值\(c > 0\)(critical value),我们就可以接受原假设(即便\(\hat \theta\)\(\theta_0\)不完全相等),否则则否定原假设。使得原假设被接受的样本所在的区域就被称作接受域(acceptance region);使得原假设被否定的样本所在的区域就被称作否定域(也叫拒绝域,rejection region);一般我们习惯先构造否定域\(W\),则剩余区域就为接受域\(\overline W\)\[ \begin{gather} W = \{ (x_1, \dots, x_n) \big | |\hat \theta(x_1, \dots, x_n) - \theta_0| > c \} \\ \overline W = W^c \end{gather} \] 对于某些参数,可能本身越小越好(比如故障率),所以我们仅需要进行右侧的单边检测,此时对应的否定域为 \[ W = \{ (x_1, \dots, x_n) \big | \hat \theta(x_1, \dots, x_n) - \theta_0 > c \} \\ \] 此时可以等价认为\(H_0: \theta \le \theta_0\),这种情况下,\(H_0\)是一个复合原假设(composite hypothesis null),因为其包含的假设值不止一个。

对于另外一些参数,可能本身越大越好(比如身高均值),所以我们仅需要左侧的单边检测,此时对应的否定域为 \[ W = \{ (x_1, \dots, x_n) \big | \hat \theta(x_1, \dots, x_n) - \theta_0 < -c \} \\ \] 同理,此时可以等价认为\(H_0: \theta \ge \theta_0\),这种情况下,\(H_0\)也是一个复合原假设。

设定显著性水平

给定假设,我们已经可以根据样本属于接受域还是否定域,做出接受或是否定假设的决策了。但和点估计中的问题一样,我们依然是基于样本提供的不完全信息做出的判断,所以我们的判断不总是正确的。这种判断会有四种结果:

判断:接受\(H_0\) 判断:否定\(H_0\)
实际:\(H_0\)成立 判断正确 第一类错误
实际:\(H_1\)成立 第二类错误 判断正确

通常较低的第一类错误风险\(P(\text{否定}H_0; H_0\text{成立})\)和较低的第二类错误风险\(P(\text{接受}H_0; H_1\text{成立})\)不可兼得,因为在检验统计量确定后,这两个概率主要是由临界值\(c\)导出的否定域大小来控制的。而我们更希望降低第一类错误发生的风险(意味着更大的\(c\)),也就是说我们一旦否定,\(H_0\)很大概率确实是不成立的;尽管这意味着我们在接受\(H_0\)时,\(H_0\)有可能不成立——不过虚惊一场总好过后知后觉。所以实际应用中,\(H_0\)往往对应了比较严重的结果,我们不希望在\(H_0\)成立时,我们却没有发现(即否定\(H_0\));或者\(H_0\)本身就对应了我们比较想否定的结果,这样我们否定时,它确实不成立的概率也更高。

我们会将第一类错误发生的概率限制在\(\alpha\)之内,这个\(\alpha\)便是显著性水平(significance level)。显著性水平其实代表了我们对小概率事件的接受程度,即我们认为概率小于\(\alpha\)的事件应该是小概率事件,并且是不应该被正好碰上的;而此时在\(H_0\)成立的假设下,“给定的一组样本属于否定域”正是这样的一个小概率事件,如果碰上了这样的小概率事件,则有理由怀疑\(H_0\)不成立。

确定临界值

在确定显著性水平后,我们便可以进一步确定临界值,从而给出完整的否定域。此时我们调整临界值\(c\),从而使得 \[ \begin{gathered} P(\text{否定}H_0; H_0\text{成立}) = P( (X_1, \dots, X_n) \in W;\theta = \theta_0) \\ = P(|\hat \theta(X_1, \dots, X_n) - \theta_0| > c; \theta = \theta_0) \le \alpha \end{gathered} \] 问题就变成了一个简单的分布问题。此处需要指出的是,\(P(\text{否定}H_0; H_0\text{成立})\)不应写作\(P( (X_1, \dots, X_n) \in W | \theta = \theta_0)\),因为此处讨论的是频率学派中的假设检验,频率学派中的未知参数\(\theta\)并没有先验分布。

\(P( (X_1, \dots, X_n) \in W;\theta = \theta_0)\)又叫作功效函数(power function),记作\(\beta_W(\cdot)\),它表示在未知参数取特定值时,一组随机样本属于否定域的概率。 前面我们之所以说单边检验等价于原假设对应某个形式的复合假设(比如\(H_0: \theta \le \theta_0\)\(H_0: \theta \ge \theta_0\)),是因为这种情况下,有 \[ \max_{h \in H_0} \beta_W(h) = \beta_W(\theta_0) \le \alpha \]

\(p\)值和\(p\)值检验法

\(p\)值检验法指的是数学家Fisher提出的检验方法。

假设检验的\(p\)值是在原假设\(H_0\)成立的情况下,检验统计量\(\hat \theta(X_1, \dots, X_n)\)出现其具体观测值\(z = \hat \theta(x_1,\dots,x_n)\)或者比之更极端的值的概率,即\(p = P(\hat \theta = z; \theta = \theta_0)\)(类似likelihood)。\(p\)值检验中,我们检验\(p\)值是否足够小,如果\(p\)值小到一定程度,我们还是会否定\(H_0\),即

  • 如果\(p \le \alpha\),则我们在显著性水平\(\alpha\)下否定原假设\(H_0\)
  • 如果\(p > \alpha\),则我们在显著性水平\(\alpha\)下接受原假设\(H_0\)

参考

hypothesis testing - Are type I error & FWER both conditional probabilities? - Cross Validated (stackexchange.com)

第 3 章 假设检验 | 数理统计讲义 (bookdown.org)

Previous