贝叶斯推断

贝叶斯公式

在全概率公式之下,有 \[ P(B_i | A) = \frac{P(A B_i)}{P(A)} = \frac{P(B_i) P(A|B_i)}{P(A)} = \frac{P(B_i) P(A|B_i)} {\sum_j P(B_j) P(A|B_j)} \] 这便是贝叶斯公式。贝叶斯公式中的项目也有它们在贝叶斯学派中相应的称呼: \[ \text{posterior} = \frac{\text{prior} \times \text{likelihood}}{\text{evidence}} \]

贝叶斯估计

在参数估计问题中,记\(D = \{ X_1, \dots, X_n \}\)为样本、\(\theta\)为参数,并用将\(D\)代入后验概率中的事件\(A\)\(\theta\)代入后验概率中的\(B_i\),我们得到:

\[ P(\theta | D) = \frac{P(\theta) P(D|\theta)} {\sum_j P(\theta_j) P(D|\theta_j)} \\ \] 取决于\(\theta\)和单个样本的取值是连续型或是离散型,上式中的\(P\)可代表密度函数或分布律,而分母中的求和运算应当在\(\theta\)取值连续的时候被替换在\(\theta\)所有可行范围内的积分运算。比较值得注意的一点是,贝叶斯推断为参数\(\theta\)引入了先验分布,而在频率学派中,参数\(\theta\)是不存在什么先验分布的。

由于贝叶斯学派假设参数服从某个分布,在先验、似然已知的情况下,我们可以求得后验的解析解、近似解,或者通过Metropolis-Hastings等算法对后验直接采样。无论采取哪种方式,我们都可以获得后验的(近似)密度函数。如此一来,贝叶斯估计其实天然是一种区间估计。除开直接获取后验密度函数,我们再讨论一些贝叶斯方法中常见的其他的估计方法。

最大后验估计

最大后验估计(maximum a posteriori estimation)得到的点估计是以下: \[ \hat \theta = \arg \max_{\theta} \frac{P(\theta) P(D | \theta)}{\int P(\theta') P(D|\theta') \d \theta'} = \arg \max_{\theta} {P(\theta) P(D | \theta)} \]

最小均方差估计

最小均方差估计(minimum mean squared error estimation)得到的点估计是以下: \[ \theta^\star = \arg \min_{\hat \theta} \E_{\theta \sim \text{posterior}} [(\hat \theta - \theta)^2] \] 换言之,此时的到的点估计\(\theta^\star\)即为\(\E_{\theta \sim \text{posterior}} \theta\)

可信区间

可信区间(credible interval),或者叫最大后验密度(highest posterior density)得到的是一个区间,该区间是使得随机变量落在该区间内的概率大于某一个数字(常用的有95%、98%)的最小区间。

案例:抛硬币

在具体的抛硬币案例中(抛\(N\)次硬币,其中\(n\)次正面朝上,未知参数为正面朝上概率\(p\)), \[ \begin{gather} \text{likelihood: } P(n|p) = {N \choose n} p^n (1-p)^{N-n} \\ \text{prior: } \rho(p) = 1 \\ \text{evidence: } \int_0^1 P(n|p) \rho(p) \d p \\ \text{posterior: } \rho(p|n) \end{gather} \]

\[ \begin{aligned} & \rho(p|n) = \frac{P(n|p) \rho(p)}{\int_0^1 P(n|p) \rho(p) \d p} \\ &= \frac{{N \choose n} p^n (1-p)^{N-n} \rho(p)}{\int_0^1 {N \choose n} x^n (1-x)^{N-n} \rho(x) \d x} \\ &= \frac{p^n (1-p)^{N-n} 1}{\int_0^1 x^n (1-x)^{N-n} 1 \d x} \\ &= \frac{p^{n+1-1} (1-p)^{N-n+1-1}} {\underbrace{\int_0^1 x^{n+1-1} (1-x)^{N-n+1-1} \d x}_{\mathrm{Beta}(n+1, N-n+1)}} \\ &= \mathrm{Beta}(p|n+1,N-n+1) \end{aligned} \]

其中\(\mathrm{Beta}(n+1, N-n+1)\)表示Beta函数\((n+1, N-n+1)\)处的取值;\(\mathrm{Beta}(p|\underbrace{n+1}_{a>0}, \underbrace{N-n+1}_{b>0})\)表示参数\(a =n+1, b=N-n+1\)时的Beta分布

需要注意的是\(\mathrm{Beta}(p|1,1)\)等价于\([0,1]\)之间的均匀分布: \[ \mathrm{Beta}(p|1,1) = \text{Uniform}(p|0,1) \]

在prior为Beta分布、likelihood为二项分布时,得到的posterior依旧是Beta分布(不过该Beta分布的参数和prior中Beta分布的参数有所不同),此时的prior和likelihood称作conjugate distributions,此时的prior称作likelihood的conjugate prior

Beta分布是二项分布的conjugate prior;高斯分布是高斯分布的conjugate prior。

Previous
Next