贝叶斯分类器

贝叶斯分类器

贝叶斯分类器(Bayes classifier)基于“能够根据标签\(y\)预测特征\(\x\)”的思想,在训练环节,它学习\(p(\x|y)\)\(p(y)\);在预测环节,它给出\(\arg \max_y p(y|\x) = \arg \max_y p(\x|y) p(y)\)。可以看出,贝叶斯分类器的两个关键部分便是“似然”和“先验”,其预测环节采用了最大后验估计的思想,从这个角度或许能够理解为什么它叫做“贝叶斯”分类器。

朴素贝叶斯分类器

贝叶斯分类器在训练环节学习\(p(\x|y)\)\(p(y)\)\(p(y)\)可以直接由频率估计得来,而\(p(\x|y)\)这个条件概率则不太好求,尤其当\(\x\)为多元随机变量时,其各个成分之间的关系难以捕捉。

为简化问题,朴素贝叶斯分类器(naive Bayes classifier)做出这样的假设:\(\x\)的各个成分在\(Y=y\)给定的情况下,是相互独立的,此时有\(p(\x|y) = p(x_1|y) \dots p(x_n|y)\)。进一步,为了求解各个成分在\(Y=y\)给定时的条件概率分布,我们还可以对条件概率的分布形式作出假设,比如假设\(p(x_i|y)\)服从伯努利分布、多项分布、高斯分布(分别对应伯努利朴素贝叶斯分类器<Bernoulli naive Bayes classifier>、多项分布朴素贝叶斯分类器<multinomial naive Bayes classifier>、高斯分布朴素贝叶斯<Gaussian naive Bayes classifier>)等等。

贝叶斯最优分类器

给定贝叶斯分类器\(f \in \mathcal{H}\),给定样本\((\x,y)\),0-1损失函数\(l\)定义为, \[ \newcommand{\I}{\mathbb{I}} l(f(\x), y) = \I[f(\x) \ne y] = 1 - \I[f(\x) = y] \] 我们的目标是最小化\(l(f) \triangleq \E_{\x,y} l(f(\x), y)\)\[ \begin{aligned} &l(f) = \sum_{\x} \sum_{y} p(\x,y) l(f(\x), y) \\ &= \sum_x p(\x) [\sum_y p(y|\x) l(f(\x), y)] \\ &= \E_\x [\sum_y p(y|\x) l(f(\x), y)] \end{aligned} \]\(f^\star\)表示贝叶斯最优分类器(Bayes optimal classifier),则\(f^\star = \arg \min_{f \in \mathcal{H}} \E_\x [\sum_y p(y|\x) l(f(\x), y)]\);故对于每一个样本\(\x\),都应该有: \[ \begin{aligned} &f^\star(\x) = \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) l(f(\x), y)] \\ &= \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) (1 - \I[f(\x) = y])] \\ &= \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) - \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \min_{f \in \mathcal{H}} [1 - \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \min_{f \in \mathcal{H}} [- \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \max_{f \in \mathcal{H}} [\sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \max_{y \in \mathcal{Y}} p(y|\x) \end{aligned} \]

\(Y\)仅有两种取值举例: \[ \begin{aligned} f^\star(x) &= \arg \max_{f \in \mathcal{H}} [p(y_1|\x) \I[f(\x) = y_1] + p(y_2|\x) \I[f(\x) = y_2] ] \\ &= \arg \max_{y \in \mathcal{Y}} p(y|\x) \end{aligned} \] 以上结论在\(\x\)为连续型随机变量或者\(y\)为连续型随机变量时也成立。

参考资料

Artificial Intelligence - foundations of computational agents – 7.3.3 Bayesian Classifiers (artint.info)

machine learning - What does it mean for the Bayes Classifier to be optimal? - Cross Validated (stackexchange.com)

Previous
Next