贝叶斯分类器

贝叶斯分类器（Bayes classifier）基于“能够根据标签\(y\)预测特征\(\x\)”的思想，在训练环节，它学习\(p(\x|y)\)和\(p(y)\)；在预测环节，它给出\(\arg \max_y p(y|\x) = \arg \max_y p(\x|y) p(y)\)。可以看出，贝叶斯分类器的两个关键部分便是“似然”和“先验”，其预测环节采用了最大后验估计的思想，从这个角度或许能够理解为什么它叫做“贝叶斯”分类器。

朴素贝叶斯分类器

贝叶斯分类器在训练环节学习\(p(\x|y)\)和\(p(y)\)，\(p(y)\)可以直接由频率估计得来，而\(p(\x|y)\)这个条件概率则不太好求，尤其当\(\x\)为多元随机变量时，其各个成分之间的关系难以捕捉。

为简化问题，朴素贝叶斯分类器（naive Bayes classifier）做出这样的假设：\(\x\)的各个成分在\(Y=y\)给定的情况下，是相互独立的，此时有\(p(\x|y) = p(x_1|y) \dots p(x_n|y)\)。进一步，为了求解各个成分在\(Y=y\)给定时的条件概率分布，我们还可以对条件概率的分布形式作出假设，比如假设\(p(x_i|y)\)服从伯努利分布、多项分布、高斯分布（分别对应伯努利朴素贝叶斯分类器<Bernoulli naive Bayes classifier>、多项分布朴素贝叶斯分类器<multinomial naive Bayes classifier>、高斯分布朴素贝叶斯<Gaussian naive Bayes classifier>）等等。

贝叶斯最优分类器

给定贝叶斯分类器\(f \in \mathcal{H}\)，给定样本\((\x,y)\)，0-1损失函数\(l\)定义为， \[ \newcommand{\I}{\mathbb{I}} l(f(\x), y) = \I[f(\x) \ne y] = 1 - \I[f(\x) = y] \] 我们的目标是最小化\(l(f) \triangleq \E_{\x,y} l(f(\x), y)\)： \[ \begin{aligned} &l(f) = \sum_{\x} \sum_{y} p(\x,y) l(f(\x), y) \\ &= \sum_x p(\x) [\sum_y p(y|\x) l(f(\x), y)] \\ &= \E_\x [\sum_y p(y|\x) l(f(\x), y)] \end{aligned} \] 用\(f^\star\)表示贝叶斯最优分类器（Bayes optimal classifier），则\(f^\star = \arg \min_{f \in \mathcal{H}} \E_\x [\sum_y p(y|\x) l(f(\x), y)]\)；故对于每一个样本\(\x\)，都应该有： \[ \begin{aligned} &f^\star(\x) = \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) l(f(\x), y)] \\ &= \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) (1 - \I[f(\x) = y])] \\ &= \arg \min_{f \in \mathcal{H}} [\sum_y p(y|\x) - \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \min_{f \in \mathcal{H}} [1 - \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \min_{f \in \mathcal{H}} [- \sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \max_{f \in \mathcal{H}} [\sum_y p(y|\x) \I[f(\x) = y]] \\ &= \arg \max_{y \in \mathcal{Y}} p(y|\x) \end{aligned} \]

以\(Y\)仅有两种取值举例： \[ \begin{aligned} f^\star(x) &= \arg \max_{f \in \mathcal{H}} [p(y_1|\x) \I[f(\x) = y_1] + p(y_2|\x) \I[f(\x) = y_2] ] \\ &= \arg \max_{y \in \mathcal{Y}} p(y|\x) \end{aligned} \] 以上结论在\(\x\)为连续型随机变量或者\(y\)为连续型随机变量时也成立。

参考资料

Artificial Intelligence - foundations of computational agents – 7.3.3 Bayesian Classifiers (artint.info)

machine learning - What does it mean for the Bayes Classifier to be optimal? - Cross Validated (stackexchange.com)

Last updated on May 22, 2023