分类算法之朴素贝叶斯(NaiveBayes)

36大数据 • 8年前扫码分享

作者：程Sir

我个人认为，在数据挖掘领域，分类算法是最为重要。它根据以往的数据来对新的数据做预测。垃圾邮件判断，潜在用户挖掘等都会用到分类算法。今天把总结朴素贝叶斯算法的学习心得。

#Bayes是谁#

Thomas Bayes，英国数学家。约1701年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献。

#Bayes定理#

通俗来说就是：

已知事件B的发生概率P(B)

已知在事件B已经发生的情况下，事件A发生的概率P(A|B)

则可根据Bayes定理，计算事件A发生的条件下，事件B发生的概率P(B|A)。

计算方法为：

P(B|A)=P(A|B)× P(B)/ P(A)

#NaiveBayes分类算法实例#

门诊部一共就诊了6位患者，情况如下：

这时，来了第七位患者，一位“打喷嚏的工人”，请推断他得了啥病。

这就是一个分类问题。现状把所有患者分成了三类“感冒”“过敏”“脑震荡”，我们的目的是把“打喷嚏的工人”分到这三类中的一类中。具体做法为：根据Bayes定理，计算这个“打喷嚏的工人”患三种疾病的概率。

分类算法之朴素贝叶斯(NaiveBayes)

解释:

‘&’项可以分成两个，是因为“症状”变量和“职业”变量是相互独立的，没什么联系

感冒的有3个，其中打喷嚏的2个，所以P(打喷嚏|感冒)=2/3

感冒的有3个，其中工人1个，所以P(工人|感冒)=1/3

一共六个人，感冒3个，所以P(感冒)=1/2

一共六个人，打喷嚏的3个，所以P(打喷嚏)=1/2

一共六个人，其中工人2个，所以P(工人)=1/3

按照这个方法，计算“打喷嚏的工人”另外两种疾病的概率;

分类算法之朴素贝叶斯(NaiveBayes)

可见，“打喷嚏的工人”患感冒概率66.7%，初步判断应该是感冒。但是一般的分类器都要根据具体业务设置阈值，对于人命关天的事，最好严格一些，比如95%以上才做出判断，那么这里最好的答案应该是“机器无法判断，建议去让医生看看”。

#补充说明#

算法叫做朴素贝叶斯(NaiveBayes)，是因为算法是在太简单了

‘&’能分开两个概率相乘是因为变量的独立性，如果不独立的话，这样计算会有误差

分母项 P(打喷嚏)× P(工人)在每次计算中都一样，可以只互相比较分子计算的结果作出判断

例子中最初的6个病人的数据叫做训练集

#训练集样本较小情况下的概率调整#

P(打喷嚏|过敏)和P(工人|过敏)分别为1，0，实际中不可能是这样的，因为没有什么是一定不发生，也没有什么100%发生。出现这种情况是因为我们的样本太少，如果样本足够多，概率会相对靠谱。

在起步阶段，样本就是很少，为了避免0，1这种极端概率，需要人为做一些数学变换。比如，对过敏来说，每个症状的初始概率都为50%，当来了一个过敏病人，如果出现打喷嚏，那么P(打喷嚏|过敏)的概率就提升一点点，反之如果不打喷嚏，则P(打喷嚏|过敏)的概率就下降一点点。这样使得每一个概率都变得在(0，1)之间平滑变化，对其他的变量也这样处理。在《Programming Collective Intelligence》这本书中给出了这个变换的公式，我套用到过敏来说就是：

分类算法之朴素贝叶斯(NaiveBayes)