贝叶斯算法

技术白小白 2018-09-09

507

在介绍贝叶斯算法之前，要先明确两个概念

1 联合概率分布

联合概率分布简称联合分布，是两个及以上随机变量组成的随机变量的概率分布。根据随机变量的不同，联合概率分布的表示形式也不同。对于离散型随机变量，联合概率分布可以简单的理解为求和的形式，即对两个变量的概率求其全部的和。对于连续型随机变量，联合概率分布即对这个二维变量的概率函数对这两个变量求积分

离散型：

连续型：

实际应用当中要学会灵活应用

2，先验概率

先验概率:是指根据以往经验和分析得到的概率

后验概率:事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小

贝叶斯算法

机器学习当中常用的算法名为朴素贝叶斯算法（naive Bayes）原意为天真的贝叶斯，因为概算里面采用了很多的假设信息。

朴素贝叶斯算法的学习与分类

一般的数据集由如下形式给出

其中x属于n维空间，表示样本x的各个属性，y表示类别，在分类里面表示用数字表示分类标签。

计算朴素贝叶斯分类一般只需要计算三个概率即可

这两个先验概率可以根据实际的数据，很容易计算出来，那么由这两个先验概率，就得到了联合分布概率 P（X, Y),但是其指数是有指数量级的，但是由于我们的很多假设，就将这个模型变简单许多。

该假设就是：假设条件概率分布为条件独立，因此该算法就变得很简单了最终得到如下的公式：

（1）

（2）

（3）

最终得到了公式（1）。根据实际给出的训练样本，分别计算Y=Ck1,Ck2,,Ckn时候，X =x1,x2,,xm的概率。将公式(1)代入到公式(2)里面去，就可以得到每个样本对应与每个类别的概率，利用公式（3）取最大值就可以确定每个样本的归属。由于公式(3)的分母部分对于一直的样本属性个数和类别数是确定的，于是公式（3）可以简化。

（4）