首页 > 其他 > 详细

朴素贝叶斯

时间:2014-03-28 12:54:19      阅读:521      评论:0      收藏:0      [点我收藏+]

   朴素贝叶斯算法是基于概率论的分类方法,是生成算法中的一种。为什么成为“朴素”呢,因为整个形式化过程都只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分。

   生成模型和判决模型的区别:http://blog.sciencenet.cn/home.php?mod=space&uid=248173&do=blog&id=227964

   当样本的输入是中特征向量x是连续实数向量,则应该使用高斯判决模型,如果输入是x是离散值的话,可以考虑采用朴素贝叶斯的分类方法。朴素的贝叶斯模型的使用条件是样本足够多,在检测判决是先对样本进行训练。当样本中的特征向量x较多。

贝叶斯算法有一个很强的假设条件:就是x的特征是独立的,互不相关。

例如,当要求 p(y|x),根据省城模型的定义,可以先求p(y|x)和p(y)。

假设X的特征向量表示:X =(x1,x2,......xn)

p(x1,x2,x3.....xn|y) = p(x1|y)p(x2|y,x1)p(x3|y,x2,x1).....p(xn|y,x1,x2,....,xn)

           =(x1|y)p(x2|y)p(x3|y)........p(xn|y)

根据条件概率公式

        p(y|x) = p(x|y)*p(y)/p(x);

模型的训练过程中需要求解 p(x|y)和p(y).

p(x|y)表示的含义就是训练过程中x属于y类的概率,且p(y)可通过类别数可得。

 

朴素的贝叶斯的一个重要应用就是文档的自动分类。

具体:http://blog.csdn.net/maverick1990/article/details/16115077

这里解释一下为啥叫朴素:

有统计学可知,如果每个特征需要N个样本,那么对于10个特征将需要N^10个样本,对于包含1000个特征的词汇表将需要N^1000,可以看到,所需要的样本数目会随着特征数目增大而迅速增加。但是正如贝叶斯假设,如果特征之间相互独立,那么样本数目可以从N^1000减少到1000*N。这里的独立就是统计意义上的独立,即一个特征出现的可能性与其它的特征相邻没有关系。这正是朴素这词的由来。其实在贝叶斯模型中,还假设了每一个特征同等重要。其实无论特征之间独立还是特征的重要性同等重要,都不完全正确。虽然这个模型中的某些假设有些瑕疵,但是当训练样本数目足够多的时候,效果还是很好的。

朴素贝叶斯,布布扣,bubuko.com

朴素贝叶斯

原文:http://www.cnblogs.com/fartherfuture/p/3629183.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!