朴素贝叶斯

时间：2014-03-28 12:54:19 阅读：525 评论：0 收藏：0 [点我收藏+]

朴素贝叶斯算法是基于概率论的分类方法，是生成算法中的一种。为什么成为“朴素”呢，因为整个形式化过程都只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分。

生成模型和判决模型的区别：http://blog.sciencenet.cn/home.php?mod=space&uid=248173&do=blog&id=227964

当样本的输入是中特征向量x是连续实数向量，则应该使用高斯判决模型，如果输入是x是离散值的话，可以考虑采用朴素贝叶斯的分类方法。朴素的贝叶斯模型的使用条件是样本足够多，在检测判决是先对样本进行训练。当样本中的特征向量x较多。

贝叶斯算法有一个很强的假设条件：就是x的特征是独立的，互不相关。

例如，当要求 p(y|x),根据省城模型的定义，可以先求p（y|x)和p(y)。

假设X的特征向量表示：X =(x1,x2,......xn)

　　　　　　　　　　 =(x1|y)p(x2|y)p(x3|y)........p(xn|y)

根据条件概率公式

　　　　　　　　p(y|x) = p(x|y)*p(y)/p(x);

模型的训练过程中需要求解 p(x|y)和p(y).

p(x|y)表示的含义就是训练过程中x属于y类的概率，且p(y)可通过类别数可得。

朴素的贝叶斯的一个重要应用就是文档的自动分类。

具体：http://blog.csdn.net/maverick1990/article/details/16115077

这里解释一下为啥叫朴素：

有统计学可知，如果每个特征需要N个样本，那么对于10个特征将需要N^10个样本，对于包含1000个特征的词汇表将需要N^1000，可以看到，所需要的样本数目会随着特征数目增大而迅速增加。但是正如贝叶斯假设，如果特征之间相互独立，那么样本数目可以从N^1000减少到1000*N。这里的独立就是统计意义上的独立，即一个特征出现的可能性与其它的特征相邻没有关系。这正是朴素这词的由来。其实在贝叶斯模型中，还假设了每一个特征同等重要。其实无论特征之间独立还是特征的重要性同等重要，都不完全正确。虽然这个模型中的某些假设有些瑕疵，但是当训练样本数目足够多的时候，效果还是很好的。

朴素贝叶斯,布布扣,bubuko.com

朴素贝叶斯

原文：http://www.cnblogs.com/fartherfuture/p/3629183.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)