朴素贝叶斯算法是基于概率论的分类方法,是生成算法中的一种。为什么成为“朴素”呢,因为整个形式化过程都只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策理论的一部分。
生成模型和判决模型的区别:http://blog.sciencenet.cn/home.php?mod=space&uid=248173&do=blog&id=227964
当样本的输入是中特征向量x是连续实数向量,则应该使用高斯判决模型,如果输入是x是离散值的话,可以考虑采用朴素贝叶斯的分类方法。朴素的贝叶斯模型的使用条件是样本足够多,在检测判决是先对样本进行训练。当样本中的特征向量x较多。
贝叶斯算法有一个很强的假设条件:就是x的特征是独立的,互不相关。
例如,当要求 p(y|x),根据省城模型的定义,可以先求p(y|x)和p(y)。
假设X的特征向量表示:X =(x1,x2,......xn)
p(x1,x2,x3.....xn|y) = p(x1|y)p(x2|y,x1)p(x3|y,x2,x1).....p(xn|y,x1,x2,....,xn)
=(x1|y)p(x2|y)p(x3|y)........p(xn|y)
根据条件概率公式
p(y|x) = p(x|y)*p(y)/p(x);
模型的训练过程中需要求解 p(x|y)和p(y).
p(x|y)表示的含义就是训练过程中x属于y类的概率,且p(y)可通过类别数可得。
朴素的贝叶斯的一个重要应用就是文档的自动分类。
具体:http://blog.csdn.net/maverick1990/article/details/16115077
这里解释一下为啥叫朴素:
有统计学可知,如果每个特征需要N个样本,那么对于10个特征将需要N^10个样本,对于包含1000个特征的词汇表将需要N^1000,可以看到,所需要的样本数目会随着特征数目增大而迅速增加。但是正如贝叶斯假设,如果特征之间相互独立,那么样本数目可以从N^1000减少到1000*N。这里的独立就是统计意义上的独立,即一个特征出现的可能性与其它的特征相邻没有关系。这正是朴素这词的由来。其实在贝叶斯模型中,还假设了每一个特征同等重要。其实无论特征之间独立还是特征的重要性同等重要,都不完全正确。虽然这个模型中的某些假设有些瑕疵,但是当训练样本数目足够多的时候,效果还是很好的。
原文:http://www.cnblogs.com/fartherfuture/p/3629183.html