朴素贝叶斯应用:垃圾邮件分类
1. 数据准备:收集数据与读取
2. 数据预处理:处理数据
3. 训练集与测试集:将先验数据按一定比例进行拆分。
4. 提取数据特征,将文本解析为词向量 。
5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。
6. 测试模型:用测试数据集评估模型预测的正确率。
混淆矩阵
准确率、精确率、召回率、F值
7. 预测一封新邮件的类别。
8. 考虑如何进行中文的文本分类(期末作业之一)。
要点:
理解朴素贝叶斯算法
理解机器学习算法建模过程
理解文本常用处理流程
理解模型评估方法
原文:https://www.cnblogs.com/asyxhs/p/10073752.html