首页 > 编程语言 > 详细

python机器学习-chapter2_16

时间:2020-02-20 19:33:41      阅读:64      评论:0      收藏:0      [点我收藏+]

•分类器的不确定度

决策函数(decision_function):

二分类:返回类型为(n_samples, ),为每个样本返回一个浮点数,这个浮点数的正负号代表了预测的分类,值的大小代表了置信度。

多分类:返回类型为(n_samples, n_classes),每一列对应每个类别的“确定度分数”,分数越高的类别可能性越大

预测概率(predict_proba):

二分类:返回类型为(n_samples, 2),为每个样本返回两个数,第一个数是估计为第一类的概率,第二个数为估计为第二类的概率。

多分类:返回类型为(n_samples, n_classes),每一列对应每个类别的预测概率,预测概率值越大的类别可能性越大。

 

•监督学习总结

KNN:适用于小型数据集,是很好的基准模型,容易理解。

线性模型:适用于非常大的数据集,也是使用于高维数据,非常可靠的首选算法。

朴素贝叶斯:适用于非常大的数据集,也是使用于高维数据,只适用于分类问题,比线性模型速度快,但是比线性模型精度低。

决策树:不需要数据缩放,速度快,可视化效果好,容易解释。

随机森林:不适合高维稀疏的数据集,比单颗决策树的效果好,不需要数据缩放。

梯度提升决策树:精度比随机森林略高,预测速度快,训练速度比随机森林慢,需要调节更多的参数。

支持向量机:适用于特征相似的中等大小的数据集,在这种数据集上的效果很强大,需要数据缩放,需要调节更多参数。

神经网络:可以构建及其复杂的模型,尤其对大型数据集,对数据缩放敏感,需要调节参数。

面对一个新的数据集,通常先从简单的模型(线性模型、朴素贝叶斯、KNN)开始,观察得到的结果,再考虑用更加复杂的模型(随机森林、梯度提升机、SVM、神经网络)。

python机器学习-chapter2_16

原文:https://www.cnblogs.com/bozi/p/12336635.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!