python机器学习-chapter2_16

时间：2020-02-20 19:33:41 阅读：69 评论：0 收藏：0 [点我收藏+]

•分类器的不确定度

决策函数(decision_function)：

二分类：返回类型为(n_samples, )，为每个样本返回一个浮点数，这个浮点数的正负号代表了预测的分类，值的大小代表了置信度。

多分类：返回类型为(n_samples, n_classes)，每一列对应每个类别的“确定度分数”，分数越高的类别可能性越大

预测概率(predict_proba)：

二分类：返回类型为(n_samples, 2)，为每个样本返回两个数，第一个数是估计为第一类的概率，第二个数为估计为第二类的概率。

多分类：返回类型为(n_samples, n_classes)，每一列对应每个类别的预测概率，预测概率值越大的类别可能性越大。

•监督学习总结

KNN：适用于小型数据集，是很好的基准模型，容易理解。

线性模型：适用于非常大的数据集，也是使用于高维数据，非常可靠的首选算法。

朴素贝叶斯：适用于非常大的数据集，也是使用于高维数据，只适用于分类问题，比线性模型速度快，但是比线性模型精度低。

决策树：不需要数据缩放，速度快，可视化效果好，容易解释。

随机森林：不适合高维稀疏的数据集，比单颗决策树的效果好，不需要数据缩放。

梯度提升决策树：精度比随机森林略高，预测速度快，训练速度比随机森林慢，需要调节更多的参数。

支持向量机：适用于特征相似的中等大小的数据集，在这种数据集上的效果很强大，需要数据缩放，需要调节更多参数。

神经网络：可以构建及其复杂的模型，尤其对大型数据集，对数据缩放敏感，需要调节参数。

面对一个新的数据集，通常先从简单的模型（线性模型、朴素贝叶斯、KNN）开始，观察得到的结果，再考虑用更加复杂的模型（随机森林、梯度提升机、SVM、神经网络）。

原文：https://www.cnblogs.com/bozi/p/12336635.html

踩

(0)

评论一句话评论（0）

分享档案

更多>