•enumerate()用于同时返回索引和对应的值
list1 = ["这", "是", "一个", "测试"] for index, item in enumerate(list1): print index, item >>> 0 这 1 是 2 一个 3 测试
numpy.ravel()用于拉平数组
n = [[1, 2, 3], [4, 5, 6]] n.ravel() >>>[1, 2, 3, 4, 5, 6]
•随机森林:随机森林构造很多决策树,每棵树和其他树都略有不同,,但以不同的方式过拟合,对这些树的结果取平均值来降低过拟合
随机森林中的随机化:①选择用于构造树的数据点(自助采样)②选择每次划分测试的特征
随机森林的重要参数:
♠n_estimators:森林中决策树的个数,越大越好
♠max_fearures:结点选择特征时,特征子集的大小。决定每棵树的随机性大小。
♠n_jobs:训练随机森林时所使用的CPU内核数,如n_job = -1,即使用所有内核
优点:
♠不需要反复调节参数就可以得到很好地结果
♠不需要对数据进行缩放
缺点:
♠可视化效果不好
♠对维度非常高的稀疏数据(例如文本数据),表现不好
原文:https://www.cnblogs.com/bozi/p/12292285.html