机器学习流程

时间：2019-04-11 10:01:53 阅读：173 评论：0 收藏：0 [点我收藏+]

文章来源：

https://blog.csdn.net/han_xiaoyang/article/details/50469334

https://blog.csdn.net/han_xiaoyang/article/details/52910022

1. 常用算法

技术分享图片

（from 七月在线-kaggle竞赛视频）。

2. 流程

技术分享图片

3. 知识点

1. 样本不均衡时，如正负样本10：100，解决办法。

（样本不均衡的坏处，如1：100，把数据都判断为负类，在训练时数据误差很低，但是预测时很不准确）

1）将正样本上采样（正样本重复若干次）

2）损失函数（加大正样本的loss）

3）把负样本分成10分，分别与正样本去训练。如bagging去投票

2. 工具

pandas：数据量大的时候，一个特征维度的去做。

hive sql / spark sql

3. 缺省

缺省很小：填充

缺省很大：舍去

缺省适中：把缺省当作一个特征

4. 数据域

当前数据域分布没有规律，可以变换到log域、指数域----可能数据会呈现一定的规律

时间类数据：间隔、与其他特征组合、离散型、时间段

文本型数据：n-gram、bag of words、TF-IDF、wordvec

统计型特征：min、max、中位数

5. 主要用的两个模块(sklearn) https://scikit-learn.org/stable/index.html

preprocessing 以及 feature_extraction

https://scikit-learn.org/stable/modules/preprocessing.html

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature%20extraction

6. 模型融合

技术分享图片

blending

bagging

技术分享图片

stacking

技术分享图片

使用不同的分类器，产生不同的分类结果。将这些结果作为输入，

技术分享图片

如果使用这些结果的的linear取加权平均。就是blending方法。（没有再sklearn中封装）

boosting

Adaboost: 调样本的权重

xgboost / lightgbm

原文：https://www.cnblogs.com/GuoXinxin/p/10686887.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

机器学习流程

文章来源：

https://blog.csdn.net/han_xiaoyang/article/details/50469334

https://blog.csdn.net/han_xiaoyang/article/details/52910022

1. 常用算法

2. 流程

3. 知识点

1. 样本不均衡时，如正负样本10：100，解决办法。

2. 工具

3. 缺省

4. 数据域

5. 主要用的两个模块(sklearn) https://scikit-learn.org/stable/index.html

6. 模型融合

bagging

stacking

boosting

7. 绘制学习曲线（模型状态评估）

8. xgboost的调参

9. 可视化