示例:
维度非常高(1000多维度),并且每个维度都很重要,数据量很少,是调查结果,只有近万份,数据是很稀疏的,基本上是连续值。
在这种情况下,如何选择模型?为什么?
1. 尝试用线性分类器,比如SVM、LR等,看训练误差和测试误差的差异,这个时候可能出现多种情况:
1) 如果训练误差远小于测试误差,说明分类器已经过拟合了,考虑如何避免过拟合;
2)如果训练误差与测试误差差不多,但是测试误差太大,说明模型复杂度很可能不够;
3)如果训练误差与测试误差差不多,而且测试误差已经足够小,结束。
针对(1),这个时候产生了严重的过拟合现象,意味着样本的数目不够,一般我们无法补充样本。
降维的目的有二,一个是为了对数据进行可视化,以便对数据进行观察和探索;另外一个目的是简化机器学习模型的训练和预测。
针对(2),可以采用更加复杂的模型,比如带隐变量的模型,比如神经网络,还可选择决策树以及组合类的方法GBDT、随机深林(Random Forest)等,针对不同的情况选择合适的模型之后,观察现在的训练误差和测试误差。
参考:https://blog.csdn.net/rosefun96/article/details/78800869?utm_source=blogxgwz2
原文:https://www.cnblogs.com/zhaopengpeng/p/12255348.html