一 数值类型
原因:数值类型可能跨度过大,跨几个数量级,不符合模型的前提条件。拟合出来的模型不够强壮。
1 二值化
2 处理长尾分布数量,有两种思路,一种是对数处理,一种是分箱处理。处理的原因还是因为横跨了若干个数量级,对很多模型都是问题。
3 归一化,处理设计欧式距离的算法,比如KNN,K-means,线性回归等
4交互特征
好像挺牛逼的。代价不菲,需要精心设计。
原文:https://www.cnblogs.com/654321cc/p/13221079.html