首页 > 其他 > 详细

特征工程

时间:2016-06-29 20:37:43      阅读:199      评论:0      收藏:0      [点我收藏+]

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大)

数据和特征处理

数据清洗

正负样本不平衡的处理方法:上采样,下采样,修改损失函数

数值型特征:幅度调整,归一化,离散化

类别型特征:one-hot 编码

组合特征

文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF

特征选择

原因:冗余,噪声

特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征

特征选择的3种方法:

过滤型

技术分享

 

 包裹型

 技术分享

嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值

 

 技术分享

 

特征工程

原文:http://www.cnblogs.com/wuxiangli/p/5628053.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!