首页 > 其他 > 详细

BNP Paribas Cardif Claims Management

时间:2016-03-24 13:08:31      阅读:329      评论:0      收藏:0      [点我收藏+]

2月20日:

  查看任务介绍,二分类问题,评价标准logloss

  下载数据

2月21~27日:

  查看数据组成,标识分类变量、离散变量、连续变量。

  发现连续数据有大量非随机空缺(占总量一半),主要集中在v2相关与v8相关列

  根据空缺相关性,可将feature分为6组:

  g1-v8相关列,g2-v2相关列,g3-与v2v8均不相关的稀疏列,g4-无缺值连续变量,gd-离散变量,gc-分类变量

  标签样本不均衡,约75%的y==1,25%的y==0

 

  查看相关性。

2月28日~3月3日:

  考虑对缺值数据(feature稀疏样本)进行模型,因feature较少,实现将较快。

  对分类变量one-hot赋值。

  尝试logistic、linearSVC(no dual)拟合效果较差,大量标签为预测为1类,几乎不出现0类预测

  尝试kernelSVC,样本数太大,核矩阵过慢

  尝试较浅层Random Forest,同样无法有效辨识类0

  尝试xgb,极简易调参后,对feature稀疏样本4-folds cv约0.450,在lb上表现估计约0.457上下

 

BNP Paribas Cardif Claims Management

原文:http://www.cnblogs.com/catnip/p/5314765.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!