上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。
1. 数据处理
目标: 获取信息, 去除噪音
机器学习技术点: 选择对点击概率分布 预估足够多样本
解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测
算法:a. 百度 SA算法; b. Google (KDD 2013)
2. 特征处理
问题:大量的类型型特征和ont-hot特征导致海量特征
目标: 选择尽可能少的特征来表示模型和数据
机器学习技术点: 特征选择; 特征删减
算法: a. 百度 Fea-G算法 (理论上保证无损); b. Google (新特征以概率p加入BloomFilter+次数超过n)
3. 深度特征学习
问题: 为了描述特征之间的非线性关系,而构造高阶组合特征怎么自动化?人工构造耗时耗力且难于推广
算法:百度 DANOVA算法, 能使得特征挖掘效率提升上千倍
4. 模型时效性
问题: 模型更新的时候训练数据尽可能少
技术挑战:时效性,稀疏性, 稳定性
算法: 稀疏在线算法
a. Google 保留前N次模型梯度方法, 不够稳
b. 百度 SOA算法
5. 模型训练
问题: 怎么寻找更好的优化方向,减少迭代的轮数
算法: 百度Shooting算法,相比传统的LBFGS从平均50轮,降低为5轮,训练更充分
参考文献
1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)
2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)
百度技术沙龙 - 广告数据上的大规模机器学习,布布扣,bubuko.com
原文:http://blog.csdn.net/three_body/article/details/24913343