百度技术沙龙 - 广告数据上的大规模机器学习

时间：2014-05-03 21:12:19 阅读：525 评论：0 收藏：0 [点我收藏+]

上个月，参加了百度技术沙龙，夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是，百度的相关算法没有公开的论文。

1. 数据处理

目标：获取信息，去除噪音

机器学习技术点：选择对点击概率分布预估足够多样本

解决方法： a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

算法：a. 百度 SA算法; b. Google (KDD 2013)

2. 特征处理

问题：大量的类型型特征和ont-hot特征导致海量特征

目标：选择尽可能少的特征来表示模型和数据

机器学习技术点：特征选择；特征删减

算法： a. 百度 Fea-G算法 (理论上保证无损)； b. Google (新特征以概率p加入BloomFilter+次数超过n)

3. 深度特征学习

问题：为了描述特征之间的非线性关系，而构造高阶组合特征怎么自动化？人工构造耗时耗力且难于推广

算法：百度 DANOVA算法，能使得特征挖掘效率提升上千倍

bubuko.com,布布扣

4. 模型时效性

问题：模型更新的时候训练数据尽可能少

技术挑战：时效性，稀疏性，稳定性

算法：稀疏在线算法

a. Google 保留前N次模型梯度方法，不够稳

b. 百度 SOA算法

5. 模型训练

问题：怎么寻找更好的优化方向，减少迭代的轮数

算法：百度Shooting算法，相比传统的LBFGS从平均50轮，降低为5轮，训练更充分

参考文献

原文：http://blog.csdn.net/three_body/article/details/24913343

踩

(0)

评论一句话评论（0）

分享档案

更多>