首页 > 其他 > 详细

百度技术沙龙 - 广告数据上的大规模机器学习

时间:2014-05-03 21:12:19      阅读:517      评论:0      收藏:0      [点我收藏+]


上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。


1.  数据处理

    目标: 获取信息, 去除噪音

    机器学习技术点: 选择对点击概率分布 预估足够多样本

    解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

    算法:a. 百度 SA算法; b. Google (KDD 2013) 


2. 特征处理

    问题:大量的类型型特征和ont-hot特征导致海量特征

    目标: 选择尽可能少的特征来表示模型和数据

    机器学习技术点: 特征选择; 特征删减

    算法: a. 百度 Fea-G算法 (理论上保证无损); b. Google (新特征以概率p加入BloomFilter+次数超过n)


3. 深度特征学习

    问题: 为了描述特征之间的非线性关系,而构造高阶组合特征怎么自动化?人工构造耗时耗力且难于推广

    算法:百度 DANOVA算法, 能使得特征挖掘效率提升上千倍

        bubuko.com,布布扣


4. 模型时效性

    问题: 模型更新的时候训练数据尽可能少

    技术挑战:时效性,稀疏性, 稳定性

    算法: 稀疏在线算法

        a. Google 保留前N次模型梯度方法, 不够稳

        b. 百度 SOA算法


5. 模型训练

    问题: 怎么寻找更好的优化方向,减少迭代的轮数

    算法: 百度Shooting算法,相比传统的LBFGS从平均50轮,降低为5轮,训练更充分


参考文献

1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)

2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)
    



百度技术沙龙 - 广告数据上的大规模机器学习,布布扣,bubuko.com

百度技术沙龙 - 广告数据上的大规模机器学习

原文:http://blog.csdn.net/three_body/article/details/24913343

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!