二元逻辑回归(Logistic Regression, LR)模型
几率(odds:
对数形式:
基于LR的点击率预測
Where, x代表一个(query, ad)相应的特征向量, y 属于{1,0}分别代表点击和不点击,p(y=1|x)就代 表给定query下,某ad的点击率
点击率预測特征
广告创意特征:
图片,标题文字,价格,销量
推广商品所属类目,包括属性
创意组,推广计划,广告主
Query信息:包括的Terms-Query分析:类目,属性-Query扩展:同义词,相似query
环境特征: 用户,时间
名义特征: 时间,创意ID等
点击反馈特征 :计算历史上包括该特征的(query, ad)的点击率
ad所属广告计划的历史点击率
组合特征 :query与ad标题匹配的term个数
位置偏差
位置偏差(position bias)
–如果:不同位置上的广告被用户看到的概率不 同,排位靠前的广告被看到的概率更大,导致其点击率“天然”更高一些
解决方式一:
–(Cheng and Cantú-Paz, 2010)
? 计算广告CTR时用不同排位上的平均ctr进行调整
解决方式二:
–Online Learning from Click Data for Sponsored Search. (Ciaramitaet al., 2008)
? 仅仅有当排位低的广告被点击而排位高的广告没有被 点击时,才使用这些广告作为训练数据
个性化
Personalized Click Prediction in Sponsored Search. –HaibinCheng, Erick Cantú-Paz. WSDM. 2010.
? 如果:query同样时,不同user对不同ad的点击率 也相差较大
? 解决方式:添?user特征到LR模型里,预估 p(c|q,a,u)
–Demographic特征
? 如年龄,性别,婚姻状况,职业,兴趣等
–User-specific特征
? 如用户历史CTR,user组合特征(User-Ad, User-Query)
广告间相互影响
Relational Click Prediction for Sponsored Search –ChenyanXiong, TaifengWang, WenkuiDing, YidongShen,
Tie-Yan Liu. WSDM 2012.
? 如果:某条广告的点击率会受到同一时候展现的其它广 告的影响
? 解决方式:同一时候预估全部广告的点击率,考虑广告 间的相互影响
–广告间的相似度
–Continuous CRF model with MLE