摘要:
内容:
1.平均值
1.1 全局平均值
1.2 用户评分平均值
1.3 物品评分平均值
1.4 用户分类对物品分类的平均值
分类方法:
1.4.1 平均值分类
1.4.2 活跃度/流行度分类
2.基于邻域的方法
2.1 基于用户的协同过滤
2.2 基于物品的协同过滤
相似度计算方法选择:
基于共现矩阵的相似度
余弦相似度
3.隐语义模型与矩阵分解模型
3.1 ALS 矩阵分解模型
4.加入时间因素
1.基于邻域的模型融合时间信息
5.模型融合
1.级联方式
2.加权融合
我的代码:
1.python部分:
2.spark部分:
https://github.com/Tongzhenguo/my_scala_code/blob/master/src/main/scala/person/tzg/scala/ItemBaseCF.scala
数据集来源:
http://www.pkbigdata.com/common/cmpt/猜你喜欢_竞赛信息.html
原文:http://www.cnblogs.com/arachis/p/rating_predict.html