用户标签和标签的数学描述:
标签是特征空间中的纬度
每个标签都是特征空间中的基向量,基向量之间有关联,不一定是正交的
用户画像是特征空间中的高维向量
特征工程:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
特征:对所需解决问题有用的属性
特征的提取、选择和构造
针对锁解决的问题选择最有用的特征集合
通过相关系数等方式来计算特征的重要性
人工筛选,有些算法输出特性:Random Forest维度过多,PCA自动降维
算法和模型:
LR:只要认为问题时线性可分的,就可采用LR
模型比较抗噪,而且可以通过L1,L2范数来做参数选择
效率高,可以应用于数据特别大的场景
很容易分布式实现
Ensemble方法:
根据训练集训练多个分类器,然后综合多个分类器的结果,做出预测
算法和模型评价:
原文:https://www.cnblogs.com/hotMemo/p/11480618.html