RMSE对离群点敏感,MAPE通过对每个样本点的误差进行归一化,降低单个离群点对误差带来的影响
5. PR曲线
策略:将样本为正例的预测概率按照由大到小的进行排列,将每个值逐项设置为阈值,高于阈值为正例,低于阈值为负例。
y: Precision 1->0
x: Recall 0->1
6. ROC曲线及AUC值
策略:与PR曲线一致
y:真阳性率(敏感度)\(TPR = \frac{TP}{TP+FN}\)
x:假阳性率(1-特异性)\(FPR = \frac{FP}{FP+TN}\)
计算AUC可以通过对横轴进行积分即可,[0.5,1]。
敏感度、召回率即为真阳性率,假阴性率为1-敏感度;
特异性为真阴性率,假阳性为1-特异性。
余弦距离不是严格定义的距离(正定性、对称性以及三角不等式),余弦距离不满足三角不等式
8. A/B测试(在机器学习领域中,A/B测试是验证模型最终效果的主要手段)
随机分桶,实验组和对照组在求解目标下的一致性(防止结果被稀释)
9. 模型验证方法
1. Holdout检测法:将数据集随机分成训练集和验证集;
2. 交叉验证:将数据集划分为k个等大小的样本子集,依次遍历k个子集,每次将该子集作为验证集,其余子集作为训练集,进行模型的训练和评估;最后把k次评估指标的平均值作为最终的评估指标;特别地,留一法是将数据集划分为样本总数n个样本子集;
3. 自取法:有放回的进行样本总数n的采样, 将未被采样到的样本作为验证集,将采样到的样本作为训练集。当样本数量为正无穷大时,\((1-\frac{1}{n})^n\)的极限趋近于\(\frac{1}{e}\),即36.8%。
原文:https://www.cnblogs.com/mrdragonma/p/12588849.html