本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式都是出自该书.
本博客仅为个人总结学习,非商业用途,侵删.
网址 http://www.ptpress.com.cn
准确率是指分类正确的样本占总样本个数的比例, 即
其中\(n_{correct}\)为被正确分类的样本个数, \(n_{total}\)为总样本的个数。
准确率存在明显的缺陷,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。
精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正的正样本个数的比例。
Precision值和Recall值是既矛盾又统一的两个指标, 为了提高Precision值, 分类器需要尽量在“更有把握”时才把样本预测为正样本, 但此时往往会因为过于保守而漏掉很多“没有把握”的正样本, 导致Recall值降低。
对于一个排序模型来说, 其P-R曲线上的一个点代表着, 在某一阈值下, 模型大于该阈值的结果判定为正样本,小于该阈值的结果判定为负样本, 此时返回结果对应的召回率和精确率。
如下图:整条P-R曲线是通过将阈值从高到低移动而生成的。
F1_score是精准率和召回率的调和平均值, 它定义为:
当构建回归模型时,无论使用哪个模型,得到的RMSE指标都非常高,但是事实的预测误差都小于1%,预测结果相当不错,造成这种RMSE指标居高不下的可能原因是什么?
RMSE经常被用来衡量回归模型的好坏。下面是RMSR的计算公式:
其中, \(y_i\)是第i个样本点的真实值, 是第i个样本点的预测值, n是样本点的个数 。
一般情况下, RMSE能够很好地反映回归模型预测值与真实值的偏离程度。 但在实际问题中, 如果存在个别偏离程度非常大的离群点( Outlier) 时, 即使离群点数量非常少, 也会让RMSE指标变得很差。
针对这个问题, 有什么解决方案呢 ?
ROC曲线的横坐标为假阳性率(False Positive Rate, FPR) ; 纵坐标为真阳性率(True Positive Rate, TPR)。FPR和TPR的计算方法分别为
上式中, P是真实的正样本的数量, N是真实的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。
?事实上, ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点的,截断点就是指区分正负预测结果的阈值。
?通过动态地调整截断点,从最高的得分开始(实际上是从正无穷开始对应着ROC曲线的零点),逐渐调整到最低得分,每一个截断点都会对应一个FPR和TPR, 在ROC图上绘制出每个截断点对应的位置, 再连接所有点就得到最终的ROC曲线。
?如何计算AUC?
?AUC是指ROC曲线下的面积大小,该值能够量化地反映基于ROC曲线衡量出模型的性能。
?计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方(如果不是的话, 只要把模型预测的概率反转成1-p就可以得到一个更好的分类器,所以AUC的取值一般在0.5~1之间。AUC越大, 说明分类器越可能把真正的正样本排在前面, 分类性能越好 。
?ROC曲线和P-R曲线有什么特点?
?相比P-R曲线, ROC曲线有一个特点, 当正负样本的分布发生变化时, ROC曲线的形状能够基本保持不变, 而P-R曲线的形状一般会发生较剧烈的变化。
在分析两个特征向量之间的相似性时, 常使用余弦相似度来表示。 余弦相似度的取值范围是[-1,1],相同的两个向量之间的相似度为1。 如果希望得到类似于距离的表示, 将1减去余弦相似度即为余弦距离。 因此,余弦距离的取值范围为[0,2], 相同的两个向量余弦距离为0。
欧氏距离体现数值上的绝对差异, 而余弦距离体现方向上的相对差异。
例如, 统计两部剧的用户观看行为, 用户A的观看向量为(0,1), 用户B为(1,0); 此时二者的余弦距离很大, 而欧氏距离很小; 我们分析两个用户对于不同视频的偏好, 更关注相对差异, 显然应当使用余弦距离。 而当我们分析用户活跃度, 以登陆次数(单位: 次)和平均观看时长(单位: 分钟)作为特征时, 余弦距离会认为(1,10)、 (10,100)两个用户距离很近; 但显然这两个用户活跃度是有着极大差异的, 此时我们更关注数值绝对差异, 应当使用欧氏距离 。
为什么需要进行在线A/B测试?
离线评估无法完全消除模型过拟合的影响, 因此, 得出的离线评估结果无法完全替代线上评估结果。
线上系统的某些商业指标在离线评估中无法计算,如用户点击率、 留存时长、 PV访问量等
如何进行A/B测试和划分实验组和对比组?
进行A/B测试的主要手段是进行用户分桶, 即将用户分成实验组和对照组, 对实验组的用户施以新模型, 对对照组的用户施以旧模型。 在分桶的过程中, 要注意样本的独立性和采样方式的无偏性, 确保同一个用户每次只能分到同一个桶中, 在分桶过程中所选取的user_id需要是一个随机数, 这样才能保证桶中的样本是无偏的。
Holdout检验:
Holdout 检验是最简单也是最直接的验证方法, 它将原始的样本集合随机划分成训练集和验证集两部分。
交叉检验:
k-fold交叉验证: 首先将全部样本划分成k个大小相等的样本子集; 依次遍历这k个子集, 每次把当前子集作为验证集, 其余所有子集作为训练集, 进行模型的训练和评估; 最后把k次评估指标的平均值作为最终的评估指标。 在实际实验中, k经常取10
留一验证:每次留下1个样本作为验证集, 其余所有样本作为测试集。 在样本总数较多的情况下, 留一验证法的时间开销极大。 留一验证是留p验证的特例。 留p验证是每次留下p个样本作为验证集, 而从n个元素中选择p个元素有 种可能, 因此它的时间开销更是远远高于留一验证。
自助法:
自助法是基于自助采样法的检验方法。 对于总数为n的样本集合, 进行n次有放回的随机抽样, 得到大小为n的训练集。 n次采样过程中, 有的样本会被重复采样, 有的样本没有被抽出过, 将这些没有被抽出的样本作为验证集, 进行模型验证, 这就是自助法的验证过程 。
在自助法的采样过程中, 对n个样本进行n次自助抽样, 当n趋于无穷大时,最终有多少数据从未被选择过?
一个样本在一次抽样过程中未被抽中的概率为, n次抽样均未抽中的概率为。 当n趋于无穷大时, 概率为。
根据重要极限,,所以有
因此, 当样本数很大时, 大约有36.8%的样本从未被选择过, 可作为验证集。
网格搜索:
通过查找搜索范围内的所有的点来确定最优值 。
网格搜索法一般会先使用较广的搜索范围和较大的步长, 来寻找全局最优值可能的位置; 然后会逐渐缩小搜索范围和步长, 来寻找更精确的最优值。 这种操作方案可以降低所需的时间和计算量, 但由于目标函数一般是非凸的, 所以很可能会错过全局最优值。
随机搜索:
不再测试上界和下界之间的所有值, 而是在搜索范围中随机选取样本点。 它的理论依据是, 如果样本点集足够大, 那么通过随机采样也能大概率地找到全局最优值, 或其近似值。
贝叶斯优化算法 :
网格搜索和随机搜索在测试一个新点时, 会忽略前一个点的信息;而贝叶斯优化算法则充分利用了之前的信息 。贝叶斯优化算法通过对目标函数形状进行学习, 找到使目标函数向全局最优值提升的参数。
具体来说, 它学习目标函数形状的方法是, 首先根据先验分布, 假设一个搜集函数; 然后, 每一次使用新的采样点来测试目标函数时, 利用这个信息来更新目标函数的先验分布; 最后, 算法测试由后验分布给出的全局最值最可能出现的位置的点。
需要注意的地方, 一旦找到了一个局部最优值, 它会在该区域不断采样, 所以很容易陷入局部最优值。 为了弥补这个缺陷, 贝叶斯优化算法会在探索和利用之间找到一个平衡点, “探索”就是在还未取样的区域获取采样点;而“利用”则是根据后验分布在最可能出现全局最值的区域进行采样。
过拟合是指模型对于训练数据拟合呈过当的情况 ,模型在训练集上的表现很好, 但在测试集和新数据上的表现较差。
欠拟合指的是模型在训练和预测时表现都不好的情况。
降低“过拟合”风险的方法 ?
从数据入手, 获得更多的训练数据,更多的样本可以让模型学习到更多的有效特征,减少噪声的影响。直接增加实验数据比较困难,可以通过数据增强的方式扩充。
降低模型复杂度。 在数据较少时, 模型过于复杂是产生过拟合的主要因素, 适当降低模型复杂度可以避免模型拟合过多的采样噪声。 例如, 在神经网络模型中减少网络层数、 神经元个数等; 在决策树模型中降低树的深度、 进行剪枝等 。
集成学习方法。 集成学习是把多个模型集成在一起, 来降低单一模型的过拟合风险, 如Bagging方法 。
降低“欠拟合”风险的方法 ?
原文:https://www.cnblogs.com/hhhuang/p/12329150.html