理解二元分类模型和阈值
一个考试看做一个二元分类模型,它的结果只有两个:及格和不及格。阈值是60,是分类模型判断的准备,若高于60则及格,低于阈值则不及格。我们现在有无数场考试,我希望通过考试筛选出合格的人,剔除不合格的人,并且漏筛和错筛人数最少,阈值应设置在多少呢?
每种阈值的设定会得出不同的FPR和TPR,以此研究特定模型的最佳阈值
若要比较不同分类模型的分类效果时需要既定不变的阈值
二、AUC
AUC(Area Under Curve):即ROC曲线与x坐标围成的面积,做为模型优劣的指标
①由于AUC是FPR和TPR两个比率围成的面积,取值一定在[0,1]
②AUC值越大的分类器,正确率越高,AUC在 0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在0.9以上时有较高准确性
AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
原文:https://blog.51cto.com/14215529/2371128