信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。 我们主要讨论主体评级模型的开发过程。
在互金公司等各种贷款业务机构中,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。主要有反欺诈评分模型和信用评分卡模型(千元左右的小额短期贷款风控业务的重点工作是信用评分方面),针对已知用户的每个特征进行打分,最后求和与阈值分数对比,以此做出判断,生成的不同变量的不同特征的分数体系即打分卡模型。
信用评分卡:
A卡,Application scorecard。即申请评分卡,用于贷前审批阶段对借款申请人的量化评估;
B卡,Behavior scorecard。即行为评分卡,用于贷后管理,通过借款人的还款及交易行为,结合其他维度的数据预测借款人未来的还款能力和意愿,推测用户是否会逾期;例如用户在某银行贷款后,又去其他多家银行申请了贷款,那可以认为此人资金短缺,可能还不上钱,如果再申请银行贷款,就要慎重放款。
C卡,Collection scorecard。催收评分卡,用于催收管理,在借款人当前还款状态为逾期的情况下,预测未来该笔贷款变为坏账的概率。
三种评分卡使用的时间不同,分别侧重贷前、贷中、贷后(已经逾期之后);另外数据要求不同,A卡一般可做贷款0-1年的信用分析,B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年,C卡则对数据要求更大,需加入催收后客户反应等属性数据。现金贷行业通过率10%至30%,首逾15%至40%,坏帐4%至15%不等,相关指标根据不同时期市场环境和企业风控水平浮动。另外,风控不是风险越低越好,而是要控制在一个合理水平,根据不同风险对客户(额度,期限,费率)进行定价,风险管理是手段,盈利最大化才是目的。
不同的评分卡,对数据的要求和所应用的建模方法会不一样。
总结下风控机审打分模型建立与分析流程:
项目流程
典型的信用评分模型如下图所示。信用风险评级模型的主要开发流程如下:
(1) 数据获取,包括获取存量客户及潜在客户的数据。存量客户是指已经在证券公司开展相关融资类业务的客户,包括个人客户和机构客户;潜在客户是指未来拟在证券公司开展相关融资类业务的客户,主要包括机构客户,这也是解决证券业样本较少的常用方法,这些潜在机构客户包括上市公司、公开发行债券的发债主体、新三板上市公司、区域股权交易中心挂牌公司、非标融资机构等。
(2) 数据预处理,主要工作包括数据清洗、缺失值处理、异常值处理,主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。
(3) 探索性数据分析,该步骤主要是获取样本总体的大概情况,描述样本总体情况的指标主要有直方图、箱形图等。
(4) 变量选择,该步骤主要是通过统计学的方法,筛选出对违约状态影响最显著的指标。主要有单变量特征选择方法和基于机器学习模型的方法 。
(5) 模型开发,该步骤主要包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三部分。
(6) 模型评估,该步骤主要是评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论。
(7) 信用评分,根据逻辑回归的系数和WOE等确定信用评分的方法。将Logistic模型转换为标准评分的形式。
(8) 建立评分系统,根据信用评分方法,建立自动信用评分系统。
数据方面包含借款申请人填写的基本资料,通讯录,通话记录和其他运营商数据,以及在其他第三方平台提供的黑名单和其他借贷平台借贷还款数据,和app抓取的手机数据,有些还包含人行征信,社保公积金工资银行流水等数据,针对不同额度和客群需要用户填写和授权的资料不一样。
收集需要的数据后,通过SQL提取相关变量特征构造建模用的宽表。
主要工作包括数据清洗、缺失值处理、异常值处理,主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。
该步骤主要是获取样本总体的大概情况,描述样本总体情况的指标主要有直方图、箱形图等。
单变量的分布要大致呈正态分布,才能够满足后续分析的条件。多变量之间的相关性要尽可能低。
检查完后切分数据集,将训练数据切分,用于检验
模型方法常见的有逻辑回归和决策树等,在信用评分卡中一般使用逻辑回归作为主要的模型。过程主要包括变量分箱、变量的WOE(证据权重)变换和变量选择(IV值)、逻辑回归估算。
(1)分类数据根据类别进行WOE变换,连续数据要先进行变量分箱再进行WOE变换。
(2)特征处理阶段主要有两个概念:WOE和IV。
WOE(Weight of Evidence)
即证据权重,WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码,需要首先把这个变量进行分箱处理(也叫离散化、分箱等等,说的都是一个意思)。
分组后,对于第i组,WOE的计算公式如下:
其中,pyi是这个组中坏客户(此处风险模型中判别的是好坏客户)占所有样本中所有坏客户的比例,pni是这个组中好客户占样本中所有好客户的比例,#yi是这个组中坏客户的数量,#ni是这个组中好客户的数量,#yT是样本中所有坏客户的数量,#nT是样本中所有好客户的数量。
也就是:woe=ln( (这个组中坏客户的数量/样本中所有坏客户的数量) / (这个组中好客户的数量/样本中所有好客户的数量) )
从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所有好客户的比例”的差异。
对这个公式做一个简单变换,可以得到:
变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中坏客户和好客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本是坏客户的可能性就越大,WOE越小,差异越小,这个分组里的样本是坏客户的可能性就越小。
WOE的基本特点:
a、当前分组中,坏客户的比例越大,WOE值越大;
b、当前分组WOE的正负,由当前分组坏用户和好用户的比例,与样本整体是坏用户和好用户的比例的大小关系决定。当前分组的比例小于样本整体比例时,WOE为负,变量当前取值对判断个体是否是坏用户起到的负向的影响;当前分组的比例大于整体比例时,WOE为正,变量当前取值对判断个体是否是坏用户起到的正向的影响;当前分组的比例和整体比例相等时,WOE为0。
分箱策略:
进行分箱操作时,一般会按每个变量的个数平均分箱,一般设置3~5组,平均分箱之后,为了更好的适应逻辑回归模型,再进一步微调分段范围使woe值尽可能的保持单调性,保持单调性可以使连续数据转化为离散时数据之间能有一定的联系和趋势而不是孤立的几个数据(另外单调从系数的正负上也反映的单变量对结果的影响趋势),当然woe不一定要完全递增或者递减,符合逻辑事实即可。另外对于无法平均分箱的变量,比如说存在一个数值占比很高,可以直接参考woe单调性进行分箱。
IV (Information Value)
信息价值或信息量,用来衡量自变量的预测能力。
在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。挑选入模变量过程需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。其中最主要的衡量标准是变量的预测能力。
通过IV去衡量变量预测能力:假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。其中计算IV值需要先求出WOE值。
IV值,计算公式如下:
原文:https://www.cnblogs.com/cgmcoding/p/13495396.html