G06Q40/02 G06Q10/06 G06K9/62
1.一种基于拒绝推断的客户评级方法,其特征在于,包括以下步骤:
步骤1、获取全量用户的数据信息,全量用户数据信息包括申请拒绝用户和申请通过用户的申请数据信息,针对申请通过用户的贷后表现数据,采用滚动率分析和vintage分析,确定违约目标变量的好坏定义以及成熟的表现期时长,在确定的表现期内有用信且最长逾期N天及以上的为坏客户,表现期内有用信且从未出现逾期的客户为好客户;
步骤2、结合现有申请通过用户贷后数据规模及样本时效性,选取MOB3内最大逾期30天及以上客户为坏客户,即label1标记为1,MOB3内未逾期客户为好客户,即标记label1为0,其中MOB3为放款日至第四个完整月份;同时考虑申请拒绝通过用户,定义另外一套好坏标签定义:申请通过用户定义为好,即label2标记为1,申请拒绝用户定义为坏,即label2标记为0,其中label2的值代表了全量用户的无偏估计,即全量用户的申请通过拒绝标记;
步骤3、获取步骤2中确定的用户标记样本,匹配提取用户的相关三方征信数据、贷款机构内部数据以及步骤1中的用户的申请数据信息,并进行数据预处理得到可直接入模的相关变量;
步骤4、利用步骤2中定义的label2标签及步骤3中的预处理后的入模相关变量,对全量用户建立申请通过概率模型,得出全量用户的申请通过概率Pt;
步骤5、利用步骤2中定义的label1标签及步骤3中的预处理后的入模相关变量,对申请通过用户建立初始违约概率预测模型,并对全量用户预测违约概率Pw;
步骤6、对每一个用户,采用向量(Piw,Pit)进行表示,其中Piw表示第i个用户的违约概率、Pit表示第i个用户的申请通过概率,借用KNN算法思想,采用欧式距离计算每一个拒绝用户的向量与最近的n个通过用户的向量间的距离,采用投票的方式推断拒绝用户的违约标签类别:若距离最近的n个通过用户中,label1取0的用户大于取1的用户,则拒绝用户label1取值为0;反之,若距离最终的n个通过用户中,label1取0的用户小于取1的用户,则拒绝用户label1取值为1,最终完成所有拒绝用户的label1标签确认,并加入到申请通过用户中,即获得全量用户的违约标签label1;
步骤7、基于步骤6得到的全量用户的违约标签label1目标变量和步骤3中的预处理数据变量,训练最终的风险评估模型;
步骤8、利用训练完成的最终风险评估模型,对新进件的申请者的违约概率进行计算,得到风险评估结果。
2.根据权利要求1所述的一种基于拒绝推断的客户评级方法,其特征在于,所述预处理包括数据清洗、特征衍生、缺失值填充、特征编码处理步骤,产生可供直接入模的入模相关变量。
3.一种基于拒绝推断的客户评级装置,其特征在于,包括:
样本获取模块,该模块获取匹配近期的申请通过用户和申请拒绝用户的申请数据、金融机构内部数据及三方征信数据,形成用户后续模型分析基础数据,同时获取申请通过用户的贷后表现数据;
样本处理模块,对全量申请用户的申请数据,金融机构内部数据及三方征信数据进行数据清洗、特征衍生、缺失值填充、特征编码处理,形成可供入模直接使用的特征,同时对申请通过用户的贷后表现数据进行vintage和滚动率分析,确定违约坏客户定义:MOB3中最长逾期30天及以上客户为坏客户,label1取值1,MOB3中未逾期过的客户为好客户,label1取值0;定义申请拒绝通过状态,申请通过用户的label2标记为1,申请拒绝用户的label2标记为0,其中MOB3为放款日至第四个完整月份;
拒绝推断模块,利用样本处理模块中加工好的可供入模直接使用的特征以及确定的两类标签label1和label2,分别构建用户违约模型和用户申请通过模型,并对全量样本运用上述两模型预测违约概率Pw和通过概率Pt,形成用户的向量表示(Piw,Pit),推断拒绝用户的违约标签label1,并加入到申请通过用户中,更好的代表申请用户总体;
风险评估模块,该模型利用上述拒绝推断模块中申请通过用户和申请拒绝用户总体进行训练风险评估模型,模型训练完成后,对线上新进件申请用户进行违约概率评估。
4.一种存储介质,其特征在于,所述存储介质存储有一种基于拒绝推断的客户评级的程序,处理器执行所述程序时实现如权利要求1-2任一所述的一种基于拒绝推断的客户评级方法。
本发明涉及信息技术领域,提供了一种基于拒绝推断的客户评级方法、装置及存储介质。
绝大多数金融机构在开发违约评分模型的时候,只能获取申请通过的用户数据作为训练样本进行建模,而申请被拒用户往往由于缺乏贷后表现数据,无法确定违约标签而被排除在训练样本之外。但是往往开发完成的信用评分模型的应用对象缺失全体的信贷申请用户,包括了申请被拒用户及申请通过用户。这样出现了样本偏差问题,最终导致训练模型时,模型参数是有偏的。如何修补申请拒绝用户的贷后表现数据就是困扰了金融机构多年的拒绝推断问题。
经典的拒绝推断方法从广义上分为两大类:数据法(Data methods)和推断法(Inference methods)。数据法为通过不同方式获取拒绝用户的其他贷后表现数据,典型的有1、接受本该拒绝的申请用户并进行标记,以此来获得真实的贷后表现数据;2、同生表现法,通过观察申请被拒用户在其他产品渠道上的贷后表现,在统一统计口径后用作拒绝用户的贷后表现数据,两种方法中,方法1会加大金融机构的损失,方法2中统计口径的统一往往存在难度;推断法通过推测申请拒绝用户和申请通过用户之间的差异,进而通过调整训练样本的组成结构来训练最终的用户评级模型。典型的有1、展开法,2、重新加权法,3、打包法。展开法通过对申请通过样本建模后对拒绝样本进行打分并设定阈值,对于申请拒绝用户,低于阈值为坏客户,高于阈值为好客户;重新加权法通过利用申请通过样本进行建模后对拒绝样本进行打分,并将全量用户的打分进行排序、分箱,计算同一分箱中的申请通过样本权重wi=(accepti+rejecti)/accepti,重新对带权申请通过样本进行建模;打包法通过对申请通过样本进行建模后对拒绝样本进行打分,并对全量样本依据打分排序、分箱,计算申请通过用户每一分箱中的坏用户比例,且设定同一分箱内的申请拒绝用户的坏用户比例是申请通过用户的K倍,并对申请拒绝用户进行抽样形成坏用户加入到训练样本中进行最终的模型训练。推断法在技术层面上主要利用申请通过用户的贷后表现数据推测拒绝用户的贷后表现,未能充分利用全量用户的申请拒绝通过用户状态。
针对现有技术存在的不足,本发明提出了一种基于拒绝推断的客户评级方法、装置及存储介质,同时利用客户逾期表现和被拒情况信息,推测被拒样本的具体表现,解决出现了样本偏差问题,实现对金融机构客总体的无偏估计,为最终实现客户评级提供样本基础。
为了实现上述目的本发明采用以下技术手段:
本发明提供了一种基于拒绝推断的客户评级方法,其特征在于,包括以下步骤:
步骤1、获取全量用户的数据信息,全量用户数据信息包括申请拒绝用户和申请通过用户的申请数据信息,针对申请通过用户的贷后表现数据,采用滚动率分析和vintage分析,确定违约目标变量的好坏定义(即申请通过用户逾期多少天为好,多少天为坏的标准)以及成熟的表现期时长(即用户体充分暴露贷后逾期表现的日期时长),在确定的表现期内有用信且最长逾期N天及以上的为坏客户,表现期内有用信且从未出现逾期的客户为好客户;
步骤2、结合现有申请通过用户贷后数据规模及样本时效性,选取MOB3内最大逾期30天及以上客户为坏客户,即label1标记为1,MOB3内未逾期客户为好客户,即标记label1为0,其中MOB3为放款日至第四个完整月份;同时考虑申请拒绝通过用户,定义另外一套好坏标签定义:申请通过用户定义为好,即label2标记为1,申请拒绝用户定义为坏,即label2标记为0,其中label2的值代表了全量用户的无偏估计,即全量用户的申请通过拒绝标记;
步骤3、获取步骤2中确定的用户标记样本,匹配提取用户的相关三方征信数据、贷款机构内部数据以及步骤1中的用户的申请数据信息,并进行数据预处理得到可直接入模的相关变量;
步骤4、利用步骤2中定义的label2标签及步骤3中的预处理后的入模相关变量,对全量用户建立申请通过概率模型,得出全量用户的申请通过概率Pt;
步骤5、利用步骤2中定义的label1标签及步骤3中的预处理后的入模相关变量,对申请通过用户建立初始违约概率预测模型,并对全量用户(申请通过和拒绝用户)预测违约概率Pw;
步骤6、对每一个用户,采用向量(Piw,Pit)进行表示,其中Piw表示第i个用户的违约概率、Pit表示第i个用户的申请通过概率,借用KNN算法思想,采用欧式距离计算每一个拒绝用户的向量与最近的n个通过用户的向量间的距离,采用投票的方式推断拒绝用户的违约标签类别:若距离最近的n个通过用户中,label1取0的用户大于取1的用户,则拒绝用户label1取值为0;反之,若距离最终的n个通过用户中,label1取0的用户小于取1的用户,则拒绝用户label1取值为1,最终完成所有拒绝用户的label1标签确认,并加入到申请通过用户中,即获得全量用户的违约标签label1;
步骤7、基于步骤6得到的全量用户的违约标签label1目标变量和步骤3中的预处理数据变量,训练最终的风险评估模型;
步骤8、利用训练完成的最终风险评估模型,对新进件的申请者的违约概率进行计算,得到风险评估结果。
上述技术方案中,包括数据清洗、特征衍生、缺失值填充、特征编码处理步骤,产生可供直接入模的入模相关变量。
本发明还提供了一种基于拒绝推断的客户评级装置,包括:
样本获取模块,该模块获取匹配近期的申请通过用户和申请拒绝用户的申请数据、金融机构内部数据及三方征信数据,形成用户后续模型分析基础数据,同时获取申请通过用户的贷后表现数据;
样本处理模块,对全量申请用户的申请数据,金融机构内部数据及三方征信数据进行数据清洗、特征衍生、缺失值填充、特征编码处理,形成可供入模直接使用的特征,同时对申请通过用户的贷后表现数据进行vintage和滚动率分析,确定违约坏客户定义:MOB3中最长逾期30天及以上客户为坏客户,label1取值1,MOB3中未逾期过的客户为好客户,label1取值0;定义申请拒绝通过状态,申请通过用户的label2标记为1,申请拒绝用户的label2标记为0,其中MOB3为放款日至第四个完整月份;
拒绝推断模块,利用样本处理模块中加工好的可供入模直接使用的特征以及确定的两类标签label1和label2,分别构建用户违约模型和用户申请通过模型,并对全量样本运用上述两模型预测违约概率Pw和通过概率Pt,形成用户的向量表示(Piw,Pit),推断拒绝用户的违约标签label1,并加入到申请通过用户中,更好的代表申请用户总体;
风险评估模块,该模型利用上述拒绝推断模块中申请通过用户和申请拒绝用户总体进行训练风险评估模型,模型训练完成后,对线上新进件申请用户进行违约概率评估。
本发明还提供了一种存储介质,所述存储介质存储有一种基于拒绝推断的客户评级的程序,处理器执行所述程序时实现如权利要求1-2任一所述的一种基于拒绝推断的客户评级方法。因为本发明采用上述技术方案,因此具备以下有益效果:
本发明提出的基于拒绝推断的客户评级方法、装置及存储介质,利用到了更多的数据信息,不仅考虑到申请用户申请通过的用户贷后表现数据,还通过利用申请通过用户违约逾期以及全量用户申请拒绝通过状态分别建模,综合推断拒绝用户的贷后违约标签,最终融合拒绝用户和通过用户样本组成训练样本,训练最终的用户评级模型,使最终的模型具有更好的稳定性。同时由于训练样本中不仅包含了申请通过数据还包含了申请拒绝用户数据,极大的丰富训练样本,且训练样本更能代表总体申请客户分布,最终使得用户评级模型的违约检测效果更好,鲁棒性更强。
图1为本发明提出的基于拒绝推断的客户评级方法示意图。
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明提出一种基于拒绝推断的客户评级方法,其中拒绝推断是利用全量申请用户通过和拒绝的状态以及申请通过后的用户已有的贷后表现数据来分别建立模型,然后利用KNN思想推断拒绝用户的违约逾期标签,之后利用推断的拒绝用户违约逾期标签和申请通过的用户真实的违约逾期标签构建违约风险模型,降低仅使用申请通过用户样本造成的样本偏差对模型效果和稳定性的影响。本发明提出的基于拒绝推断的客户评级方法,旨在更充分的利用样本提供的信息,缓解由于拒绝样本没有贷后表现引起的样本偏差问题,提高模型的线上效果和稳定性,更好的评估用户违约逾期风险。
提出一种基于拒绝推断的客户评级方法,包括:
步骤1、获取申请拒绝用户和申请通过用户的数据信息,针对申请通过用户的贷后表现数据,采用滚动率分析和vintage分析,确定违约目标变量的好坏定义以及成熟的表现期时长。在确定的表现期内有用信且最长逾期N天及以上的为坏客户,表现期内有用信且从未出现逾期的客户为好用户;
步骤2、结合现有申请通过用户贷后数据规模及样本时效性,选取MOB3内最大逾期30天及以上客户为坏客户,标记label1为1,MOB3内未逾期客户为好客户,标记label1为0。同时考虑申请拒绝通过,定义另外一套好坏标签定义:申请通过用户的label2标记为1,申请拒绝用户的label2标记为0,其中label2代表了全量用户的无偏估计;
步骤3、获取步骤2中确定的样本,匹配提取相关三方征信数据、贷款机构内部数据以及步骤1中的客户申请数据,并进行数据预处理;
步骤4、利用步骤2中定义的label2标签及步骤3中的预处理数据变量,对全量用户建立申请通过概率模型,得出全量用户的申请通过概率Pt;
步骤5、利用步骤2中定义的label1标签及步骤3中的预处理数据变量,对申请通过用户建立初始违约概率预测模型,并对全量用户(申请通过和拒绝用户)预测违约概率Pw;
步骤6、对每一个用户,采用向量(Piw,Pit)进行表示。借用KNN算法思想,采用欧式距离计算每一个拒绝用户距离最近的n个通过用户,采用投票的方式推断拒绝用户的标签类别:若距离最近的n个通过用户中,label1取0的用户大于取1的用户,则拒绝用户label1取值为0;反之,若距离最终的n个通过用户中,label1取0的用户小于取1的用户,则拒绝用户label1取值为1,最终完成所有拒绝用户的label1标签确认,并加入到申请通过用户中;
步骤7、基于步骤6得到的全量label1目标变量和步骤3中的预处理数据变量,训练最终的风险评估模型;
步骤8、利用训练完成的最终风险评估模型,对新进件的申请者的违约概率进行计算,得到风险评估结果;
优选地,上述步骤2中的时效性指:选取距离当前最近的足够接近现有客的申请用户,且该部分申请用户具有充足的表现期MOB3,剔除表现期不够的用户及距离当前太远的用户;
优选地,上述步骤3中的预处理操作包括:数据清洗、特征衍生、缺失值填充、特征编码;
优选地,步骤8中利用逻辑回归信用评分模型作为最终的风险评估模型,融合申请通过样本和步骤6中推断的拒绝样本作为共同的输入,输出为用户的违约概率;
本发明还提过了一种基于拒绝推断的客户评级装置,包括:
样本获取模块,该模块获取匹配近期的申请通过用户和申请拒绝用户的申请数据、金融机构内部数据及三方征信数据,形成用户后续模型分析基础数据,同时获取申请通过用户的贷后表现数据;
样本处理模块,对全量申请用户的申请数据,金融机构内部数据及三方征信数据进行数据清洗、特征衍生、缺失值填充、特征编码处理,形成可供入模直接使用的特征。同时对申请通过用户的贷后表现数据进行vintage和滚动率分析,确定违约坏客户定义:MOB3中最长逾期30天及以上客户为坏客户,label1取值1,MOB3中未逾期过的客户为好客户,label1取值0;定义申请拒绝通过状态,申请通过用户的label2标记为1,申请拒绝用户的label2标记为0;
拒绝推断模块,利用样本处理模块中加工好的可供入模直接使用的特征以及确定的两类标签,label1和label2,分别构建用户违约模型和用户申请通过模型,并对全量样本运用上述两模型预测违约概率Pw和通过概率Pt,形成用户的向量表示(Piw,Pit),推断拒绝用户的违约标签label1,并加入到申请通过用户中,更好的代表申请用户总体;
风险评估模块,该模型利用上述拒绝推断模块中申请通过用户和申请拒绝用户总体进行训练风险评估模型,模型训练完成后,对线上新进件申请用户进行违约概率评估;
优选地,上述样本处理模块,对三方征信数据、金融机构内部数据以及用户申请数据的预处理操作包括:数据清洗、特征衍生、缺失值填充、特征编码;同时选取距离当前最近的足够接近现有客的申请用户,且该部分申请用户具有充足的表现期MOB3,剔除表现期不够的用户及距离当前太远的用户;
优选地,风险评估模块中利用逻辑回归信用评分模型作为最终的风险评估模型,融合申请通过样本和推断的拒绝样本作为共同的输入,输出为用户的违约概率。
本文发布于:2023-04-13 08:47:26,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/85917.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |