G06Q40/02 G06Q20/40
1.一种信用评价方法,其特征在于,包括:
获取用户的信用数据以及用户的申请业务;
根据所述信用数据以及反欺诈规则,对所述用户进行反欺诈行为排查;
若所述用户通过所述欺诈行为排查,则根据所述信用数据以及团伙欺诈模型,对所述用户进行团伙欺诈行为排查;
若所述用户通过所述团伙欺诈行为排查,则根据所述信用数据以及贷前信用评分模型,计算所述用户的贷前信用评分;
若所述用户的贷前信用评分大于或等于所述申请业务对应的预设放款评分阈值,则根据所述申请业务进行放款。
2.根据权利要求1所述的方法,其特征在于,所述根据所述申请业务进行放款之后,所述方法还包括:
在放款存续期内,获取所述用户的行为数据;
根据所述行为数据,评价所述用户的风险等级;
若所述用户的风险等级大于或等于二次营销风险等级,则根据所述信用数据,分析与所述用户适配的二次营销业务。
3.根据权利要求2所述的方法,其特征在于,所述根据所述申请业务进行放款之后,所述方法还包括:
在还款自愈期内,获取所述用户的欠款数据;
根据所述信用数据、所述行为数据以及自愈评分模型,计算所述用户的自愈评分;
根据所述用户的自愈评分以及所述欠款数据,确定所述还款自逾期内对所述用户的还款提示方式;
在还款催收期内,根据所述信用数据、所述行为数据以及催收评分模型,计算所述用户的催收评分;
根据所述用户的催收评分以及所述欠款数据,确定所述还款催收期内对所述用户的还款提示方式。
4.根据权利要求3所述的方法,其特征在于,所述根据所述申请业务进行放款,具体包括:
按照放款额度计算公式,计算对所述用户的最大放款额度,所述放款额度计算公式为
其中,x表示所述用户的贷前信用评分在样本用户的贷前信用评分从低到高排序中对应的分位数,y(x)表示所述用户对应的放款额度,Amean表示平均放款额度,[Amin,Amax]为放款额度区间,
按照利率计算公式,计算所述用户的收款利率,所述利率计算公式为
其中,r表示所述用户对应的收款利率,p表示所述用户的贷前信用评分对应的坏账率,ro=rmean(1-pmean)-pmean,rmean表示平均收款利率,pmean表示平均坏账率;
根据所述用户的最大放款额度、收款利率以及申请业务,进行放款。
5.根据权利要求4所述的方法,其特征在于,按照评分模型建立方法,分别建立所述贷前信用评分模型、所述自愈评分模型以及所述催收评分模型,所述评分模型建立方法包括:
获取所述贷前信用评分模型、所述自愈评分模型以及所述催收评分模型中的任一模型对应的训练样本,其中,当所述任一模型为所述贷前信用评分模型时,所述训练样本包括样本用户的信用数据,当所述任一模型为所述自愈评分模型或所述催收评分模型时,所述训练样本包括所述样本用户的行为数据以及欠款数据;
根据所述训练样本包含的多个特征变量,进行特征变量的衍生,得到新的特征变量;
对所述训练样本对应的所述新的特征变量进行分箱处理;
分别计算每个分箱处理后的特征变量对应的区分能力,根据所述区分能力对所述特征变量进行筛选;
依据筛选后的特征变量训练评分模型。
6.根据权利要求5所述的方法,其特征在于,所述用户的信用数据至少包括所述用户的身份信息、社交信息、地理位置信息、消费信息、借贷行为信息,所述根据所述信用数据以及团伙欺诈模型,对所述用户进行团伙欺诈行为排查,具体包括:
根据所述用户的身份信息、社交信息、地理位置信息、消费信息、借贷行为信息,获取信用数据库中的与所述用户关联的其他用户的信用数据以及信用属性标签;
根据所述用户和所述其他用户的信用数据,分别计算所述用户与每一个所述其他用户的关联度;
根据所述关联度以及所述其他用户的信用属性标签,对所述用户的团伙欺诈行为进行排查。
7.根据权利要求6所述的方法,其特征在于,所述根据所述信用数据以及反欺诈规则,对所述用户进行反欺诈行为排查,具体包括:
获取所述样本用户的信用数据,其中,所述信用数据包括多种;
按照预设最大箱数、预设最小叶节点数以及预设最小叶节点占比,对所述样本用户的信息数据进行决策树分箱处理,得到多个分箱;
计算每个所述分箱的负评率,筛选出所述负评率大于预设负评率的分箱;
根据筛选后的分箱,确定每种所述信用数据对应的反欺诈规则;
分别计算每种所述信用数据对应的反欺诈规则的负评率,并按照所述负评率从大到小的顺序对每种所述信用数据对应的反欺诈规则进行排序;
依次将排序后的反欺诈规则加入反欺诈规则集中,并计算新放入所述反欺诈规则集中的所述反欺诈规则与所述反欺诈规则集中的其他的反欺诈规则之间的相关系数;
若所述相关系数大于预设相关系数,则将新放入所述反欺诈规则集中的所述反欺诈规则删除;
将所述反欺诈规则集中包含的所述反欺诈规则进行两两交叉,并将交叉后的反欺诈规则放入所述反欺诈规则集中;
分别计算所述反欺诈规则集中的每项所述反欺诈规则的负评率,并按照所述负评率确定最终的所述反欺诈规则;
根据最终的所述反欺诈规则对所述用户进行反欺诈行为排查。
8.一种信用评价装置,其特征在于,包括:
第一获取模块,用于获取用户的信用数据以及用户的申请业务;
反欺诈排查模块,用于根据所述信用数据以及反欺诈规则,对所述用户进行反欺诈行为排查;
团伙欺诈排查模块,用于若所述用户通过所述欺诈行为排查,则根据所述信用数据以及团伙欺诈模型,对所述用户进行团伙欺诈行为排查;
贷前信用评分计算模块,用于若所述用户通过所述团伙欺诈行为排查,则根据所述信用数据以及贷前信用评分模型,计算所述用户的贷前信用评分;
放款模块,用于若所述用户的贷前信用评分大于或等于所述申请业务对应的预设放款评分阈值,则根据所述申请业务进行放款。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的信用评价方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的信用评价方法。
本申请涉及信用评价技术领域,尤其是涉及到一种信用评价方法及装置、存储介质、计算机设备。
随着互联网金融的快速发展,以及互联网所沉淀的行为数据呈现爆炸式的增长,依托于海量数据,服务于互联网金融业务的个人信用评估技术便应运而生。这为增加互联网金融的审批效率,加快推进国家普惠金融建设产生了积极助力。
然而目前信贷评估环节中,反欺诈主要针对身份欺诈、信息虚假、历史欺诈、代理人欺诈等欺诈类型,通过身份核实、信息比对、黑名单比对、以及代理人特征分析(监控)等手段进行防控。对于规模性和专业性较强的团伙欺诈行为缺没有进行排查,金融企业一旦遇到会造成极大损失。
有鉴于此,本申请提供了一种信用评价方法及装置、存储介质、计算机设备,有助于提高放款安全性。
根据本申请的一个方面,提供了一种信用评价方法,其特征在于,包括:
获取用户的信用数据以及用户的申请业务;
根据所述信用数据以及反欺诈规则,对所述用户进行反欺诈行为排查;
若所述用户通过所述欺诈行为排查,则根据所述信用数据以及团伙欺诈模型,对所述用户进行团伙欺诈行为排查;
若所述用户通过所述团伙欺诈行为排查,则根据所述信用数据以及贷前信用评分模型,计算所述用户的贷前信用评分;
若所述用户的贷前信用评分大于或等于所述申请业务对应的预设放款评分阈值,则根据所述申请业务进行放款。
根据本申请的另一方面,提供了一种信用评价装置,其特征在于,包括:
第一获取模块,用于获取用户的信用数据以及用户的申请业务;
反欺诈排查模块,用于根据所述信用数据以及反欺诈规则,对所述用户进行反欺诈行为排查;
团伙欺诈排查模块,用于若所述用户通过所述欺诈行为排查,则根据所述信用数据以及团伙欺诈模型,对所述用户进行团伙欺诈行为排查;
贷前信用评分计算模块,用于若所述用户通过所述团伙欺诈行为排查,则根据所述信用数据以及贷前信用评分模型,计算所述用户的贷前信用评分;
放款模块,用于若所述用户的贷前信用评分大于或等于所述申请业务对应的预设放款评分阈值,则根据所述申请业务进行放款。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述信用评价方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述信用评价方法。
借由上述技术方案,本申请提供的一种信用评价方法及装置、存储介质、计算机设备,通过对提交业务申请的用户进行反欺诈行为以及团伙欺诈行为的排查,从而对通过排查的用户进行贷前信用评分,并结合贷前信用评分以及用户申请的业务进行放款。相比于现有技术中主要依靠识别用户的身份欺诈、提供虚假信息、历史欺诈行为等方式筛选服务用户,本申请还通过对规模性和专业性较强的团伙欺诈行为进行排查,进而依据用户的信用评分进行放款,提高了放款安全性,有助于降低坏账率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种信用评价方法的流程示意图;
图2示出了本申请实施例提供的另一种信用评价方法的流程示意图;
图3示出了本申请实施例提供的一种评分模型建立方法的流程示意图;
图4示出了本申请实施例提供的一种信用评价装置的结构示意图;
图5示出了本申请实施例提供的另一种信用评价装置的结构示意图。
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种信用评价方法,如图1所示,该方法包括:
步骤101,获取用户的信用数据以及用户的申请业务。
当用户有业务申请需求时,获取用户的信用数据以及用户的申请业务,用户的信用数据可以包括用户的身份信息、收入证明、资产证明、消费信息、征信信息等等,申请业务可以包括用户提交的贷款额度。
步骤102,根据信用数据以及反欺诈规则,对用户进行反欺诈行为排查。
利用获取的信用数据以及预先制定的反欺诈规则,逐条判断用户的信用数据是否符合反欺诈规则的要求,若满足反欺诈规则的规定,则说明用户不存在个人欺诈行为,若不满足反欺诈规则的规定,则说明用户可能存在欺诈行为,如果对用户放款将存在较高的坏账可能性,因此不应受理用户申请的业务。
步骤103,若用户通过欺诈行为排查,则根据信用数据以及团伙欺诈模型,对用户进行团伙欺诈行为排查。
若满足反欺诈规则的规定通过反欺诈行为排查,则进一步依据用户的信用数据,利用团伙欺诈模型对用户的团伙欺诈行为进行排查。由于团伙欺诈行为具有规模性和专业性,金融企业一旦遇到会造成极大损失,因此对用户进行团伙欺诈行为排查,有助于企业规避坏账等损失。
步骤104,若用户通过团伙欺诈行为排查,则根据信用数据以及贷前信用评分模型,计算用户的贷前信用评分。
如果用户通过了反欺诈行为排查和团伙欺诈行为排查,说明用户不存在个人以及团伙的欺诈行为,则应进一步根据用户的信用数据,利用贷前信用评分模型,对用户的贷前信用评分进行评估。
步骤105,若用户的贷前信用评分大于或等于申请业务对应的预设放款评分阈值,则根据申请业务进行放款。
若经过计算用户的信用评分较高,即大于或等于其所申请业务对应的预设放款评分阈值,说明用户符合贷款申请条件,后续在收款时产生坏账的风险较低,则可以依据用户所申请的业务实现放款。
通过应用本实施例的技术方案,通过对提交业务申请的用户进行反欺诈行为以及团伙欺诈行为的排查,从而对通过排查的用户进行贷前信用评分,并结合贷前信用评分以及用户申请的业务进行放款。相比于现有技术中主要依靠识别用户的身份欺诈、提供虚假信息、历史欺诈行为等方式筛选服务用户,本申请还通过对规模性和专业性较强的团伙欺诈行为进行排查,进而依据用户的信用评分进行放款,提高了放款安全性,有助于降低坏账率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种信用评价方法,如图2所示,该方法包括:
步骤201,获取用户的信用数据以及用户的申请业务。
步骤202,根据信用数据以及反欺诈规则,对用户进行反欺诈行为排查。
获取用户的信用数据以及用户的申请业务后,首先利用用户的信用数据以及预先设定的反欺诈规则,进行反欺诈行为的排查。
需要说明的是,本申请中的反欺诈规则建立方式以及反欺诈行为排查方法主要包括:
步骤2021,获取样本用户的信用数据,其中,信用数据包括多种。
例如,用户的信用数据可以包括用户的身份信息、历史贷款违约信息、司法信息等等。
步骤2022,按照预设最大箱数、预设最小叶节点数以及预设最小叶节点占比,对样本用户的信息数据进行决策树分箱处理,得到多个分箱。
本申请实施例采用分箱方式进行最优特征变量筛选(即信用数据的筛选),首先按照预设最大箱数、预设最小叶节点数以及预设最小叶节点占比,对样本用户的信息数据进行决策树分箱处理。需要说明的是,本申请实施例中最小叶节点数可以根据样本量选取,一般每箱的样本量均大于最小叶节点数,例如样本量在5万以上时最小叶节点数设置为100,或者更大,样本量在5万以下时最小叶节点数设置为50。另外,每个分箱中的样本量占样本总量的比重应大于最小叶节点对应的样本量占非空样本量的比例。
另外,规则的制定一般需要考虑可解释性,参与规则制定的变量很多含有方向性的信息,比如借贷意向中,借贷次数越多,坏样本(坏样本主要指存在坏账行为的样本)的概率越大,为了使最后筛选出的规则符合业务可解释性,可以给变量赋初始方向1或-1,并对分箱数据进行相应处理,从而增强变量的可解释性。
步骤2023,计算每个分箱的负评率,筛选出负评率大于预设负评率的分箱。
分别计算每个分箱的负评率,在本实施例中负评率是指坏样本占全部样本的比例,从全部分箱中筛选出负评率大于预设值的分箱,从而利用筛选出的分箱初步建立单变量规则。另外,除了利用负评率进行筛选,还可以利用最小提升度等其他可以体现分箱质量的内容进行分箱的筛选,在此不做其他举例。需要说明的是本申请中负评率大小可以设置为30%,最小提升度大小可以设置为3。
步骤2024,根据筛选后的分箱,确定每种信用数据对应的反欺诈规则。
对分箱进行筛选后,根据筛选后的分箱,确定与分箱相应的信用数据所对应的单变量的反欺诈规则。具体可以先通过每个分箱确定相应的单变量规则,再判断每个样本与每条单变量规则的命中关系,对单变量规则进行调整。
步骤2025,分别计算每种信用数据对应的反欺诈规则的负评率,并按照负评率从大到小的顺序对每种信用数据对应的反欺诈规则进行排序。
分别计算按照上述得到的单变量反欺诈规则对样本用户进行排查的负评率,本实施例中负评率值按照单变量反欺诈规则判断样本用户中存在欺诈行为的用户数量占全部样本用户的总数量,按照负评率从大到小的顺序对单变量反欺诈规则进行排序。
步骤2026,依次将排序后的反欺诈规则加入反欺诈规则集中,并计算新放入反欺诈规则集中的反欺诈规则与反欺诈规则集中的其他的反欺诈规则之间的相关系数。
为了避免利用相关性较高的变量建立过多的规则浪费反欺诈行为排查时间,增加排查工作量,本申请实施例需要对上述的单变量反欺诈规则进行消除相关性处理。建立反欺诈规则集,这里的反欺诈规则集用于存储互相之间相关性较低的规则,具体来说,依次将排序后的反欺诈规则加入反欺诈规则集中,并且在每次新加入一条规则时,都计算这条新加入的规则与规则集中其他的反欺诈规则之间的相关系数,从而建立反欺诈规则集。
步骤2027,若相关系数大于预设相关系数,则将新放入反欺诈规则集中的反欺诈规则删除。
对于相关系数大于预设相关系数(例如0.8)的情况,应将新加入的规则删除,例如新加入的规则为a,规则集中的规则b与a之间的相关系数为0.9,则将规则a删除。
步骤2028,将反欺诈规则集中包含的反欺诈规则进行两两交叉,并将交叉后的反欺诈规则放入反欺诈规则集中。
在规则建立中,有时将利用两个变量共同建立规则的效果要比单独利用两个变量建立两条规则的效果好,因此,本申请实施例对反欺诈规则集中的任意两条规则进行交叉。
步骤2029,分别计算反欺诈规则集中的每项反欺诈规则的负评率,并按照负评率确定最终的反欺诈规则。
再利用反欺诈规则集中的每条规则的负评率对最终的反欺诈规则进行筛选,具体来说,将规则集中的规则按照负评率降序排列,并依次放入有效规则集中,放入有效规则集中的规则需满足,使有效规则集命中的坏样本数量大于预设坏样本数量,其中,预设坏样本数量与有效规则集中的规则数量有关,例如设置坏样本最小增量为10。最终,有效规则集中的规则即为最终确定的反欺诈规则。
步骤2020,根据最终的反欺诈规则对用户进行反欺诈行为排查。
利用上述步骤2021至步骤2029建立反欺诈规则后,依据最终确定的反欺诈规则对用户进行反欺诈行为排查。
步骤203,若用户通过欺诈行为排查,则根据信用数据以及团伙欺诈模型,对用户进行团伙欺诈行为排查。
在本申请实施例中,团伙欺诈行为排查的步骤包括:
步骤2031,根据用户的身份信息、社交信息、地理位置信息、消费信息、借贷行为信息,获取信用数据库中的与用户关联的其他用户的信用数据以及信用属性标签;
步骤2032,根据用户和其他用户的信用数据,分别计算用户与每一个其他用户的关联度;
步骤2033,根据关联度以及其他用户的信用属性标签,对用户的团伙欺诈行为进行排查。
传统的反欺诈主要针对身份欺诈、信息虚假、历史欺诈、代理人欺诈等欺诈类型,通过身份核实、信息比对、黑名单比对、以及代理人特征分析(监控)等手段进行有效防控,但针对隐性的团伙欺诈行为,难有有效手段进行防范。而另一方面,团伙欺诈由于具有规模性和专业性,金融公司一旦遇上,损失极大。因此,本申请实施例对团伙欺诈行为进行排查。
本实施例通过包括身份信息、社交信息、地理位置信息、消费信息、借贷行为信息等海量、多维数据,发现用户与数据库中的其他用户之间的关联,并进一步计算用户与上述的关联用户之间的关联度,即用户之间的关联强弱,从而依据关联度以及关联用户的信用属性标签确定业务申请用户是否存在团伙欺诈行为。
步骤204,若用户通过团伙欺诈行为排查,则根据信用数据以及贷前信用评分模型,计算用户的贷前信用评分。
需要说明的是,本申请实施例中的贷前信用评分模型以及下文中提及的自愈评分模型和催收评分模型,均采用下述方法建立,如图3所示,该方法包括:
步骤301,获取贷前信用评分模型、自愈评分模型以及催收评分模型中的任一模型对应的训练样本,其中,当任一模型为贷前信用评分模型时,训练样本包括样本用户的信用数据,当任一模型为自愈评分模型或催收评分模型时,训练样本包括样本用户的行为数据以及欠款数据。
获取每个模型对应的训练样本,例如,贷前信用评分模型对应的训练样本包括样本用户的多项信用数据,将信用数据作为模型训练所需的特征变量。模型建立的目的是根据用户贷前信用评分在用户样本上的分布情况确定最优的通过拒绝阈值点及对应的通过率和通过坏账率。
步骤302,根据训练样本包含的多个特征变量,进行特征变量的衍生,得到新的特征变量。
模型训练所用的数据质量将直接影响到模型的训练效果,因此,本申请实施例需要对训练样本中包含的多个特征变量进行一定处理,以使生成的特征变量能够提升模型训练效果。
首先,对特征进行衍生处理,除基础的特征衍生方法,如频次汇总、数值加和、平均值、一致性、标准差、变异系数等,以及通过决策树、线性拟合等方法做交叉衍生变量外,还可以集成使用xgboost、神经网络和AutoEncoder(自动编码器)等算法,构造更多维度更强效果的衍生变量。特征变量衍生方法举例如下:
1)决策树:使用决策树的非根节点进行变量的交叉衍生时,一般要考虑业务解释性,有利于生成区分效果强、分箱维度更多的变量;
2)Xgboost:可针对某一类变量(或某几类单个变量效果不明显的变量),使用xgboost生成预测能力更强的综合变量(利用Xgboost的中间结果);
3)神经网络:神经网络算法除了可以有效地用于分类问题的模型训练外,通过精心设计其输入变量以及隐藏层参数,可以使得隐藏层的节点成为有效的复合特征。
4)Autoencoder:自动编码器通过将深度网络设置为恒等映射,即使得输出值与输入值相等,然后通过反向传播等算法,计算出中间各个隐藏层节点间的映射关系。由于隐藏层节点的数量一般设置为较输入变量更少,因而最终可以实现在变量降维的同时挖掘出有效特征的目标。
步骤303,对训练样本对应的新的特征变量进行分箱处理。
变量分箱最主要的目的是使得变量的稳定性增强,并从单变量维度减少模型过拟合的风险,同时离散化处理后可以通过特征交叉为模型引入非线性,提升模型表达能力。除了常见的等高、等宽分箱方法之外,还可以采用有监督最优分箱方法,例如:
1)卡方分箱:通过计算相邻分箱间的卡方值,优先合并卡方值小的两箱,如此往复直至终止条件满足;
2)决策树分箱、随机森林分箱、Xgboost分箱:由于树模型在生长时会参照一定的标准(信息熵、Gini不纯度、或损失函数等),已含有与模型目标相关的一些信息,故此类方法主要利用树模型的中间结果,寻变量的合理分箱阈值。相比常用于单变量分箱的决策树分箱,后两者通常可对大量变量进行同时分箱。
3)WOE/IV分箱:每一步寻使得变量IV值最大的合并或分裂临界点,如此循环直至满足终止条件。
上述分箱方法适用于连续性变量,对于Ordinal变量,一般可以映射到自然数序列后采用类似连续性变量的分箱方法进行处理。对于Nominal变量,则可以考虑使用WOE编码后进行分箱或者采用one-hot编码省去分箱的烦恼。
步骤304,分别计算每个分箱处理后的特征变量对应的区分能力,根据区分能力对特征变量进行筛选。
特征筛选即实现特征变量降维,减少模型过拟合风险的同时,提高模型稳定性及模型训练效率。
特征筛选的方法非常多,主要是依据每个特征变量对评分的影响力来进行筛选,即特征变量的区分能力,这里集成了常见方法如单变量特征选择(如Pearson相关系数、IV、基尼方差等)、变量重要性排序(如XGBoost、Random Forest算法的结果等)、正则化(如L1正则/Lasso)、变量聚类等。活着对这些方法进行创新的组合、交叉使用。特征筛选方式可以如下:
1)IV(Information Value):变量信息值用来衡量变量在好坏样本上的区分能力:
其中,DistributionBad表示某个区间i内的坏样本数占所有坏样本数的比例,DistributionGood表示某个区间i内的好样本数占所有好样本数的比例。IV值综合的反映出好坏分布在该变量上的差异,IV值越高差异越大,该变量对于好坏的区分能力就越强;
2)Feature Importance:变量重要性(feature importance)排序,XGBoost与Random Forest算法都可以输出变量的feature importance,可以作为筛选变量的依据;
3)Lasso(least absolute shrinkage and selection operator):简单来讲,LASSO是在广义线性模型中加入了L1正则项,由于正则项非零,这就迫使那些弱的特征所对应的系数变成0。正则项的存在使得广义线性模型可以有效避免过拟合,而L1范数在正则项中的使用使得LASSO可以起到变量筛选的作用。
4)变量聚类:将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。变量聚类后,从各类中选择代表特征的思路可以参考预设的专家意见库、该特征对其所在类的代表性或与被解释变量的相关性等。
5)以BIC或RMSE为优化目标,将变量逐一从变量池中剔除进行建模(考虑到计算效率,使用弱分类器即可),直至优化目标取到最值。
步骤305,依据筛选后的特征变量训练评分模型。
在模型训练环节,本申请实施例可以采用朴素贝叶斯、支持向量机,逻辑回归(评分卡),随机森林,XGBoost,LightGBM以及神经网络等传统和先进的算法。并且,为了进一步提升模型的效果及稳定性,训练过程中也会引入Stacking技术,即对由上述分类器输出的结果进行再次的融合从而得到最终的预测标签,融合方式可以套用简单分类器实现。
在模型训练的调参环节(对于含有超参数的模型),使用GridSearch(网格搜索)等技术,可以实现自动调参的功能。模型生成后需要经过验证并通过后才可部署上线供生产调用。通过K-S(模型区分度指标)值、GINI(基尼系数)、AUC统计量(ROC曲线下的面积)、PSI等模型检验指标对模型总体预测性、稳定性进行验证。其中,常用的K-S指标是好客户分数分布累计百分比与坏客户分数分布累计百分比之差的最大值。K-S指标越高,表明好客户和坏客户之间的距离越大,模型的区分能力越强。PSI(Population Stability Index)用来衡量模型在不同样本上表现的稳定性。一般认为PSI小于0.1时模型稳定性很高;若PSI介于0.1-0.25之间时则表明模型虽然可用但稳定性需要持续关注;若PSI大于0.25则说明模型稳定性较差,需要择机对模型进行重建。
另外,模型建立后还可以对模型进行优化,例如通过半监督学习模型优化方法可以用于对失准(或失稳)模型的优化校正,优化后的模型可应用于拒件精准捞回等对模型精度要求较高的场景,或者也可以用于业务初期样本表现期不足无法建立有监督信用评估模型的场景(y标签不足)。通过挖掘现有信用评分和数据产品的价值,融合无监督聚类算法和多种基础的有监督分类算法,先实现对小样本打标后采用半监督学习机制迭代训练,进而对全样本进行分类。基于分类结果建立精准有效的信用评估模型。
1)数据预处理:缺失值填充,类别特征数值转换,特征归一化;
2)降维:通过主成分分析(PCA),取解释方差占比80%左右的主成分变量作为后续模型训练的特征,在保留信息量的前提下实现有效将维;
3)小样本精准打标:百融信用评分具有一定的好坏区分能力。取评分较低(风险较高)的一小部分样本,作为坏样本集,通过多次KMeans聚类(k=2)迭代,每次迭代取评分水平较低的样本集为打标坏样本集,同理对部分样本打标成好样本集,作为半监督学习的打标样本集;
4)迭代标记:基于已打标的样本集,采用逻辑回归和决策树模型双模型的学习机制,不断迭代,每次迭代通过逻辑回归和决策树共同确定可打标样本集,直至所有样本打标。
5)Boosting:当含有少量带真实标签的样本时,在迭代标记之后通过全量打标样本开发整体模型。之后可以引入Boosting方法,对人工打标错误的样本提高权重进行上述模型的迭代优化,每步优化产生新的弱分类器,最终输出的模型为所有弱分类器的加权,权重与每个弱分类器在带真实标签样本上的错误率挂钩。
需要说明的是,本申请中的上述评分模型建立方法不限于对贷前信用评分模型、自愈评分模型以及催收评分模型的建立工作,还可以适用于贷中阶段的风险预警、以及二次营销意向确定等其他用途。
步骤205,若用户的贷前信用评分大于或等于申请业务对应的预设放款评分阈值,则根据申请业务进行放款。
另外,在放款之前,需要评估用户的最大放款额度以及收款利率,具体步骤包括:
步骤2051,按照放款额度计算公式,计算对用户的最大放款额度,放款额度计算公式为
其中,x表示用户的贷前信用评分在样本用户的贷前信用评分从低到高排序中对应的分位数,y(x)表示用户对应的放款额度,Amean表示平均放款额度,[Amin,Amax]为放款额度区间,
基于大量金融客户的历史样本分析,在同样的信用风险水平下,一定区间内额度的高低并没有明显的风险区别,也就是说,申请人是否会违约,主要与其风险水平有关,而与其额度并无明显关系。基于这一理论,企业认为针对风险低的客户,尽可能给予高额度;针对风险高的客户,尽可能给予低额度,能有效提升已放款金额的收益率。因此,为实现风险差异化、金额坏账率低于人口坏账率、件均投放额度不变的目标,给定件均额度Amean,额度区间[Amin,Amax]。另外,本申请上述额度计算公式为基于线性函数建立的,还可以基于指数函数、幂函数等建立相应的额度计算公式,其他方式在此不做具体说明。
另外,在上述公式基础上,可从叠加其他维度的考量。如:客户的收入水平,从个人负债比的角度,对个人负债比较低的客户提高额度,相反降低额度;分期偏好水平,从盈利的角度,对分期偏好高的客户相对提高额度,相反降低额度;消费水平,从客户需求的角度,对消费能力旺盛的客户相对提高额度,相反降低额度等。
步骤2052,按照利率计算公式,计算用户的收款利率,利率计算公式为
其中,r表示用户对应的收款利率,p表示用户的贷前信用评分对应的坏账率,ro=rmean(1-pmean)-pmean,rmean表示平均收款利率,pmean表示平均坏账率。
具体来说,针对优质客户(低风险客户),给予更优惠的利率,提升优质客户体验;针对次级客户(高风险客户),给出更高的利率水平,以便覆盖可能出现的的坏账风险。
另外,考虑到信用评分高的客户为市场喜欢的客,可选择的产品多,可能对于价格的敏感性高,反之,信用评分高的客户对于价格的敏感性低。据此,可以调整上述公式为:β(p)可以为客户对应的调整系数。
步骤2053,根据用户的最大放款额度、收款利率以及申请业务,进行放款。
计算最大放款额度和收款利率后,结合用户的申请业务,在最大放款额度范围内向用户放款,另外,生成对应的收款金额和收款时间。
步骤206,在放款存续期内,获取用户的行为数据。
向用户放款后,在贷中阶段,还可以根据用户的行为数据对优质用户进行二次营销。
步骤207,根据行为数据,评价用户的风险等级。
根据用户的行为数据,对用户的风险等级进行评价,例如将用户的风险从低到高分为A、B、C、D四个等级,对于A级和B级的用户进一步的价值挖掘,另外,对于C级和D级的用户可以提前进行风险预警提示。
步骤208,若用户的风险等级大于或等于二次营销风险等级,则根据信用数据,分析与用户适配的二次营销业务。
价值挖掘主要依据用户的收入、资产等数据来判断其经济实力档次,并进一步的根据用户的经济实力档次以及用户的其他信息分析对用户的二次营销产品,对用户的在网状态进行核实后,将在网用户确定为二次营销的目标用户,从而针对二次营销产品结合用户信用数据等信息计算二次营销产品的放款额度和收款利率,进而触达客户,若用户接收产品则可以向用户二次放款。另外,如果用户不接受二次营销产品则可以具体了解用户的拒绝原因,从而为后续二次营销产品的制定进行调整。
步骤209,在还款自愈期内,获取用户的欠款数据。
步骤210,根据信用数据、行为数据以及自愈评分模型,计算用户的自愈评分。
步骤211,根据用户的自愈评分以及欠款数据,确定还款自逾期内对用户的还款提示方式。
在步骤209至步骤211中,在还款逾期时间较短的还款自愈期内,获取用户的欠款时间以及欠款金额等欠款数据,并利用自愈评分模型,计算用户的自愈评分,从而根据自愈评分以及欠款数据,确定相应的还款提示方式,进行催收。
步骤212,在还款催收期内,根据信用数据、行为数据以及催收评分模型,计算用户的催收评分;
步骤213,根据用户的催收评分以及欠款数据,确定还款催收期内对用户的还款提示方式。
另外,在步骤212和步骤213中,与还款自愈期相似的,在还款逾期时间较长的还款催收期内,也要确定相应的还款提示方式进行催收。
例如,表1示出了本申请实施例的一种催收提示表,通过确定自愈评分和催收评分的等级,结合欠款账龄,从而利用该表确定还款提示方式。
表1
随着互联网金融的快速发展,以及互联网所沉淀的行为数据呈现爆炸式的增长,依托于海量数据,服务于互联网金融业务的个人信用评估技术便应运而生。这为增加互联网金融的审批效率,加快推进国家普惠金融建设产生了积极助力。
在这一浪潮中,设备反欺诈,先进的机器学习、人工智能算法等等新鲜技术纷纷被引入到个人大数据风控的领域中来。
然而一方面受制于风控意识的淡薄,另一方面受限于传统金融行业的风控观念,很多金融企业在开展互联网金融业务时,要么风控方式过于粗犷,要么风控手段过于谨慎低效。即使对于大多数乐于拥抱新技术的金融企业及金融科技公司,其使用的风控技术也呈现出覆盖面单一,精确度不高,开发效率低下等特点。并且当自身业务尚未起量,或建模样本中有风险表现的比例过低时,很多方案更是束手无策。同时,在应用场景方面,这些方案往往只着眼于风控流程中的某个环节,无法有效支撑全生命周期风险管理。在配套应用策略方面,缺乏与业务相结合的量化逻辑。
通过应用本实施例的技术方案,建立了反欺诈规则集的开发方法,大大提升了规则集开发的效率以及最终生成规则集的提升效果;团伙欺诈排查弥补了以往反欺诈方案中针对团伙作案的空白,配合个人反欺诈规则集,能够有效在贷前、贷中环节将进件或存量中的欺诈分子一网打尽;评分模型的建立方法从特征衍生、分箱、特征筛选、模型训练&验证等几个方面进行了创新及经验集成,使得模型开发效率大大提升的同时,模型精度也有了更高保障。并且本方案的应用场景贯穿从贷前到贷中至贷后的全生命周期,涉及业务涵盖贷前信用风险评估、贷中风险排查及预警以及贷后催收时的客户画像构建。从本体系配套的策略来看,审批策略有助于金融机构量化的制定与财务目标相吻合的业务目标(通过率及通过坏账率等),而风险差异化的额度和定价策略也可进一步帮助金融机构提升盈利能力,实现精细化的风险管理。有助于金融企业降低金融风险,实现收益最大化。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种信用评价装置,如图4所示,该装置包括:第一获取模块41、反欺诈排查模块42、团伙欺诈排查模块43、贷前信用评分计算模块44、放款模块45。
第一获取模块41,用于获取用户的信用数据以及用户的申请业务;
反欺诈排查模块42,用于根据信用数据以及反欺诈规则,对用户进行反欺诈行为排查;
团伙欺诈排查模块43,用于若用户通过欺诈行为排查,则根据信用数据以及团伙欺诈模型,对用户进行团伙欺诈行为排查;
贷前信用评分计算模块44,用于若用户通过团伙欺诈行为排查,则根据信用数据以及贷前信用评分模型,计算用户的贷前信用评分;
放款模块45,用于若用户的贷前信用评分大于或等于申请业务对应的预设放款评分阈值,则根据申请业务进行放款。
在具体的应用场景中,如图5所示,该装置还包括:第二获取模块46、风险等级确定模块47、二次营销模块48。
第二获取模块46,用于在放款存续期内,获取用户的行为数据;
风险等级确定模块47,用于根据行为数据,评价用户的风险等级;
二次营销模块48,用于若用户的风险等级大于或等于二次营销风险等级,则根据信用数据,分析与用户适配的二次营销业务。
在具体的应用场景中,如图5所示,该装置还包括:第三获取模块49、自愈评分计算模块410、第一提示模块411、催收评分计算模块412、第二提示模块413。
第三获取模块49,用于在还款自愈期内,获取用户的欠款数据;
自愈评分计算模块410,用于根据信用数据、行为数据以及自愈评分模型,计算用户的自愈评分;
第一提示模块411,用于根据用户的自愈评分以及欠款数据,确定还款自逾期内对用户的还款提示方式;
催收评分计算模块412,用于在还款催收期内,根据信用数据、行为数据以及催收评分模型,计算用户的催收评分;
第二提示模块413,用于根据用户的催收评分以及欠款数据,确定还款催收期内对用户的还款提示方式。
在具体的应用场景中,如图5所示,放款模块45,具体包括:放款额度计算单元451、收款利率计算单元452、放款单元453。
放款额度计算单元451,用于按照放款额度计算公式,计算对用户的最大放款额度,放款额度计算公式为
其中,x表示用户的贷前信用评分在样本用户的贷前信用评分从低到高排序中对应的分位数,y(x)表示用户对应的放款额度,Amean表示平均放款额度,[Amin,Amax]为放款额度区间,
收款利率计算单元452,用于按照利率计算公式,计算用户的收款利率,利率计算公式为
其中,r表示用户对应的收款利率,p表示用户的贷前信用评分对应的坏账率,ro=rmean(1-pmean)-pmean,rmean表示平均收款利率,pmean表示平均坏账率;
放款单元453,用于根据用户的最大放款额度、收款利率以及申请业务,进行放款。
在具体的应用场景中,如图5所示,该装置还包括:第四获取模块414、特征衍生模块415、分箱模块416、变量筛选模块417、训练模块418。
第四获取模块414,用于获取贷前信用评分模型、自愈评分模型以及催收评分模型中的任一模型对应的训练样本,其中,当任一模型为贷前信用评分模型时,训练样本包括样本用户的信用数据,当任一模型为自愈评分模型或催收评分模型时,训练样本包括样本用户的行为数据以及欠款数据;
特征衍生模块415,用于根据训练样本包含的多个特征变量,进行特征变量的衍生,得到新的特征变量;
分箱模块416,用于对训练样本对应的新的特征变量进行分箱处理;
变量筛选模块417,用于分别计算每个分箱处理后的特征变量对应的区分能力,根据区分能力对特征变量进行筛选;
训练模块418,用于依据筛选后的特征变量训练评分模型。
在具体的应用场景中,如图5所示,团伙欺诈排查模块43,具体包括:数据获取单元431、关联度计算单元432、团伙欺诈排查单元433。
第一获取单元431,用于根据用户的身份信息、社交信息、地理位置信息、消费信息、借贷行为信息,获取信用数据库中的与用户关联的其他用户的信用数据以及信用属性标签;
关联度计算单元432,用于根据用户和其他用户的信用数据,分别计算用户与每一个其他用户的关联度;
团伙欺诈排查单元433,用于根据关联度以及其他用户的信用属性标签,对用户的团伙欺诈行为进行排查。
在具体的应用场景中,如图5所示,反欺诈排查模块42,具体包括:第二获取单元421、分箱单元422、分箱筛选单元423、第一规则确定单元424、规则排序单元425、相关系数计算单元426、规则集建立单元427、规则交叉单元428、规则确定单元429、反欺诈排查单元4210。
第二获取单元421,用于获取样本用户的信用数据,其中,信用数据包括多种;
分箱单元422,用于按照预设最大箱数、预设最小叶节点数以及预设最小叶节点占比,对样本用户的信息数据进行决策树分箱处理,得到多个分箱;
分箱筛选单元423,用于计算每个分箱的负评率,筛选出负评率大于预设负评率的分箱;
第一规则确定单元424,用于根据筛选后的分箱,确定每种信用数据对应的反欺诈规则;
规则排序单元425,用于分别计算每种信用数据对应的反欺诈规则的负评率,并按照负评率从大到小的顺序对每种信用数据对应的反欺诈规则进行排序;
相关系数计算单元426,用于依次将排序后的反欺诈规则加入反欺诈规则集中,并计算新放入反欺诈规则集中的反欺诈规则与反欺诈规则集中的其他的反欺诈规则之间的相关系数;
规则集建立单元427,用于若相关系数大于预设相关系数,则将新放入反欺诈规则集中的反欺诈规则删除;
规则交叉单元428,用于将反欺诈规则集中包含的反欺诈规则进行两两交叉,并将交叉后的反欺诈规则放入反欺诈规则集中;
规则确定单元429,用于分别计算反欺诈规则集中的每项反欺诈规则的负评率,并按照负评率确定最终的反欺诈规则;
反欺诈排查单元4210,用于根据最终的反欺诈规则对用户进行反欺诈行为排查。
需要说明的是,本申请实施例提供的一种信用评价装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的信用评价方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的信用评价方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现通过对提交业务申请的用户进行反欺诈行为以及团伙欺诈行为的排查,从而对通过排查的用户进行贷前信用评分,并结合贷前信用评分以及用户申请的业务进行放款。相比于现有技术中主要依靠识别用户的身份欺诈、提供虚假信息、历史欺诈行为等方式筛选服务用户,本申请还通过对规模性和专业性较强的团伙欺诈行为进行排查,进而依据用户的信用评分进行放款,提高了放款安全性,有助于降低坏账率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
本文发布于:2023-04-14 00:26:18,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/1/86831.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |