G06Q40/02 G06K9/62 G06K9/66
1.一种异常申请检测方法,所述方法包括:
获取申请人的信贷申请数据;
根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集;
将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
2.根据权利要求1所述的方法,其特征在于,所述根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集包括:
根据所述信贷申请数据获取申请人信息;
根据所述申请人信息,获取申请人的历史申请数据;
根据所述历史申请数据获得申请特征集。
3.根据权利要求1所述的方法,其特征在于,所述将所述申请特征集输入预设孤立森林模型,获取所述申请特征集对应的申请评分之前还包括:
通过预设无标记的训练特征集构建孤立树;
根据所述孤立树构建预设的孤立森林模型。
4.根据权利要求3所述的方法,其特征在于,所述通过预设无标记的训练特征集构建孤立树包括:
从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;
随机选取所述样本特征集内样本的单个特征;
根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集;
判断所述子特征集是否能再次划分,当所述子特征集能再次划分时,将子特征集作为新的样本特征集返回根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集的步骤;
当所述子特征集内样本数等于1时,停止对所述子特征集的二叉划分。
5.根据权利要求4所述的方法,其特征在于,所述根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集之后,包括:
将子特征集作为新的样本特征集返回根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当所述返回次数大于log2(ψ)-2时,停止对所述子特征集的二叉划分。
6.根据权利要求5所述的方法,其特征在于,所述将所述申请特征集输入预设孤立森林模型,获取所述申请特征集对应的申请评分包括:
获取所述申请特征集中申请特征;
将对应的申请特征在所述预设孤立森林模型中的孤立树上运行,记录所述申请特征在所述运行过程中经过的路径长度;
根据所述申请特征集内所有申请特征对应的路径长度确定所述申请特征集的申请评分。
7.一种异常申请检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取申请人的信贷申请数据;
特征提取模块,用于根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集,所述申请特征集中的申请特征包括申请时点、申请频次、申请趋势以及机构偏好;
评分计算模块,用于将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
异常申请判定模块,用于获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块具体用于:
根据所述信贷申请数据获取申请人信息;
根据所述申请人信息,获取申请人的历史申请数据;
根据所述历史申请数据获得申请特征集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7至中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
本申请涉及计算机技术领域,特别是涉及一种异常申请检测方法、装置、计算机设备以及存储介质。
联网信贷产业在近几年得到了飞速发展,呈现出百家争鸣、百花齐放的局面,伴随着产业的欣荣发展,欺诈黑产业链也在不断地渗透到该领域,各种新颖的欺诈模式层出不穷,对互联网信贷产业的健康发展蒙上了一层阴影。据不完全统计,每年因欺诈导致的损失在500亿—1000亿,欺诈风险已成为互联网信贷产业风险的重中之重。
目前业内主要采取监督学习算法对用户的贷款申请进行欺诈检测,但大部分情况下的用于检测用户行为是否属于欺诈行为的数据是没有标签的,人工进行标注的成本极大,且的手段总在变化。
基于此,有必要针对上述技术问题,提供一种的对欺诈申请的检测简单易行的异常申请检测方法、装置、计算机设备以及存储介质。
一种异常申请检测方法,所述方法包括:
获取申请人的信贷申请数据;
根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集;
将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
在其中一个实施例中,所述根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集具体包括:
根据所述信贷申请数据获取申请人信息;
根据申请人信息,获取申请人的历史申请数据;
根据所述申请评分判断所述信贷申请数据对应的申请是否属于异常申请。
在其中一个实施例中,所述将所述申请特征集输入预设孤立森林模型,获取所述申请特征集对应的申请评分之前还包括:
通过预设无标记的训练特征集构建孤立树;
根据所述孤立树构建预设的孤立森林模型。
在其中一个实施例中,所述通过预设无标记的训练特征集构建孤立树具体包括:
从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;
随机选取所述样本特征集内样本的单个特征;
根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集;
判断所述子特征集是否能再次划分,当所述子特征集能再次划分时,将子特征集作为新的样本特征集返回根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集的步骤;当所述子特征集内样本数等于1时,停止对所述子特征集的二叉划分。
在其中一个实施例中,所述根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集之后包括:
将子特征集作为新的样本特征集返回根据所述特征对所述样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当所述返回次数大于log2(ψ)-2时,停止对所述子特征集的二叉划分。
在其中一个实施例中,所述将所述申请特征集输入预设孤立森林模型,获取所述申请特征集对应的申请评分具体包括:
获取所述申请特征集中申请特征;
将对应的申请特征在所述预设孤立森林模型中的孤立树上运行,记录所述申请特征在所述运行过程中经过的路径长度;
根据所述申请特征集内所有申请特征对应的路径长度确定所述申请特征集的申请评分。
一种异常申请检测装置,所述装置包括:
数据获取模块,用于获取申请人的信贷申请数据;
特征提取模块,用于根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集;
评分计算模块,用于将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
异常申请判定模块,用于获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
在其中一个实施例中,所述特征提取模块具体用于:
根据所述信贷申请数据获取申请人信息;
根据所述申请人信息,获取申请人的历史申请数据;
根据所述历史申请数据获得申请特征集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取申请人的信贷申请数据;
根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集;
将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取申请人的信贷申请数据;
根据所述信贷申请数据获取申请人信息以及与所述申请人信息对应的申请特征集;
将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,所述预设孤立森林模型基于无标记的训练特征集构建;
获取所述申请评分与预设基准值差值的绝对值,当所述差值的绝对值低于预设阈值时,判定所述信贷申请数据对应的申请为异常申请。
上述异常申请检测方法、装置、计算机设备以及存储介质,首先获取申请人的信贷申请数据;根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;将申请特征集输入经过无监督训练获得预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取申请特征集对应的申请评分;最后根据申请评分判断信贷申请数据对应的申请是否属于异常申请。本申请采用无监督学习获得的预设孤立森林模型对信贷申请进行评分,无需标签进行训练,大大提高了异常申请评分系统的实用性,有能力识别变种的和从未见过的,以评分的形式输出,反映其异常程度,便于客户理解与产品化。
图1为一个实施例中异常申请检测方法的应用环境图;
图2为一个实施例中异常申请检测方法的流程示意图;
图3为一个实施例中图2中步骤S400的子步骤流程示意图;
图4为一个实施例中异常申请检测方法的流程示意图;
图5为一个实施例中图2中步骤S600的子步骤流程示意图;
图6为一个实施例中异常申请检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的异常申请检测方法,基于Isolation Forest(孤立森林)模型建立,可以应用于如图1所示的应用环境中,其中,申请检测工作人员所在的终端102通过网络与服务器进行通信,服务器104通过网络获取申请监测工作人员提供的申请人的信贷申请数据,服务器接受到信贷申请数据后,首先根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集,而后将所述申请特征集输入预设孤立森林模型,通过所述预设孤立森林模型对所述申请特征集内特征进行异常检测,获取所述申请特征集对应的申请评分,而后根据该申请评分判断该申请是否属于异常申请,而后将检测的结果反馈至终端102,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。
如图2所示,在其中一个实施例中,本申请的异常申请检测方法,具体包括以下步骤:
S200,获取申请人的信贷申请数据。
申请人具体是指正在进行信贷申请的申请人,申请具体指的是信贷申请,信贷申请数据具体包括用户用于信贷申请所提供的数据,具体可以包括用户的个人信息,以及用户能提供的信贷数据。
在申请人提出信贷申请时,如果需要判断该申请是否处于异常申请,首先需要获得申请人用于申请提供的信贷申请数据。
S400,根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;
申请人信息指的是与申请人对应的个人信息,根据申请人信息可以获取申请人相关的数据,申请特征集具体是指用于分析申请人信贷情况的特征数据,申请特征集具体可以包括申请时点、申请频次、申请趋势以及机构偏好等等维度。
根据用户提交的信贷申请数据确定申请人,并获取申请人信息,同时获取申请人在信贷申请方面的申请特征集。
S600,将申请特征集输入预设孤立森林模型,通过预设孤立森林模型对申请特征集内特征进行异常检测,获取申请特征集对应的申请评分。
孤立森林模型是基于孤立森林算法建立的模型,孤立森林算法一般用于挖掘异常数据,或者说离点挖掘,即是在一大堆数据中,出与其它数据的规律不太符合的数据。对于出的异常数据,然后要么直接清除异常数据,如数据清理中的去除噪声数据,要么深入分析异常数据,比如分析攻击、欺诈的行为特征。而预设孤立森林模型基于无标记的训练特征集构建,用于检测申请是否属于异常申请的模型,通过预设孤立森林模型对申请人过往的申请特征进行检测,获得该次申请数据对应的申请评分。申请评分是指基于该申请数据得到的评分。
在获得包含申请特征的申请特征集后,将申请特征集输入预设的孤立森林模型,获取申请特征集对应的申请评分。在其中一个实施例中,通过预设森林模型中的孤立树对申请特征集内的各个申请特征进行异常检测,其中一个申请特征可以通过多个孤立树进行检测,分别得到每个申请特征对应的异常度,而后综合各个申请特征的异常度,得到该申请特征集对应的申请评分。
S800,获取申请评分与预设基准值差值的绝对值,当差值的绝对值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。
异常申请具体包括欺诈申请,即申请人的该信贷申请包含欺诈行为。目前学术界对异常(anomaly detection)的定义有很多种,在孤立森林中,异常被定义为“容易被孤立的离点(more likely to be separated)”,可以将其理解为分布稀疏且离密度高的体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。
在得到基于预设孤立森林模型得到的申请评分后,可以基于该申请评分对该申请是否属于异常申请进行检测,获取申请评分与预设基准值差值的绝对值,当差值的绝对值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。一般来说,预设基准值为1,该申请评分越接近1,其存在欺诈的可能性越高。在其中一个实施例中,可以设置一个异常阈值,而后获取申请评分与1的差值,当申请评分与1的差的绝对值低于或等于异常阈值时,判定该申请属于异常申请,当评分与1的差的高于异常阈值是,判定该申请不属于异常申请。。
上述异常申请检测方法,首先获取申请人的信贷申请数据;根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;将申请特征集输入经过无监督训练获得预设孤立森林模型,通过预设孤立森林模型对申请特征集内特征进行异常检测,获取申请特征集对应的申请评分;根据申请评分判断信贷申请数据对应的申请是否属于异常申请。本提案采用无监督学习获得的预设孤立森林模型对信贷申请进行评分,无需标签进行训练,大大提高了异常申请评分系统的实用性,有能力识别变种的和从未见过的,以评分的形式输出,反映其异常程度,便于客户理解与产品化。
如图3所示,在其中一个实施例中,S400具体包括:
S420,根据信贷申请数据获取申请人信息。
S440,根据申请人信息,获取申请人的历史申请数据。
S460,根据历史申请数据获得申请特征集。
首先基于申请人提出的申请确定申请人的信息,基于该申请人的信息在信贷数据库内进行搜索,查申请人的历史信贷申请记录,并获取这些历史申请数据。并基于这些历史申请记录对申请人的申请特征进行总结,获得申请特征集,通过对申请人历史申请记录的总结,可以有效获得申请人的申请特征,并基于申请人的申请特征对申请人的申请是否属于异常申请进行检测。
如图4所示,在其中一个实施例中,S600具体包括:
S520,通过预设无标记的训练特征集构建孤立树;
S540,根据孤立树构建预设的孤立森林模型。
无标记的训练特征集是指用于训练孤立森林模型的特征集,训练特征集的组成与申请特征集类似,都包括申请时点、申请频次、申请趋势以及机构偏好等维度。孤立森林模型由多个孤立树组成,首先基于无标记的训练特征集建立孤立树,通过多个孤立树组成用于根据申请特征集进行申请评分的孤立森林模型。无标记的训练特征集包括申请时点、申请频次、申请趋势以及机构偏好等特征,可以随机选取无标记的训练特征集中的某个特征建立一个孤立树,如基于训练特征集中申请人的申请频次的数据可以建立一个孤立树,而后基于大量的无标记数据训练生成多个孤立树组成孤立森林。在其中一个实施例中,S520具体包括:从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;随机选取样本特征集内样本的单个特征;根据特征对样本特征集进行二叉划分,获得两个子特征集;判断子特征集是否能再次划分,当子特征集能再次划分时,将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤;当子特征集不能再次划分时,停止对子特征集的二叉划分。
根据无标记的训练特征集构建孤立树的过程具体包括:首先从包含训练样本的训练特征集中抽样出包含ψ个样本的样本特征集作为孤立树的训练样本集,并基于该样本特征集对一个孤立树进行训练。在其中一个实施例中,可以基于孤立树的数量对每个孤立树均分训练特征集,并基于均分后的训练特征集对孤立树进行训练。在确立样本特征集后,随机选取样本特征集内样本所包含的一个特征,并获取这个特征可能的取值,而后在这个特征的所有值范围内随机选一个值,对样本特征集进行二叉划分,将样本特征集中小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边。这样得到了一个分裂条件和两边的子特征集。同时判断子特征集是否可以再次划分,当子特征可以再次划分时,再次在这个子特征集内该特征的所有值范围内随机选一个值,对子特征集进行二叉划分。当不能再次划分时即子特征只包含一个数据时,结束对子特征集的二叉划分,这里指的划分对所有可划分的子特征集都成立。通过对特征集的划分能有效得建立孤立树。并能基于特征树对异常的申请进行有效检测。
在其中一个实施例中,根据特征对样本特征集进行二叉划分,获得两个子特征集之后包括:
将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当返回次数大于log2(ψ)-2时,停止对子特征集的二叉划分。
在将子特征集作为新的样本特征集进行二叉划分时,需要记录返回的次数,当返回次数大于log2(ψ)-2时,需要停止对子特征集的二叉划分。孤立树的高度有一定限制,孤立树的高度基于训练所用的样本特征集所包含的样本数目ψ确定,当孤立树的高度最高达到log2(ψ)。孤立树的高度与样本是否可以再次划分是是否需要对子特征集再次进行二叉划分的依据,任意一方达到对应条件,都应终止二叉划分。
如图5所示,在其中一个实施例中,将申请特征集输入预设孤立森林模型,获取申请特征集对应的申请评分具体包括:
S620,获取申请特征集中申请特征。
S640,将对应的申请特征在预设孤立森林模型中的孤立树上运行,记录申请特征在运行过程中经过的路径长度。
S660,根据申请特征集内所有申请特征对应的路径长度确定申请特征集的申请评分。
在获得申请人的申请特征集后,提取申请特征集内的申请特征,并将申请特征在对应的孤立树上运行,记录单个申请特征在孤立树上到达不可再次划分的节点所经过的路径长度,通过所有特征的路径长度确定申请特征集对应的申请评分。通过申请特征集内所有特征在孤立森林模型内所跑的路径的长度可以确定该申请的某个特征异常,并可以基于每个特征的长度综合对其进行评分。
在其中一个实施例中,本申请的异常申请检测方法具体包括以下步骤:获取申请人的信贷申请数据;根据信贷申请数据获取申请人信息;根据申请人信息,查申请人在各类信贷机构的历史申请数据,获取历史申请数据;根据历史申请数据获得申请特征集,申请特征集中的申请特征包括申请时点、申请频次、申请趋势以及机构偏好;从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;随机选取样本特征集内样本的单个特征;根据特征对样本特征集进行二叉划分,获得两个子特征集;判断子特征集是否能再次划分,当子特征集能再次划分时,将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤,并记录返回次数;当子特征集不能再次划分时或者当返回次数大于log2(ψ)-2时,停止对子特征集的二叉划分。根据孤立树构建预设的孤立森林模型。获取申请特征集中申请特征;将对应的申请特征在预设孤立森林模型中的孤立树上运行,记录申请特征在运行过程中经过的路径长度;根据申请特征集内所有申请特征对应的路径长度确定申请特征集的申请评分。获取申请评分与1的差值,当差值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图6所示,一种异常申请检测装置,装置包括:
数据获取模块200,用于获取申请人的信贷申请数据;
特征提取模块400,用于根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;
评分计算模块600,用于将申请特征集输入预设孤立森林模型,通过预设孤立森林模型对申请特征集内特征进行异常检测,获取申请特征集对应的申请评分,预设孤立森林模型基于无标记的训练特征集构建;
异常申请判定模块800,用于获取申请评分与预设基准值差值的绝对值,当差值的绝对值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。
在其中一个实施例中,特征提取模块400具体用于:根据信贷申请数据获取申请人信息;根据申请人信息,获取申请人的历史申请数据;根据历史申请数据获得申请特征集。
在其中一个实施例中,还包括模型训练模块,
孤立树建立单元,用于通过预设无标记的训练特征集构建孤立树;
模型建立单元,根据孤立树构建预设的孤立森林模型。
在其中一个实施例中,孤立树建立单元具体用于:从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;随机选取样本特征集内样本的单个特征;根据特征对样本特征集进行二叉划分,获得两个子特征集;判断子特征集是否能再次划分,当子特征集能再次划分时,将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤;当子特征集内样本数等于1时,停止对子特征集的二叉划分。
在其中一个实施例中,孤立树建立单元还用于:将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当返回次数大于log2(ψ)-2时,停止对子特征集的二叉划分。
在其中一个实施例中,评分计算模块600具体用于:获取申请特征集中申请特征;将对应的申请特征在预设孤立森林模型中的孤立树上运行,记录申请特征在运行过程中经过的路径长度;根据申请特征集内所有申请特征对应的路径长度确定申请特征集的申请评分。
在其中一个实施例中,异常申请判定模块800具体用于:获取申请评分与1的差值,当差值低于预设阈值时,判定申请为异常申请。
关于异常申请检测装置的具体限定可以参见上文中对于异常申请检测方法的限定,在此不再赘述。上述异常申请检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常申请数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常申请检测方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取申请人的信贷申请数据;
根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;
将申请特征集输入预设孤立森林模型,通过预设孤立森林模型对申请特征集内特征进行异常检测,获取申请特征集对应的申请评分,预设孤立森林模型基于无标记的训练特征集构建;
获取申请评分与预设基准值差值的绝对值,当差值的绝对值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据信贷申请数据获取申请人信息;根据申请人信息,获取申请人的历史申请数据;根据历史申请数据获得申请特征集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过预设无标记的训练特征集构建孤立树;根据孤立树构建预设的孤立森林模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;随机选取样本特征集内样本的单个特征;根据特征对样本特征集进行二叉划分,获得两个子特征集;判断子特征集是否能再次划分,当子特征集能再次划分时,将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤;当子特征集内样本数等于1时,停止对子特征集的二叉划分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当返回次数大于log2(ψ)-2时,停止对子特征集的二叉划分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取申请特征集中申请特征;将对应的申请特征在预设孤立森林模型中的孤立树上运行,记录申请特征在运行过程中经过的路径长度;根据申请特征集内所有申请特征对应的路径长度确定申请特征集的申请评分。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取申请人的信贷申请数据;
根据信贷申请数据获取申请人信息以及与申请人信息对应的申请特征集;
将申请特征集输入预设孤立森林模型,通过预设孤立森林模型对申请特征集内特征进行异常检测,获取申请特征集对应的申请评分,预设孤立森林模型基于无标记的训练特征集构建;
获取申请评分与预设基准值差值的绝对值,当差值的绝对值低于预设阈值时,判定信贷申请数据对应的申请为异常申请。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据信贷申请数据获取申请人信息;根据申请人信息,获取申请人的历史申请数据;根据历史申请数据获得申请特征集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过预设无标记的训练特征集构建孤立树;根据孤立树构建预设的孤立森林模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从无标记的训练特征集中抽样出包含ψ个样本的样本特征集,作为孤立树的训练样本集;随机选取样本特征集内样本的单个特征;根据特征对样本特征集进行二叉划分,获得两个子特征集;判断子特征集是否能再次划分,当子特征集能再次划分时,将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤;当子特征集内样本数等于1时,停止对子特征集的二叉划分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将子特征集作为新的样本特征集返回根据特征对样本特征集进行二叉划分,获得两个子特征集的步骤,记录返回次数,当返回次数大于log2(ψ)-2时,停止对子特征集的二叉划分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取申请特征集中申请特征;将对应的申请特征在预设孤立森林模型中的孤立树上运行,记录申请特征在运行过程中经过的路径长度;根据申请特征集内所有申请特征对应的路径长度确定申请特征集的申请评分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本文发布于:2023-04-12 20:13:30,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/1/86029.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |