G06Q40/02 G06K9/62
1.一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,包括以下步骤:
步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;
步骤二:数据预处理,包括异常值处理和归一化处理;
步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;
步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;
步骤五:根据局部可达距离,计算对象p的局部可达密度;
步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;
步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出。
2.根据权利要求1所述的一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,所述异常值处理包括剔除无关维度的数据并删除数据中的异常值。
3.根据权利要求1所述的一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,所述归一化处理采用离差标准化的方法。
4.根据权利要求1所述的一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,所述第K距离领域、局部可达距离和局部可达密度只在对象p所在的数据子集中计算。
5.根据权利要求1所述的一种基于LOF算法的互联网金融申请反欺诈识别方法,其特征在于,所述阈值ψ依靠经验值或者实际业务变化动态设定和调整。
本发明涉及互联网金融行业的风控技术领域,特别涉及。
随着互联网金融的发展,灰产、黑产等欺诈行为的种类和方式也越来越多,据不完全统计,每年因欺诈导致的损失可达到500亿—1000亿,欺诈风险已成为互联网金融防范风险的重中之重。从统计学来说,欺诈行为相对正常行为属于离点,在数据的散布图中,它们远离其它数据点,其属性值显著地偏离期望或常见的属性值,离点检测是成为金融反欺诈的一种常用方法,如何有效地检测出在高度可能性的欺诈行为,成为各大金融机构的反欺诈的主要工作。
现有技术中,离点检测方法主要有三种:基于统计的离点检测方法(HBOS:基于直方图的异常值得分)、基于距离的离点检测方法(如K最近邻KNN)及基于聚类的离点检测方法(如K均值聚类K-means、DBSCAN)等,但现有技术的算法均较复杂、运算量大、时间复杂度大及精度不高等问题,对于高维大数据检测效率较低。如何减少离点检测的计算量及运行时长成为亟待解决的技术问题。
LOF算法(Local Outlier Factor,局部离因子)是基于密度的异常数据检测方法,该算法引入每一个数据对象的可达距离和可达密度的概念,来判断一个数据对象是否是离点,针对数据集中的每个数据计算一个局部异常因子LOF,来反映一个数据的异常程度,因为LOF算法对密度的衡量是通过点的第k邻域来计算,仅对可能出现离点的边界单元进行离点的挖掘,而不是全局计算,且在样本空间数据分布不均匀的情况下也可以准确发现离点,可以有效减少离点需要检测的数据量、计算量以及运行时长,对于高维大数据的检测效率更高,也更加适合当前大数据风控的需要。
为了解决上述技术问题,本发明中披露了一种基于LOF算法的互联网金融申请反欺诈识别方法,本发明的技术方案是这样实施的:
一种基于LOF算法的互联网金融申请反欺诈识别方法,包括以下步骤:步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;步骤二:数据预处理,包括异常值处理和归一化处理;步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;步骤五:根据局部可达距离,计算对象p的局部可达密度;步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出。
进一步地,所述异常值处理包括剔除无关维度的数据并删除数据中的异常值。
进一步地,所述归一化处理采用离差标准化的方法。
进一步地,所述第K距离领域、局部可达距离和局部可达密度只在对象p所在的数据子集中计算。
进一步地,所述阈值ψ依靠经验值或者实际业务变化动态设定和调整。
本发明技术方案将LOF算法互联网金融申请反欺诈识别中,本发明通过根据经验及实际业务设置离点阈值ψ和递归计算中不断剔除密度较大的非离点及输出离点可能性大的异常点,有效缩短了异常点检测的运行时间,提高了高维大数据集异常值检测的效率,能够对互联网申请行为实时监控,及时准确检测发现申请异常欺诈行为,减少信贷损失。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于LOF算法的互联网金融申请反欺诈识别方法,包括以下步骤:步骤一:采集客户端上客户申请提现的操作埋点数据、个人基本信息以及客户授权的第三方数据;步骤二:数据预处理,包括异常值处理和归一化处理;步骤三:针对信贷欺诈的行为特征类型,进行数据特征选择,获得LOF算法的数据集,并将数据集随机划分为不同的数据子集;步骤四:基于数据子集,通过LOF算法先计算数据子集中对象p的第K距离领域,然后计算出对象p的局部可达距离;步骤五:根据局部可达距离,计算对象p的局部可达密度;步骤六:根据局部可达密度,计算对象p的局部异常因子LOF值;步骤七:递归步骤一至步骤六,在循环计算中,将获得的LOF值与设定的阈值ψ比较,LOF值小于阈值ψ的对象判定为正常点,不断剔除,LOF值大于阈值ψ的对象判定为异常点,将异常点输出,能够有效缩减在大数据集上的运行时间,提升异常值的检测效率。
在该实施方式中,数据可以通过部署在网络节点上的流量采集设备,采集到的数据特征要能够全面反映申请用户还款能力与还款意愿的综合状况;所述个人基本信息包括个人及家庭状态、工作及收入水平等传统数据。
在该实施方式中,将LOF算法的数据集切分为不同的数据集,包括训练集和验证集,在高维数据集中,有些数据维度会都被切分成n段,数据集会被沿着每一维标注的分割点连线所分割开,切出来的不规则断面即为网格边界,网格边界的具体边界值需要根据数据集维度、大小以及给定的分割间隔数n共同决定的。
在该实施方式中,对象p所在的子数据集定义为pi;对象p与距离它第k近的邻居的距离为dk(p),则至少有k个对象oi,满足d(oi,p)≤d(ok,p),最多有k-1个对象oj,满足:d(oj,p)<d(ok,p);对象p的k近邻表示由所有与对象p之间距离小于dk(p)的对象组成的集合,然后求出对象p到k近邻的距离的平均,即p的m距离,计算公式为:
对象p的m近邻表示所有与p之间距离小于m距离的对象组成的集合,对象p相对于对象o的可达距离reach_distm(o,p)表示对象p的m距离和对象p与o之间距离的最大值,对象p的局部可达密度lrdm(p)值表示对象p的第K距离邻域内点到p的平均可达距离的倒数,则p的局部可达密度lrdm(p)值为:
则对象p的局部异常因子为:
在一种优选的实施方式中,所述异常值处理包括剔除无关维度的数据并删除数据中的异常值。
在一种优选的实施方式中,所述归一化处理采用离差标准化的方法,归一化处理能够使数据映射到[0,1]区间上,所述离差标准化公式为:式中,x'为归一化后的值,x为归一化前的数据,xmin是特征中的最小值,xmax是特征中的最大值;
在一种优选的实施方式中,所述第K距离领域、局部可达距离和局部可达密度只在对象p所在的数据子集中计算。
在一种优选的实施方式中,所述阈值ψ依靠经验值或者实际业务变化而动态调整。在该实施方式中阈值ψ默认为1。
需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本文发布于:2023-04-13 01:46:38,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/2/85256.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |