基于KNN算法的互联网金融平台申请欺诈行为检测方法

阅读: 评论:0

著录项
  • CN202010493205.3
  • 20200603
  • CN111833175A
  • 20201027
  • 百维金科(上海)信息科技有限公司
  • 江远强
  • G06Q40/02
  • G06Q40/02 G06K9/62

  • 上海市崇明区长兴镇潘园公路1800号3号楼22264室(上海泰和经济发展区)
  • 上海(31)
摘要
本发明提供了基于KNN算法的互联网金融平台申请欺诈行为检测方法,对采集的数据进行预处理后,将数据集划分为训练集和验证集,然后通过主成分分析法抽取主要特征,得到主成分训练集,即为最优的特征子集,之后选取并优化K值,计算出每个样本与其K个最邻近样本的欧式距离的平方和并利用核密度估计确定置信水平α阈值比较和判定样本为正常样本或异常样本,接着在验证集上调优并将优化后的KNN模型部署至互联网金融平台上对客户的申请行为进行在线异常检测监控,对疑似异常状态的申请发出系统预警。本发明实现对互联网金融平台平台申请用户的在线实时申请行为检测,预警结果准确率高,欺诈识别能力强,降低了金融欺诈风险。
权利要求

1.基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,包括以下步骤:

步骤1:数据采集,包括从互联网平台后端采集客户的个人基本信息及注册申请节点数据、历史行为数据以及监测软件中获取的实时测点数据;

步骤2:将采集到的数据进行预处理,包括数据缺失补全和Z-score归一化处理,并将预处理后得到的数据集划分为训练集和验证集;

步骤3:采用主成分分析法处理训练集,得到主成分训练集;

步骤4:基于主成分训练集,采用经验式的选择方法选取K值,之后通过交叉验证法、贝叶斯或bootstrap来选取最优的K值;

步骤5:基于主成分训练集,采用欧式距离作为距离度量方式,计算主成分训练集中每个样本与其K个最邻近样本的欧式距离的平方和利用核密度估计确定置信水平α阈值比较欧式距离的平方和和阈值判定样本为正常样本或异常样本,得到KNN模型;

步骤6:通过验证集对KNN模型进行优化;

步骤7:将优化后的KNN模型部署至互联网金融平台上,对客户的申请行为进行实时监控,对疑似异常申请状态的申请行为发出系统预警,进行人工审批流程或者拒绝申请。

2.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,所述个人基本信息包括性别、年龄、居住情况、婚姻状态、工作状态;所述注册申请节点数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划;所述历史行为数据包括操作行为数据和设备信息,所述操作行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时,所述设备信息包括手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速。

3.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,所述Z-score归一化处理公式如下:

式中x表示归一化前的数据,x*表示Z-score归一化后的数据,μ、σ分别表示原数据平均值的平均值和标准差。

4.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,所述训练集和测试集的划分比例为7:3。

5.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,所述主成分分析法包括以下步骤:

步骤3-1:设经过预处理的训练集X=(X1,X2,…,Xp),则数据集的特征个数为p,以Xir、Xjr、分别表示特征Xi、Xj中的第r个元素和平均值,其中i,j=1,2,...,n,则特征Xi和特征Xj的皮尔逊相关系数ρij为:

其中,

根据皮尔逊相关系数得到相关系数矩阵R:

步骤3-2:根据特征方程|λE-R|=0,计算得到相关系数矩阵R的特征值λi,并将特征值λi按照大小排序,其中特征方程中E是单位向量,λi中i=1,2,...,p;

步骤3-3:根据相关系数矩阵R的特征值λi,计算各个特征向量的累计方差贡献率CPV,公式如下:

其中θ一般取值落在[85%,95%]区间上,根据累计方差贡献率CPV提取n个主要特征;

步骤3-4:根据特征方程|λE-R|=0计算n个主要特征的特征值对应的特征向量ηi,其中i=1,2,…,n;

步骤3-5:计算获得主成分训练集X(m×n),所述主成分训练集X(m×n)中的训练样本Xmxn的计算公式为:

式中,ηij表示第i个特征向量ηi的第j维,是原数据的第j维向量,所述主成分训练集X(m×n)∈Rm×n。

6.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,步骤4中所述经验式的选择方法选取K值满足以下条件:

式中,N表示样本集的总数量,n表示样本集的特征维度。

7.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,所述欧式距离的计算公式如下:

式中,xik、xjk分别表示第i个、第j个样本的经过主成分处理后的第k个元素,其中i,j=1,2,3,...,n,k=1,2,3,...,m。

8.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,步骤5中所述利用核密度估计确定置信水平α阈值的计算公式如下:

式中,h趋向于0,样本x的邻域表示为[x-h,x+h],N是样本集的总数量;xi是独立同分布的n个样本点,i,j=1,2,...,N,

步骤5中,所述比较欧式距离的平方和和阈值判定样本为正常样本或异常样本包括:若则判定样本为正常样本,否则,判定样本为异常样本。

9.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,步骤6中所述通过验证集对KNN模型进行优化包括将验证集投入到所述KNN模型中分类,调节K值和选用其他距离度量方式重复步骤5得到新的分类结果,结合用户的申请行为和贷后表现作为分类标签将新的分类结果和最初KNN模型的分类结果进行比对,进一步调整优化模型。

10.根据权利要求1所述的基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,步骤7中所述的对客户的申请行为进行实时监控包括将与正常的历史数据集中的近邻都相距较近,则判定为正常申请状态,否则,则判定为异常申请状态。

说明书
技术领域

本发明涉及互联网金融平台行业的风控技术领域,特别涉及基于KNN算法的互联网金融平台申请欺诈行为检测方法。

在互联网金融平台反欺诈中,传统的反欺诈检测方法主要是依赖先验知识制定的基于预先定义的反欺诈规则和有监督的机器学习算法,这种方式的局限性在于无法检测发现出新型规则外的欺诈行为。针对这种问题,基于海量数据构建正常行为模型的异常点检测技术被广泛采用,通过检测申请行为数据是否存在的异常数据而达到检测欺诈行为的目的。聚类算法常用于异常检测,不同的聚类算法具有不同的异常检测应用场景与特点,如基于划分的k-means算法需要指定簇的数量,即需要知道正常样本构成的类数,基于层次的Birch算法虽然不用指定正常样本的类数,但是仅识别球形簇,基于密度的DBSCAN算法不需要指定簇的数目,能够发现任意数量和形状的簇,解决了异常检测中正常行为模型的类数不确定、正常行为模型构成的簇形状不确定问题,但因其在对样本的检测过程需要遍历扫描各个聚簇中所有的核心对象,即通过枚举方式得到,计算代价大,故存在计算机网络异常检测过程效率较低、实时性差问题,影响了该算法在互联网金融平台申请行为异常检测中的正常应用。

为了解决上述技术问题,本发明中披露了基于KNN算法的互联网金融平台申请欺诈行为检测方法,本发明的技术方案是这样实施的:

基于KNN算法的互联网金融平台申请欺诈行为检测方法,包括以下步骤:步骤1:数据采集,包括从互联网平台后端采集客户的个人基本信息及注册申请节点数据、历史行为数据以及监测软件中获取的实时测点数据;步骤2:将采集到的数据进行预处理,包括数据缺失补全和Z-score归一化处理,并将预处理后得到的数据集划分为训练集和验证集;步骤3:采用主成分分析法处理训练集,得到主成分训练集;步骤4:基于主成分训练集,采用经验式的选择方法选取K值,之后通过交叉验证法、贝叶斯或bootstrap来选取最优的K值;步骤5:基于主成分训练集,采用欧式距离作为距离度量方式,计算主成分训练集中每个样本与其K个最邻近样本的欧式距离的平方和利用核密度估计确定置信水平α阈值比较欧式距离的平方和和阈值判定样本为正常样本或异常样本,得到KNN模型;步骤6:通过验证集对KNN模型进行优化;步骤7:将优化后的KNN模型部署至互联网金融平台上,对客户的申请行为进行实时监控,对疑似异常申请状态的申请行为发出系统预警,进行人工审批流程或者拒绝申请。

进一步地,所述个人基本信息包括性别、年龄、居住情况、婚姻状态、工作状态;所述注册申请节点数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划;所述历史行为数据包括操作行为数据和设备信息,所述操作行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时,所述设备信息包括手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速。

进一步地,所述Z-score归一化处理公式如下:式中x表示归一化前的数据,x*表示Z-score归一化后的数据,μ、σ分别表示原数据平均值的平均值和标准差。

进一步地,所述训练集和测试集的划分比例为7:3。

进一步地,所述主成分分析法包括以下步骤:步骤3-1:设经过预处理的训练集X=(X1,X2,…,Xp),则数据集的特征个数为p,以Xir、Xjr、分别表示特征Xi、Xj中的第r个元素和平均值,其中i,j=1,2,...,n,则特征Xi和特征Xj的皮尔逊相关系数ρij为:

其中,

根据皮尔逊相关系数得到相关系数矩阵R:

步骤3-2:根据特征方程|λE-R|=0,计算得到相关系数矩阵R的特征值λi,并将特征值λi按照大小排序,其中特征方程中E是单位向量,λi中i=1,2,...,p;步骤3-3:根据相关系数矩阵R的特征值λi,计算各个特征向量的累计方差贡献率CPV,公式如下:

其中θ一般取值落在[85%,95%]区间上,根据累计方差贡献率CPV提取n个主要特征;步骤3-4:根据特征方程|λE-R|=0计算n个主要特征的特征值对应的特征向量ηi,其中i=1,2,…,n;步骤3-5:计算获得主成分训练集X(m×n),所述主成分训练集X(m×n)中的训练样本Xmxn的计算公式为:

式中,ηij表示第i个特征向量ηi的第j维,是原数据的第j维向量,所述主成分训练集X(m×n)∈Rm×n。

进一步地,步骤4中所述经验式的选择方法选取K值满足以下条件:

式中,N表示样本集的总数量,n表示样本集的特征维度。

进一步地,所述欧式距离的计算公式如下:

式中,xik、xjk分别表示第i个、第j个样本的经过主成分处理后的第k个元素,其中i,j=1,2,3,...,n,k=1,2,3,...,m。

进一步地,步骤5中所述利用核密度估计确定置信水平α阈值的计算公式如下:

式中,h趋向于0,样本x的邻域表示为[x-h,x+h],N是样本集的总数量;xi是独立同分布的n个样本点,i,j=1,2,...,N,

步骤5中,所述比较欧式距离的平方和和阈值判定样本为正常样本或异常样本包括:若则判定样本为正常样本,否则,判定样本为异常样本。

进一步地,步骤6中所述通过验证集对KNN模型进行优化包括将验证集投入到所述KNN模型中分类,调节K值和选用其他距离度量方式重复步骤5得到新的分类结果,结合用户的申请行为和贷后表现作为分类标签将新的分类结果和最初KNN模型的分类结果进行比对,进一步调整优化模型。

进一步地,步骤7中所述的对客户的申请行为进行实时监控包括将与正常的历史数据集中的近邻都相距较近,则判定为正常申请状态,否则,则判定为异常申请状态。

实施本发明的技术方案有以下有益效果:

(1)本发明采用主成分分析法与KNN结合的方法对互联网金融平台申请特征数据进行降维,提取主要特征克服了现有异常点检测方法在处理实时大规模的高维数据对象时,时间与空间复杂度较高,导致实用性差的问题,能够降低处理时间,提高了分类器的分类精度。

(2)本发明采用KNN算法,无需先验统计知识,不需要使用训练集进行训练,事先也不要求知道待检测样本的分布函数,能够解决数据存在的非线性问题,通过利用样本之间的距离关系来判断异常情况,有效提升了金融欺诈检测识别率,降低了金融风险。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明流程图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

基于KNN算法的互联网金融平台申请欺诈行为检测方法,其特征在于,包括以下步骤:步骤1:数据采集,包括从互联网平台后端采集客户的个人基本信息及注册申请节点数据、历史行为数据以及监测软件中获取的实时测点数据;步骤2:将采集到的数据进行预处理,包括数据缺失补全和Z-score归一化处理,并将预处理后得到的数据集划分为训练集和验证集;步骤3:采用主成分分析法处理训练集,得到主成分训练集;步骤4:基于主成分训练集,采用经验式的选择方法选取K值,之后通过交叉验证法、贝叶斯选取最优的K值;步骤5:基于主成分训练集,采用欧式距离作为距离度量方式,计算主成分训练集中每个样本与其K个最邻近样本的欧式距离的平方和利用核密度估计确定置信水平α阈值比较欧式距离的平方和和阈值判定样本为正常样本或异常样本,得到KNN模型;步骤6:通过验证集对KNN模型进行优化;步骤7:将优化后的KNN模型部署至互联网金融平台上,对客户的申请行为进行实时监控,对疑似异常的申请行为发出系统预警,进行人工审批流程或者拒绝申请。

在一种优选的实施方式中,所述个人基本信息包括性别、年龄、居住情况、婚姻状态、工作状态;所述注册申请节点数据包括账户注册手机号、绑定银行卡号、GPS位置、申请贷款类型、贷款年限、还款计划;所述历史行为数据包括操作行为数据和设备信息,所述操作行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时,所述设备信息包括手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速。

在一种优选的实施方式中,所述Z-score归一化处理公式如下:

式中x表示归一化前的数据,x*表示Z-score归一化后的数据,μ、σ分别表示原数据平均值的平均值和标准差。

在该实施方式中,经过Z-score归一化处理后的数据满足期望值为0,标准差为1的标准高斯分布。

在一种优选的实施方式中,所述训练集和测试集的划分比例为7:3。

在一种优选的实施方式中,所述主成分分析法包括以下步骤:步骤3-1:设经过预处理的训练集X=(X1,X2,…,Xp),则数据集的特征个数为p,以分别表示特征Xi、Xj中的第r个元素和平均值,其中i,j=1,2,...,n,则特征Xi和特征Xj的皮尔逊相关系数ρij为:

其中,

根据皮尔逊相关系数得到相关系数矩阵R:

步骤3-2:根据特征方程|λE-R|=0,计算得到相关系数矩阵R的特征值λi,并将特征值λi按照大小排序,其中特征方程中E是单位向量,λi中i=1,2,...,p;步骤3-3:根据相关系数矩阵R的特征值λi,计算各个特征向量的累计方差贡献率CPV,公式如下:

其中θ一般取值落在[85%,95%]区间上,根据累计方差贡献率CPV提取n个主要特征,将将p维度空间映射到n维度空间,减少数据维数,达到降维的目的;步骤3-4:根据特征方程|λE-R|=0计算n个主要特征的特征值对应的特征向量ηi,其中i=1,2,…,n;步骤3-5:计算获得主成分训练集X(m×n),所述主成分训练集X(m×n)中的训练样本Xmxn的计算公式为:

式中,ηij表示第i个特征向量ηi的第j维,是原数据的第j维向量,所述主成分训练集X(m×n)∈Rm×n。

在一种优选的实施方式中,步骤4中所述经验式的选择方法选取K值满足以下条件:

式中,N表示样本集的总数量,n表示样本集的特征维度。

在该实施方式中,K值的选取对KNN分类的结果影响至关重要,如果K值较小,模型复杂度较高,容易发生过拟合,学习的估计误差会增大,预测结果对近邻的实例点非常敏感;如果K值较大,学习的估计误差会降低,但学习的近似误差会增大,训练样本中的异常离点容易使预测结果错误,所以在本实施例中中,K值一般通过经验式的选择方法选取一个比较小的值,再采用交叉验证法、贝叶斯或bootstrap来选取最优的K值。

在一种优选的实施方式中,所述欧式距离的计算公式如下:

式中,xik、xjk分别表示第i个、第j个样本的经过主成分处理后的第k个元素,其中i,j=1,2,3,...,n,k=1,2,3,...,m。

在一种优选的实施方式中,步骤5中所述利用核密度估计确定置信水平α阈值的计算公式如下:

式中,h趋向于0,样本x的邻域表示为[x-h,x+h],N是样本集的总数量;xi是独立同分布的n个样本点,i,j=1,2,...,N,

然后根据分类决策规则比较欧式距离的平方和和阈值若则判定样本为正常样本,否则,判定样本为异常样本。

在一种优选的实施方式中,步骤6中所述通过验证集对KNN模型进行优化包括将验证集投入到所述KNN模型中分类,调节K值和选用其他距离度量方式重复步骤5得到新的分类结果,结合用户的申请行为和贷后表现作为分类标签将新的分类结果和最初KNN模型的分类结果进行比对,进一步调整优化模型。

在一种优选的实施方式中,步骤7中所述的对客户的申请行为进行实时监控包括将与正常的历史数据集中的近邻都相距较近,则判定为正常申请状态,否则,则判定为异常申请状态,对疑似异常申请状态的申请发出系统预警,进行人工审批流程或直接拒绝申请。

需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

本文发布于:2023-04-12 22:47:52,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/86104.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图