G06F30/27 G06K9/62 G06N3/00 G06Q40/02
1.一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
2.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
3.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S2中,获取数据后,首先对数据质量进行检验。包括:用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等,对原始数据进行预处理,剔除错误数据;其次,输入数据的量纲和取值范围不同,需先对数据进行归一化处理,计算公式如下:
其中,xmax为样本数据中的最大值;xmin为样本数据中的最小值;xi为原始样本数据;归一化后结果的取值范围为[-1,1]。
4.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S3中,多核支持向量机(Multi_Kernel Support VectorMachine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数;K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有径向基核函数、线性核函数、多项式核函数及sigmoid核函数,表达式分别如下:
径向基核函数
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。
为了充分利用先验知识选择合适的核函数,本专利采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节权重因子λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数C、高斯核函数参数σ和多项式核函数的核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻到最优经验参数是发挥其最佳的学习分类能力的关键。
5.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S4中,蜻蜓算法(Dragonfly Algorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型智能优化算法,可实现全局和局部搜索。本专利提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e,最大迭代次数Tmax,将蜻蜓个体的位置信息依次赋值给惩罚系数C和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态集行为,通过聚集、觅食和避敌等静态来进行局部搜索觅食,通过分离、聚集和排队等动态来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数;△X、△Xt+1分别表示当前和下一代种位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
6.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
7.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
8.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
本发明涉及互联网金融行业的风控技术领域,具体为一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法。
互联网、大数据和人工智能等技术正引发金融行业的深刻变革,随着大数据时代的来临,金融行业数据量日益增大,数据类型越来越多,数据更新速度日益加快,这为金融机构的个人信用风险评估工作带来了挑战,传统的个人信用风险评估方式已经无法适应环境的不断变化,无法满足金融行业的发展需要,因此迫切需要构建一套智能的信用风险评估体系,进而帮助金融机构进行贷款审批决策。
目前,常用的信用风险评估方法主要有专家系统、逻辑回归、决策树、神经网络等。但神经网络具有结构一般较难确定、算法收敛速度慢,并极易导致过拟合问题,采用人工神经网络的实时信用预测方法,易使预测模型产生过度拟合的现象,影响模型的预测性能。基于支持向量机的预测方法尽管克服了人工神经网络预测方法中所存在的泛化能力较差、收敛慢等缺点,但传统的支持向量机只采用一个核函数,不足以解决一些涉及多个不同数据源的复杂问题.由于信用评估数据维数较多、数据较大,导致重建模型精度较差、泛化和学习能力较弱。如何增强重建精度、提高模型学习能力和泛化能力是相关学者研究的重点。
多核支持向量机(Multi-Kernel SupportVectorMachine,MKSVM)在传统单核SVM的基础上,将SVM的单一核函数映射变为多核函数自适应映射,继承了传统单核SVM的泛化推广能力和自学习能力,避免了高维分布可能存在不平坦的数据的情况,改善了模型的预测能力。
但多核支持向量机的预测性能受权重因子λ、惩罚参数C、核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻到最优经验参数是发挥其最佳的学习分类能力的关键。因此,针对上述问题提出一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法。
本发明的目的在于提供一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
优选的,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
优选的,在S2中,获取数据后,首先对数据质量进行检验。包括:用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等,对原始数据进行预处理,剔除错误数据;其次,输入数据的量纲和取值范围不同,需先对数据进行归一化处理,计算公式如下:
其中,xmax为样本数据中的最大值;xmin为样本数据中的最小值;xi为原始样本数据;归一化后结果的取值范围为[-1,1]。
优选的,在S3中,多核支持向量机(Multi_Kernel SupportVector Machine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数,K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有线性核函数、多项式核函数、径向基核函数以及sigmoid核函数。表达式分别如下:
径向基核函数
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。。
为了充分利用先验知识选择合适的核函数,本申请采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节权重因子λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数c、径向基核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻到最优经验参数是发挥其最佳的学习分类能力的关键。
优选的,在S4中,蜻蜓算法(DragonflyAlgorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型智能优化算法,可实现全局和局部搜索。本文提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e,最大迭代次数Tmax、将蜻蜓个体的位置信息依次赋值给惩罚系数γ和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态集行为,通过聚集、觅食和避敌等静态来进行局部搜索觅食,通过分离、聚集和排队等动态来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数,△X、△Xt+1分别表示当前和下一代种位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
优选的,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
优选的,在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
优选的,在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
与现有技术相比,本发明的有益效果是:
1、多核支持向量机学习过程中综合了全局核函数和局部核函数的性能,使核函数同时具有泛化能力和学习能力,分类精度对明显提高,学习能力强,对样本数据的可解释性高于单核;
2、蜻蜓算法利用静态保持种的多样性,解决了局部最优问题,利用动态进行搜索空间的扩张,使算法逼近全局最优解。
3、本文提出用擅长全局搜索和对初始值没有依赖的蜻蜓算法对多核支持向量机进行超参数寻优,克服已有的精度不高、容噪能力差、模型参数设定难度大的不足,实现实时申请客户信用评估在线预测。
图1为本发明流程图;
图2为本发明对比实验图。
请参阅图1,本发明提供一种技术方案:
一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
在S2中,获取数据后,首先对数据质量进行检验。包括:用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等,对原始数据进行预处理,剔除错误数据;其次,输入数据的量纲和取值范围不同,需先对数据进行归一化处理,计算公式如下:
其中,xmax为样本数据中的最大值;xmin为样本数据中的最小值;xi为原始样本数据;归一化后结果的取值范围为[-1,1]。
在S3中,多核支持向量机(Multi_Kernel SupportVectorMachine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数,K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有线性核函数、多项式核函数、径向基核函数以及sigmoid核函数。表达式分别如下:
径向基核函数
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。。
为了充分利用先验知识选择合适的核函数,本申请采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数C、高斯核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻到最优经验参数是发挥其最佳的学习分类能力的关键。
优选的,在S4中,蜻蜓算法(DragonflyAlgorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型智能优化算法,可实现全局和局部搜索。本文提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e。最大迭代次数Tmax、将蜻蜓个体的位置信息依次赋值给惩罚系数γ和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态集行为,通过聚集、觅食和避敌等静态来进行局部搜索觅食,通过分离、聚集和排队等动态来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数,△X、△Xt+1分别表示当前和下一代种位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
优选的,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
为了验证蜻蜓算法优化多核支持向量机的优越性,分别用原始多核支持向量机、遗传算法(GA)优化、粒子算法(PSO)优化与蜻蜓算法(DA)优化多核支持向量机的性能对比得到MKSVM、GA-MKSVM、PSO-MKSVM、DA-MKSVM中,种的最大迭代次数为200,种规模为20,惩罚参数C范围(0,100],核参数σ范围(0,100];设置遗传算法(GA)的交叉概率为0.8,变异概率为0.05。粒子算法(PSO)更新速度c1取1.49445,更新速度c2取0.5,粒子最大速度取0.5,最小速度取-0.5;蜻蜓算法(DA)种规模设为40,最大迭代次数设为20,解向量搜索区间为[-1,1],惯性权重ω、分离权重s、对齐权重a、内聚权重c、食物吸引权重f和天敌排斥权重e均为自适应线性递减权重,其最小值为0.4,最大值为0.9。
蜻蜓算法(DA)在实验中都获得了比GA和PSO更高的Precision、Recall和F-Score值,表现出极好的搜索能力和稳定性。
在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
本专利还提供一种蜻蜓算法优化多核支持向量机的逾期风险预测系统,包括以下模块:
数据获取处理模块,用于获取逾期风险预测模型建模样本,对数据进行标准化处理,提取特征向量,对数据进行归一化处理,并将其划分为训练集和测试集;
模型训练模块,用于取得支持向量机模型的最优结构参数,建立多核支持向量机逾期预测模型,由多项式核函数和径向基RBF核函数构成的组合核,采用训练集对构建的模型进行训练,直到达到停止条件;
模型优化模块,用于蜻蜓算法优化多喝支持向量机模型的最优结构参数,得到最优的预测模型,然后训练集输入到预测模型完成训练;
模型验证模块,用于测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性;
模型预测模块,用于获取实时申请客户的数据并将作为待测样本导入预测模型中输出违约概率预测结果;
模型更新模块,用于模型的在线更新,定期将逾期客户的数据输入到训练集中,更新逾期概率预测模型。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
本文发布于:2023-04-15 01:52:35,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/86981.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |