G06Q40/02 G06N3/00 G06N3/04 G06N3/08
1.一种蚁狮算法优化NARX神经网络风险预测系统,其特征在于,包括用户端、服务端,所述用户端包含信息采集模块、风险预测发起模块,所述服务端包括信息处理模块、数据库、风险预测模块;
所述信息采集模块,用于用户采集客户的数据并整合成客户数据;
所述风险预测发起模块,用于用户发起风险预测申请请求;
所述信息处理模块,用于获取客户数据并存储至数据库,还用于获取并审核风险预测申请请求并生成传输至用户端与风险预测模块的审核信息;
所述数据库,用于存储客户数据;
所述风险预测模块,用于获取审核信息并依据审核信息获取数据库内的客户数据,还用于对客户数据进行风险预测得出客户逾期风险预测数据;
所述风险预测模块对客户数据进行风险预测得出客户逾期风险预测数据包括以下步骤:
步骤A1:从客户数据中获取建模所需的贷款数据作为客户贷款数据样本,对客户贷款数据样本中的每个客户进行标签化处理获取客户相应的特征数据,并依据客户还款记录标记客户风险等级,依据特征分类提取客户贷款数据样本中的特征数据并与客户风险等级关联组成样本数据集;
步骤A2:对样本数据集进行预处理并依据7:3的比例切分成训练集和测试集,并对训练集和测试集归一化处理;
步骤A3:建立NARX神经网络预测模型,利用训练集训练NARX神经网络预测模型;
步骤A4:采用改进的蚁狮算法优化NARX神经网络预测模型,利用指定网络性能评价函数优化NARX神经网络预测模型;
步骤A5:利用测试集对NARX神经网络预测模型进行预测性能测试得到预测性能测试数据,根据测试集为欺诈用户的欺诈概率值,利用获得的逾期概率值与对应实际样本进行比对并判断逾期预测模型的稳定性并制定偏移;
步骤A6:通过NARX神经网络预测模型获取存量在贷用户的历史行为特征数据并输出客户逾期风险预测数据。
2.如权利要求1所述的一种蚁狮算法优化NARX神经网络风险预测系统,其特征在于:
步骤A1中所述客户贷款数据样本为首次借款申请时间在6-12个月内并具有还款记录的10000个贷款数据;
所述客户贷款数据样本包含客户的多维度数据,所述多维度数据包括客户属性数据、客户借贷数据、用户平台操作行为数据;
根据还款记录对所述客户贷款数据样本中每个客户进行标签化处理;
所述原始数据包括业务类型和客户的历史行为特征数据;
步骤A2中对所述样本数据集进行特征筛选、缺失补全、异常值处理的预处理。
3.如权利要求1或2所述的一种蚁狮算法优化NARX神经网络风险预测系统,其特征在于:
步骤A3中建立所述NARX神经网络预测模型的具体包括以下步骤:
步骤B1:网络初始化,根据客户贷款数据样本中的标签个数与影响逾期风险维度个数确定NARX神经网络的输入层节点数、输出层节点数、隐含层节点数,并确定学习速率和神经元的激活函数,并初始化输出层、输出层与隐含层之间的连接权值、隐含层偏移、输出层偏移;
步骤B2:根据以下公式计算隐含层节点输出H;
其中,Hj为第j个隐含层节点输出;
f()是隐含层节点的激活函数,选用tanh函数;
p=1,2,…,m是外部输入变量的延迟;
q=1,2,…,n是输出反馈信号的延迟;
W为连接权值;
Wjp是第j个隐含层节点与延迟步长为p的外部输入变量之间的连接权值;
Wjq是第j个隐含层节点与延迟步长为q的输出反馈信号之间的连接权值;
x(t)是t时刻外部输入变量的值;
x(t-p)为网络输入延时参数;
x(t-q)为外部反馈延时参数;
bj是第j个隐含层节点的偏移;
步骤B3:根据以下公式计算NARX神经网络的最终输出y(t+1);
其中,y(t)是t时刻目标量的值;
x(t)是t时刻外部输入变量的值;
n是输入样本的特征数即输入神经元数;
m是隐藏层神经元数;
W为连接权值;
S为隐含层节点个数;
步骤A3中采用信赖域法利用训练集训练NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
步骤C1:设定一个最大位移为半径的区域,在该区域内寻目标函数的最优点;
步骤C2:若目标函数值增大,则调整该区域范围继续求解;
若目标函数值减小,则按此规则继续迭代计算。
4.如权利要求3所述的一种蚁狮算法优化NARX神经网络风险预测系统,其特征在于:
步骤A4中采用改进的蚁狮算法优化NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
初始化NARX神经网络的权值和偏移值,根据训练集确定NARX神经网络拓扑结构和各层的节点数,待优化个体的维数为(n+1)×m,n为输入样本的特征数即输入神经元数,m为隐藏层神经元数,将NARX神经网络的权值和偏移值作为蚁狮种的位置向量进行编码,确定各个蚁狮在种维度上的位置,设定种初始规模为P,最大规模为Pmax,为每个蚁狮个体并代表一个NARX神经网络结构,表达式如下:
其中,wij表示位于[-1,1]之间第i个隐藏层神经元与第j个输入神经元间的权值;
bi表示位于[0,1]之间第i个隐藏层神经元的偏移值;
改进的蚁狮算法为更新蚂蚁游走边界方式,蚂蚁游走边界方式的定义公式如下:
其中,γ为收缩调节系数;λ为比例因子;t为当前迭代次数;T为最大迭代次数。
5.一种蚁狮算法优化NARX神经网络风险预测方法,其特征在于,包括以下步骤:
步骤A1:从客户数据中获取建模所需的贷款数据作为客户贷款数据样本,对客户贷款数据样本中的每个客户进行标签化处理获取客户相应的特征数据,并依据客户还款记录标记客户风险等级,依据特征分类提取客户贷款数据样本中的特征数据并与客户风险等级关联组成样本数据集;
步骤A2:对样本数据集进行预处理并依据7:3的比例切分成训练集和测试集,并对训练集和测试集归一化处理;
步骤A3:建立NARX神经网络预测模型,利用训练集训练NARX神经网络预测模型;
步骤A4:采用改进的蚁狮算法优化NARX神经网络预测模型,利用指定网络性能评价函数优化NARX神经网络预测模型;
步骤A5:利用测试集对NARX神经网络预测模型进行预测性能测试得到预测性能测试数据,根据测试集为欺诈用户的欺诈概率值,利用获得的逾期概率值与对应实际样本进行比对并判断逾期预测模型的稳定性并制定偏移;
步骤A6:通过NARX神经网络预测模型获取存量在贷用户的历史行为特征数据并输出客户逾期风险预测数据。
6.如权利要求5所述的一种蚁狮算法优化NARX神经网络风险预测方法,其特征在于:
步骤A1中所述客户贷款数据样本为首次借款申请时间在6-12个月内并具有还款记录的10000个贷款数据;
所述客户贷款数据样本包含客户的多维度数据,所述多维度数据包括客户属性数据、客户借贷数据、用户平台操作行为数据;
根据还款记录对所述客户贷款数据样本中每个客户进行标签化处理;
所述原始数据包括业务类型和客户的历史行为特征数据;
步骤A2中对所述样本数据集进行特征筛选、缺失补全、异常值处理的预处理。
7.如权利要求5或6所述的一种蚁狮算法优化NARX神经网络风险预测方法,其特征在于:
步骤A3中建立所述NARX神经网络预测模型的具体包括以下步骤:
步骤B1:网络初始化,根据客户贷款数据样本中的标签个数与影响逾期风险维度个数确定NARX神经网络的输入层节点数、输出层节点数、隐含层节点数,并确定学习速率和神经元的激活函数,并初始化输出层、输出层与隐含层之间的连接权值、隐含层偏移、输出层偏移;
步骤B2:根据以下公式计算隐含层节点输出H;
其中,Hj为第j个隐含层节点输出;
f()是隐含层节点的激活函数,选用tanh函数;
p=1,2,…,m是外部输入变量的延迟;
q=1,2,…,n是输出反馈信号的延迟;
W为连接权值;
Wjp是第j个隐含层节点与延迟步长为p的外部输入变量之间的连接权值;
Wjq是第j个隐含层节点与延迟步长为q的输出反馈信号之间的连接权值;
x(t)是t时刻外部输入变量的值;
x(t-p)为网络输入延时参数;
x(t-q)为外部反馈延时参数;
bj是第j个隐含层节点的偏移;
步骤B3:根据以下公式计算NARX神经网络的最终输出y(t+1);
其中,y(t)是t时刻目标量的值;
x(t)是t时刻外部输入变量的值;
n是输入样本的特征数即输入神经元数;
m是隐藏层神经元数;
W为连接权值;
S为隐含层节点个数;
步骤A3中采用信赖域法利用训练集训练NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
步骤C1:设定一个最大位移为半径的区域,在该区域内寻目标函数的最优点;
步骤C2:若目标函数值增大,则调整该区域范围继续求解;
若目标函数值减小,则按此规则继续迭代计算。
8.如权利要求7所述的一种蚁狮算法优化NARX神经网络风险预测方法,其特征在于:
步骤A4中采用改进的蚁狮算法优化NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
初始化NARX神经网络的权值和偏移值,根据训练集确定NARX神经网络拓扑结构和各层的节点数,待优化个体的维数为(n+1)×m,n为输入样本的特征数即输入神经元数,m为隐藏层神经元数,将NARX神经网络的权值和偏移值作为蚁狮种的位置向量进行编码,确定各个蚁狮在种维度上的位置,设定种初始规模为P,最大规模为Pmax,每个蚁狮个体代表一个NARX神经网络结构,表达式如下:
其中,wij表示位于[-1,1]之间第i个隐藏层神经元与第j个输入神经元间的权值;
bi表示位于[0,1]之间第i个隐藏层神经元的偏移值;
改进的蚁狮算法为更新蚂蚁游走边界方式,蚂蚁游走边界方式的定义公式如下:
其中,γ为收缩调节系数;λ为比例因子;t为当前迭代次数;T为最大迭代次数。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器调用存储于所述存储器中的程序,以执行如权利要求5-8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求5-8中任一项所述的方法。
本发明属于互联网金融技术领域,尤其涉及一种蚁狮算法优化NARX神经网络风险预测系统及方法。
为了满足不同阶段的信用风控需求,金融机构通常需要利用贷前的申请评分卡、贷中的行为评分卡和贷后的催收评分卡对金融用户进行风险评分。其中的贷中行为评分卡模型是一种根据金融用户在账户使用期间所产生的各种行为,通过在贷中根据客户的历史行为特征数据预测该客户的违约风险,来评估客户的还款能力和还款意愿等,根据违约概率来进行贷中行为监控,动态预测金融用户贷中风险的评分模型。
贷中行为评分卡更多利用了客户还款行为,还款行为一般为时序类数据,根据时间的推移,表现出不同的行为。而现有技术常用的逻辑回归、XGboost和LightGBM都无法很好的处理时序类数据,而基于BP、RBF和等神经网络的贷中风险预测方式需要进行大量的数据计算且耗时很长,现有的贷中风险预测方式无法同时满足贷中风险预测过程的准确性和效率要求。
NARX(Nonlinear Auto-Regression with External input)神经网络称为有外部输入的非线性自回归网络,是一种动态的前馈神经网络,其输出结果取决于当前输入以及过去的输出结果,由于存在延时反馈,因此对历史状态信息有记忆功能,能够很好反映时间序列的时变特性。NARX神经网络不但可以预测下一时刻输入信号的值,也可以用于非线性滤波,对非线性动态系统进行建模。与传统的循环神经网络(RNN)相比,NARX神经网络在学习能力、收敛速度、泛化性能和预测精度等方面可以表现出更好的效果,其所具有的非线性映射能力、良好的鲁棒性、自适应性和自学习性等特点,收敛速度和归一性均优于其他神经网络,这在一定程度上缓解了神经网络运算耗时长的缺点,满足贷款逾期预测需求的精确性与高效性,非常适合对客户逾期风险进行预测。
但NARX神经网络和其他神经网络一样,网络性能易受初始值影响,现有技术主要使用遗传、粒子、蚁等算法来优化网络初始值,但均易陷入局部最优和收敛速度慢等问题,如何使NARX神经网络能够跳出局部最优、提升收敛速度,以及如何实现全局探索与局部开发能力的平衡仍是难点。
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种蚁狮算法优化NARX神经网络风险预测系统,还提供一种蚁狮算法优化NARX神经网络风险预测方法,NARX神经网络在学习能力、收敛速度、泛化性能和预测精度等方面可以表现出更好的效果,满足金融逾期风险预测需求的精确性与高效性,非常适合对客户还款进行预测。
本发明第一方面提供一种蚁狮算法优化NARX神经网络风险预测系统,其中,包括用户端、服务端,所述用户端包含信息采集模块、风险预测发起模块,所述服务端包括信息处理模块、数据库、风险预测模块;
所述信息采集模块,用于用户采集客户的数据并整合成客户数据;
所述风险预测发起模块,用于用户发起风险预测申请请求;
所述信息处理模块,用于获取客户数据并存储至数据库,还用于获取并审核风险预测申请请求并生成传输至用户端与风险预测模块的审核信息;
所述数据库,用于存储客户数据;
所述风险预测模块,用于获取审核信息并依据审核信息获取数据库内的客户数据,还用于对客户数据进行风险预测得出客户逾期风险预测数据;
所述风险预测模块对客户数据进行风险预测得出客户逾期风险预测数据包括以下步骤:
步骤A1:从客户数据中获取建模所需的贷款数据作为客户贷款数据样本,对客户贷款数据样本中的每个客户进行标签化处理获取客户相应的特征数据,并依据客户还款记录标记客户风险等级,依据特征分类提取客户贷款数据样本中的特征数据并与客户风险等级关联组成样本数据集;
步骤A2:对样本数据集进行预处理并依据7:3的比例切分成训练集和测试集,并对训练集和测试集归一化处理;
步骤A3:建立NARX神经网络预测模型,利用训练集训练NARX神经网络预测模型;
步骤A4:采用改进的蚁狮算法优化NARX神经网络预测模型,利用指定网络性能评价函数优化NARX神经网络预测模型;
步骤A5:利用测试集对NARX神经网络预测模型进行预测性能测试得到预测性能测试数据,并与遗传算法、粒子算法进行对比,根据测试集为欺诈用户的欺诈概率值,利用获得的逾期概率值与对应实际样本进行比对并判断逾期预测模型的稳定性并制定偏移;
步骤A6:通过NARX神经网络预测模型获取存量在贷用户的历史行为特征数据并输出客户逾期风险预测数据。
上述的一种蚁狮算法优化NARX神经网络风险预测系统,其中:
步骤A1中所述客户贷款数据样本为首次借款申请时间在6-12个月内并具有还款记录的10000个贷款数据;
所述客户贷款数据样本包含客户的多维度数据,所述多维度数据包括客户属性数据、客户借贷数据、用户平台操作行为数据;
根据还款记录对所述客户贷款数据样本中每个客户进行标签化处理;
所述原始数据包括业务类型和客户的历史行为特征数据;
步骤A2中对所述样本数据集进行特征筛选、缺失补全、异常值处理的预处理。
上述的一种蚁狮算法优化NARX神经网络风险预测系统,其中:
步骤A3中建立所述NARX神经网络预测模型的具体包括以下步骤:
步骤B1:网络初始化,根据客户贷款数据样本中的标签个数与影响逾期风险维度个数确定NARX神经网络的输入层节点数、输出层节点数、隐含层节点数,并确定学习速率和神经元的激活函数,并初始化输出层、输出层与隐含层之间的连接权值、隐含层偏移、输出层偏移;
步骤B2:根据以下公式计算隐含层节点输出H;
其中,Hj为第j个隐含层节点输出;
f()是隐含层节点的激活函数,选用tanh函数;
p=1,2,…,m是外部输入变量的延迟;
q=1,2,…,n是输出反馈信号的延迟;
W为连接权值;
Wjp是第j个隐含层节点与延迟步长为p的外部输入变量之间的连接权值;
Wjq是第j个隐含层节点与延迟步长为q的输出反馈信号之间的连接权值;
x(t)是t时刻外部输入变量的值;
x(t-p)为网络输入延时参数;
x(t-q)为外部反馈延时参数;
bj是第j个隐含层节点的偏移;
步骤B3:根据以下公式计算NARX神经网络的最终输出y(t+1);
其中,y(t)是t时刻目标量的值;
x(t)是t时刻外部输入变量的值;
n是输入样本的特征数即输入神经元数;
m是隐藏层神经元数;
W为连接权值;
S为隐含层节点个数;
步骤A3中采用信赖域法利用训练集训练NARX神经网络预测模型的权值和偏移值具体包括以下步骤:
步骤C1:设定一个最大位移为半径的区域,在该区域内寻目标函数的最优点;
步骤C2:若目标函数值增大,则调整该区域范围继续求解;
若目标函数值减小,则按此规则继续迭代计算。
上述的一种蚁狮算法优化NARX神经网络风险预测系统,其中:
步骤A4中采用改进的蚁狮算法优化NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
初始化NARX神经网络的权值和偏移值,根据训练集确定NARX神经网络拓扑结构和各层的节点数,待优化个体的维数为(n+1)×m,n为输入样本的特征数即输入神经元数,m为隐藏层神经元数,将NARX神经网络的权值和偏移值作为蚁狮种的位置向量进行编码,确定各个蚁狮在种维度上的位置,设定种初始规模为P,最大规模为Pmax,为每个蚁狮个体并代表一个NARX神经网络结构,表达式如下:
其中,wij表示位于[-1,1]之间第i个隐藏层神经元与第j个输入神经元间的权值;
bi表示位于[0,1]之间第i个隐藏层神经元的偏移值;
改进的蚁狮算法为更新蚂蚁游走边界方式,蚂蚁游走边界方式的定义公式如下:
其中,γ为收缩调节系数;λ为比例因子;t为当前迭代次数;T为最大迭代次数。
第二方面,一种蚁狮算法优化NARX神经网络风险预测方法,其中,包括以下步骤:
步骤A1:从客户数据中获取建模所需的贷款数据作为客户贷款数据样本,对客户贷款数据样本中的每个客户进行标签化处理获取客户相应的特征数据,并依据客户还款记录标记客户风险等级,依据特征分类提取客户贷款数据样本中的特征数据并与客户风险等级关联组成样本数据集;
步骤A2:对样本数据集进行预处理并依据7:3的比例切分成训练集和测试集,并对训练集和测试集归一化处理;
步骤A3:建立NARX神经网络预测模型,利用训练集训练NARX神经网络预测模型;
步骤A4:采用改进的蚁狮算法优化NARX神经网络预测模型,利用指定网络性能评价函数优化NARX神经网络预测模型;
步骤A5:利用测试集对NARX神经网络预测模型进行预测性能测试得到预测性能测试数据,并与遗传算法、粒子算法进行对比,根据测试集为欺诈用户的欺诈概率值,利用获得的逾期概率值与对应实际样本进行比对并判断逾期预测模型的稳定性并制定偏移;
步骤A6:通过NARX神经网络预测模型获取存量在贷用户的历史行为特征数据并输出客户逾期风险预测数据。
上述的一种蚁狮算法优化NARX神经网络风险预测方法,其中:
步骤A1中所述客户贷款数据样本为首次借款申请时间在6-12个月内并具有还款记录的10000个贷款数据;
所述客户贷款数据样本包含客户的多维度数据,所述多维度数据包括客户属性数据、客户借贷数据、用户平台操作行为数据;
根据还款记录对所述客户贷款数据样本中每个客户进行标签化处理;
所述原始数据包括业务类型和客户的历史行为特征数据;
步骤A2中对所述样本数据集进行特征筛选、缺失补全、异常值处理的预处理。
上述的一种蚁狮算法优化NARX神经网络风险预测方法,其中:
步骤A3中建立所述NARX神经网络预测模型的具体包括以下步骤:
步骤B1:网络初始化,根据客户贷款数据样本中的标签个数与影响逾期风险维度个数确定NARX神经网络的输入层节点数、输出层节点数、隐含层节点数,并确定学习速率和神经元的激活函数,并初始化输出层、输出层与隐含层之间的连接权值、隐含层偏移、输出层偏移;
步骤B2:根据以下公式计算隐含层节点输出H;
其中,Hj为第j个隐含层节点输出;
f()是隐含层节点的激活函数,选用tanh函数;
p=1,2,…,m是外部输入变量的延迟;
q=1,2,…,n是输出反馈信号的延迟;
W为连接权值;
Wjp是第j个隐含层节点与延迟步长为p的外部输入变量之间的连接权值;
Wjq是第j个隐含层节点与延迟步长为q的输出反馈信号之间的连接权值;
x(t)是t时刻外部输入变量的值;
x(t-p)为网络输入延时参数;
x(t-q)为外部反馈延时参数;
bj是第j个隐含层节点的偏移;
步骤B3:根据以下公式计算NARX神经网络的最终输出y(t+1);
其中,y(t)是t时刻目标量的值;
x(t)是t时刻外部输入变量的值;
n是输入样本的特征数即输入神经元数;
m是隐藏层神经元数;
W为连接权值;
S为隐含层节点个数;
步骤A3中采用信赖域法利用训练集训练NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
步骤C1:设定一个最大位移为半径的区域,在该区域内寻目标函数的最优点;
步骤C2:若目标函数值增大,则调整该区域范围继续求解;
若目标函数值减小,则按此规则继续迭代计算。
上述的一种蚁狮算法优化NARX神经网络风险预测方法,其中:
步骤A4中采用改进的蚁狮算法优化NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
初始化NARX神经网络的权值和偏移值,根据训练集确定NARX神经网络拓扑结构和各层的节点数,待优化个体的维数为(n+1)×m,n为输入样本的特征数即输入神经元数,m为隐藏层神经元数,将NARX神经网络的权值和偏移值作为蚁狮种的位置向量进行编码,确定各个蚁狮在种维度上的位置,设定种初始规模为P,最大规模为Pmax,每个蚁狮个体代表一个NARX神经网络结构,表达式如下:
其中,wij表示位于[-1,1]之间第i个隐藏层神经元与第j个输入神经元间的权值;
bi表示位于[0,1]之间第i个隐藏层神经元的偏移值;
改进的蚁狮算法为更新蚂蚁游走边界方式,蚂蚁游走边界方式的定义公式如下:
其中,γ为收缩调节系数;λ为比例因子;t为当前迭代次数;T为最大迭代次数。
第三方面,一种电子设备,其中,包括:存储器和处理器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器调用存储于所述存储器中的程序,以执行第二方面中任一项所述的方法。
第四方面,一种计算机可读存储介质,其中,其上存储有计算机程序,所述计算机程序被计算机运行时执行第二方面中任一项所述的方法。
本发明与现有技术相比具有以下优点:
(1)与传统的循环神经网络(RNN)相比,NARX神经网络在学习能力、收敛速度、泛化性能和预测精度等方面可以表现出更好的效果,满足金融逾期风险预测需求的精确性与高效性,非常适合对客户还款进行预测;
(2)相比遗传和粒子等优化算法,蚁狮算法具有相对较好的寻优效率和收敛精度,通过蚁狮的随机选择、蚂蚁的随机游走以及陷阱的自适应缩减边界等机制保证了算法对搜索空间的较好探索性能,实现了蚁狮算法的较快寻优效率;
(3)采用连续性边界收缩因子、更新动态权重系数、加入反调节因子调节步长来改进的蚁狮算法,提高了蚁狮算法的寻优性能和收敛效率;
(4)基于改进蚁狮算法优化NARX神经网络逾期风险模型,满足互联网金融平台贷中风险预测过程的准确性和效率要求,可实行不同的贷中风险管控措施,对高概率违约用户生成建议处理措施,减小贷款损失。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明一种蚁狮算法优化NARX神经网络风险预测系统的模块框图。
图2为本发明一种蚁狮算法优化NARX神经网络风险预测方法的流程图。
用户端100、服务端200、信息采集模块101、风险预测发起模块102、信息处理模块103、数据库104、风险预测模块105。
实施例1:
一种蚁狮算法优化NARX神经网络风险预测系统,其中,包括用户端100、服务端200,用户端100包含信息采集模块101、风险预测发起模块102,服务端200包括信息处理模块103、数据库104、风险预测模块105;
信息采集模块101,用于用户采集客户的数据并整合成客户数据;
风险预测发起模块102,用于用户发起风险预测申请请求;
信息处理模块103,用于获取客户数据并存储至数据库104,还用于获取并审核风险预测申请请求并生成传输至用户端100与风险预测模块105的审核信息;
数据库104,用于存储客户数据;
风险预测模块105,用于获取审核信息并依据审核信息获取数据库104内的客户数据,还用于对客户数据进行风险预测得出客户逾期风险预测数据;
风险预测模块105对客户数据进行风险预测得出客户逾期风险预测数据包括以下步骤:
步骤A1:从客户数据中获取建模所需的贷款数据作为客户贷款数据样本,对客户贷款数据样本中的每个客户进行标签化处理获取客户相应的特征数据,并依据客户还款记录标记客户风险等级,依据特征分类提取客户贷款数据样本中的特征数据并与客户风险等级关联组成样本数据集;
步骤A2:对样本数据集进行预处理并依据7:3的比例切分成训练集和测试集,并对训练集和测试集归一化处理;
步骤A3:建立NARX神经网络预测模型,利用训练集训练NARX神经网络预测模型;
步骤A4:采用改进的蚁狮算法优化NARX神经网络预测模型,利用指定网络性能评价函数优化NARX神经网络预测模型;
步骤A5:利用测试集对NARX神经网络预测模型进行预测性能测试得到预测性能测试数据,并与遗传算法(GA)、粒子算法(PSO)进行对比,根据测试集为欺诈用户的欺诈概率值,利用获得的逾期概率值与对应实际样本进行比对并判断逾期预测模型的稳定性并制定偏移;
还可与蚁算法(ACO)、蚁狮算法(ALO)、改进的蚁狮算法(IALO)作为优化NARX神经网络参数的对比算法,以验证蚁狮算法优化NARX神经网络参数的优越性能;
遗传算法(GA)参数设置为:种个数N=20,交叉率为pc=0.8,变异率pm=0.15;
粒子算法(PSO)参数设置为:粒子个数N=20,更新速度c1=c2=2,权值w=0.6;
蚁算法(ACO)其他参数设置为:信息素增加强度Q=1,信息素挥发系数Rho=0.8,蚂蚁爬行速度V=0.3;
蚁狮算法(ALO)和改进的蚁狮算法(IALO)参数:蚂蚁和蚁狮的种数量N=10,下界lb=0.01,上界ub=100;
4个算法的最大迭代次数T=150;
步骤A6:通过NARX神经网络预测模型获取存量在贷用户的历史行为特征数据并输出客户逾期风险预测数据,实行不同的贷中风险管控措施,对高概率违约用户生成建议处理措施,减小贷款损失,还可将NARX神经网络预测模型部署至贷款平台进行客户逾期风险预测。
根据预测逾期金额与实际逾期金额的均方误差(MSE)、平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和拟合度系数(EC)作为评价指标,计算公式分别如下:
其中,n为预测样本的个数,y′i为相应模型的预测结果,yi为样本实际输出结果;
上述评价指标中,MSE、MAPE和MAE的取值越小,表明预测误差越小,相应模型的预测性能越好;EC的取值越接近于1,表明预测值与真实值之间的拟合程度越高,两者之间有更加相似的演化趋势,见下表1:
表1
IALO-NARX模型的MSE、MAPE和MAE值均低于参比模型,其拟合度系数EC值均高于其他模型,表明改进改进蚁狮算法优化NARX神经网络具有较小的预测误差,且拟合程度较高。
上述的一种蚁狮算法优化NARX神经网络风险预测系统,其中:
步骤A1中客户贷款数据样本为首次借款申请时间在6-12个月内并具有还款记录的10000个贷款数据,根据贷款产品业务提前确定好贷款的观察期、表现期;
客户贷款数据样本包含客户的多维度数据,多维度数据包括客户属性数据、客户借贷数据、用户平台操作行为数据;
客户属性数据包括收入、消费、职业、城市、性别、年龄;
客户借贷数据包括借贷频率、借贷次数、借贷额、逾期率、还款积极度、历史还款记录、已还款期、应还款期、还款期数、和/或贷款多头数量;
用户平台操作行为数据包括但不限于登录本平台的次数、网页/网站的点击次数、点击频率等信息;
根据客户借贷数据可以得到客户贷款历史行为特征衍生变量,包括历史违约次数、历史违约金额、违约时间间隔、历史申请次数、申请金额、被拒次数、贷款账龄占贷款期限比例、当前期数内资金流入金额、当期流入金额与还款金额差值等需要经过数据处理获取的信息;
借款信息包括但不限于借款金额、借款利率、借款期限、本次借款距上次借款的间隔时间、借款用途、历史借款次数、逾期次数、在其他平台的借款次数、借款金额、逾期次数等;根据还款记录对客户贷款数据样本中每个客户进行标签化处理,即根据客户贷款数据样本对应的客户历史信贷情况建立客户标签,以一个客户的样本数据为例,若首次还款的逾期天数小于等于30天则定义为好客户,即优质客户,用0表示;相对的,若首次还款的逾期天数大于30天则定义为坏客户,即需要重点监控的客户,用1表示;
设定正样本与负样本的数量与比例,并判断正样本与负样本的比例是否满足设定比例,并进一步通过过采样或欠采样,以使正样本和负样本的比例满足设定比例,以实现样本数据的均衡;
原始数据包括业务类型和客户的历史行为特征数据;
历史行为特征由行为时序类特征得到,时间序列数据是按照时间先后顺序对用户在预设时间段内的实际指标值进行排序得到的指标值序列,包括点击浏览数据、浏览时长数据、浏览范围数据、用户信息指标、位置指标和设备指标,一般基于埋点操作所收集的数据来提取,包括访问行为信息包括在预设时间段内(例如,最近一周、一个月、三个月、半年、一年,等等)、用户对特定网站(包括但不限于传统的Web网站、从移动端应用(APP)访问的网页)的行为数据,如操作和浏览情况(包括各个操作细节、操作时间、操作位置、IP地址等信息),其由业务服务端200所记录;
时序性行为特征利用注意力机制提取,采用LSTM网络进行深度、时序特征的提取,通过LSTM网络对用户行为数据进行编码处理,得到处理后的用户行为数据,该编码处理后的用户行为数据包括t1、t2、t3、t4以及t5这5个时刻编码处理后的用户行为数据,且该编码处理后的用户行为数据分为s1、s2以及s3这3个维度的行为特征;针对时间的字段,直接将其当做连续值特征,统计当前时间与用户注册时间、生日时间、贷款时间、消费时间、浏览时间差值;或另一种是离散化处理构建特征,每10天作为一个区间;
另外在合规要求下,不限于获取三方征信数据,包括:查询申请人的风险欺诈类的、大数据评分类的、多头借贷类、手机在网时长和状态类、司法信息类、工商信息类、电信消费记录类等;
步骤A2中对样本数据集进行特征筛选、缺失补全、异常值处理的预处理;
特征筛选,对信息库中的特征进行分析,具体地,诸如统计指标,包括最大值、最小值、中值、均值、方差、异常值、缺失值等,查看数据的分布,例如,可以通过箱线图直观明了地识别数据中的异常值,以及数据的分散程度;通过查看最大值、最小值和平均值,可确定案件部分信息的数据真实性,通过方差可以提供有关数据稳定性信息,去掉为固定常数的特征变量,也可以通过删除包含缺失值或异常值的案件或用合理的数值(平均值)代替,通过对这些指标的观察,简单判断该属性是否可以在建模过程中作为自变量并使用;
缺失补全,常用的缺失值处理方法有三种:
(1)直接删除缺失值,但前提是缺失样本的比例较少且是随机出现的,这样删除缺失值后对分析结果影响不大;
(2)替换缺失值,处理简单且不会减少样本信息,但当缺失值不是随机出现时会产生偏差;
(3)多重插补法,通过变量间关系来预测缺失数据,利用蒙特卡罗随机模拟方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理;
归一化处理,用于将数据按比例缩放,使其固定在一个特定区域并对数据标准化,将数据映射至起始值和终止值分别为0和1的区间中或者利用对数运算对数据进行处理,归一化表达式为:
其中,Xnorm为归一化后的数据,X为样本原始数据,Xmax和Xmin分别为原始数据集合中的最大值和最小值。
上述的一种蚁狮算法优化NARX神经网络风险预测系统,其中:
步骤A3中建立NARX神经网络预测模型的具体包括以下步骤:
步骤B1:网络初始化,根据客户贷款数据样本中的标签个数与影响逾期风险维度个数确定NARX神经网络的输入层节点数、输出层节点数、隐含层节点数,并确定学习速率和神经元的激活函数,并初始化输出层、输出层与隐含层之间的连接权值、隐含层偏移、输出层偏移;
步骤B2:根据以下公式计算隐含层节点输出H;
其中,Hj为第j个隐含层节点输出;
f()是隐含层节点的激活函数,选用tanh函数;
p=1,2,…,m是外部输入变量的延迟;
q=1,2,…,n是输出反馈信号的延迟;
W为连接权值;
Wjp是第j个隐含层节点与延迟步长为p的外部输入变量之间的连接权值;
Wjq是第j个隐含层节点与延迟步长为q的输出反馈信号之间的连接权值;
x(t)是t时刻外部输入变量的值;
x(t-p)为网络输入延时参数;
x(t-q)为外部反馈延时参数;
bj是第j个隐含层节点的偏移;
步骤B3:根据以下公式计算NARX神经网络的最终输出y(t+1);
其中,y(t)是t时刻目标量的值;
x(t)是t时刻外部输入变量的值;
n是输入样本的特征数即输入神经元数;
m是隐藏层神经元数;
W为连接权值;
S为隐含层节点个数;
可以看出NARX神经网络的结构与传统前馈型神经网络最大的区别在于NARX神经网络同时加入输入和反馈输出的延迟量,使其在计算时可以同时考虑当前时刻与前几个时刻的值,并通过不断学习目标和输入之间的非线性关系来调整神经网络的内部权值系数,从而计算出目标量的估值,达到预测的目的;
步骤A3中采用信赖域法利用训练集训练NARX神经网络预测模型的权值和偏移值具体包括以下步骤:
步骤C1:设定一个最大位移为半径的区域,在该区域内寻目标函数的最优点;
步骤C2:若目标函数值增大,则调整该区域范围继续求解;
若目标函数值减小,则按此规则继续迭代计算,该算法可在保证网络拟合精度的前提下缩小网络规模,从而降低网络复杂性以获取良好的泛化性能,具有迭代次数少、收敛速度快、精度高等优点;
与BP、RBF神经网络一样,NARX神经网络权值和偏移值容易受到初值的影响,容易陷入局部最优,目前常用遗传算法和粒子算法和优化NARX神经网络模型中的权值和偏移值,虽然取得较好效果,但依然存在计算复杂度高、参数敏感等缺点;
NARX神经网络的学习训练调整权值和偏移,一般采用的莱温伯格-马夸特(Levenberg-Marquards)算法属于信赖域法,该算法是梯度下降法和牛顿法的结合,运用Jacobian迭代指导权值调整;
NARX(Nonlinear Auto-Regression with External input)神经网络称为“有外部输入的非线性自回归网络”,是一种动态的前馈神经网络,其输出结果取决于当前输入以及过去的输出结果,由于存在延时反馈,因此对历史状态信息有记忆功能,能够很好反映时间序列的时变特性;
NARX神经网络主要由输入层、隐含层、输出层及输入和输出延时层构成,输入层节点用于信号输入,延时层节点用于输入信号和输出反馈信号的时间延迟,隐层节点利用激活函数对延时后的信号做非线性运算,输出层节点则用于将隐层输出做线性加权获得最终网络输出;使用的神经元个数和延迟阶数过多会降低网络的泛化性能,从而增加其运算时间,所以,即使隐含神经元个数和隐含层数与模型的非线性拟合能力成正比,在实际操作中,通常也会在保证预测质量的前提下选择用时相对较少的方案;
NARX神经网络同时引入2个时间序列,运用被预测时间序列y(t)的历史值和另外一时间序列x(t)的历史值来预测时间序列y(t)的未来值,这种形式的预测被称为具有外部输入的非线性自回归。
上述的一种基于蚁狮算法优化NARX神经网络逾期风险预测系统,其中:
步骤A4中采用改进的蚁狮算法优化NARX神经网络预测模型的权值和偏移值,具体包括以下步骤:
初始化NARX神经网络的权值和偏移值,根据训练集确定NARX神经网络拓扑结构和各层的节点数,待优化个体的维数为(n+1)×m,n为输入样本的特征数即输入神经元数,m为隐藏层神经元数,将NARX神经网络的权值和偏移值作为蚁狮种的位置向量进行编码,确定各个蚁狮在种维度上的位置,设定种初始规模为P,最大规模为Pmax,每个蚁狮个体代表一个NARX神经网络结构,表达式如下:
其中,wij表示位于[-1,1]之间第i个隐藏层神经元与第j个输入神经元间的权值;
bi表示位于[0,1]之间第i个隐藏层神经元的偏移值;
改进的蚁狮算法为更新蚂蚁游走边界方式,蚂蚁游走边界方式的定义公式如下:
其中,γ为收缩调节系数;λ为比例因子;t为当前迭代次数;T为最大迭代次数。
蚁狮优化算法(Ant Lion optimization,ALO)是一种模拟自然界中蚁狮捕食蚂蚁行为的新型元启发式智能算法,蚁狮算法包括蚂蚁、蚁狮和精英蚁狮;蚂蚁代表随机解,蚁狮代表局部最优解,精英蚁狮代表着全局最优解,蚂蚁的游走,最终会落入哪一个蚁狮的陷阱通过赌策略选择,适应度越高的蚁狮有着更高捕获蚂蚁的机会;随着每次蚂蚁的随机游走,蚁狮的适应度值不断更新,选取适应度最好的蚁狮来作为精英蚁狮;蚁狮算法具有相对较好的寻优效率和收敛精度,通过蚁狮的随机选择、蚂蚁的随机游走以及陷阱的自适应缩减边界等机制保证了算法对搜索空间的较好探索性能,实现了蚁狮算法的较快寻优效率;
初始化种,随机初始化蚂蚁和蚁狮种,设定蚂蚁和蚁狮的种数量为N,蚂蚁逃脱的概率为Pesc,逃脱的最大蚂蚁数量为Nant_esc,收敛偏移为ε,当前迭代为t,迭代的最大次数为T;
蚁狮狩猎主要分为五个步骤:蚂蚁随机游走、蚁狮构筑陷阱、蚁狮诱捕陷入陷阱中的蚂蚁、蚁狮捕食猎物、蚁狮重建陷阱;
蚂蚁随机游走,随机游走的数学表达式如下:
x(t)=[0,cumsum(2r(t1)-1),cumsum(2r(t2)-1),…,cumsum(2r(tn)-1)];
其中,cumsum为蚂蚁游走位置的累积;
n为设置的最大迭代次数;
t为游走的步数即当前迭代次数;
r(t)表示一个随机函数,定义如下:
其中,t表示随机游走步数即迭代次数;
rand是在[0,1]区间内均匀分布生成的随机数;
在优化过程中,蚂蚁的每一步都根据随机游走来更新它的位置,但是,它的搜索空间有边界限制,防止越界,蚂蚁的第i维变量在第t次迭代时的位置计算公式如下:
其中,ai和di分别表示第i个变量随机游走的最小值和最大值;
和分别表示第t次迭代时第i个变量随机游走的最小值和最大值;
蚁狮构建陷阱,蚁狮算法模拟蚁狮的狩猎过程,以均方根误差作为蚁狮适应度值f,计算公式如下:
其中,Yk为样本k的实际值;
Ok为样本k的预测值,k=1,2,…n为训练样本数;
蚂蚁进入陷阱,蚂蚁游走的区域边界受蚁狮位置的影响,蚂蚁的随机游走受到蚁狮陷阱的影响,其在选定的蚁狮周围的超球内运动,公式如下所示:
其中,ct是第t次迭代中所有变量的最小值;
dt表示包含第t次迭代中所有变量的最大值;
是在第t次迭代中第i只蚁狮的位置;
蚂蚁落入陷阱中心,一旦蚁狮意识到蚂蚁进入陷阱,为阻止其逃走,蚁狮就会向外挖沙子,滑落试图逃跑的蚂蚁,使蚂蚁滑向陷阱中心。这时蚂蚁随机行走超球面的半径会自适应地减小数学上表示为:
其中,I为边界收缩因子;t为当前迭代;T为迭代的最大次数;w是一个基于t和T定义的常量,取值为[2,6]之间的整数。
随着迭代次数增加自适应的减小c与d的值,有效地提高收敛速度,寻求得到最优解。
蚁狮重建陷阱,蚁狮在蚂蚁到达陷阱中心捕捉蚂蚁,此时蚂蚁比蚁狮具有更好的目标位置,蚁狮需要更新到捕获蚂蚁的位置,将蚂蚁将作为下一代蚁狮在其位置修筑“陷阱”,以增加捕捉新猎物的机会。蚁狮更新位置的公式如下:
其中,t为当前迭代;Antti表示第t次迭代时第i只蚂蚁的位置;
蚁狮精英化,蚁狮算法通过赌选择和随机游走确定蚂蚁的位置,公式如下所示:
其中,Antti表示第t次迭代的第i维蚂蚁的位置;
RtA是在第t次迭代中赌选中的在蚁狮周围随机游走的蚂蚁;
RtE是在第t次迭代中随机游走在精英蚁狮周围的蚂蚁;
改进蚁狮算法包括以下步骤:
S1:连续性边界收缩因子;
在原始的蚁狮算法中,在上述蚂蚁落入陷阱中心,蚂蚁围绕陷阱游走阶段,其边界即搜索范围逐渐缩小,以开发陷阱局部最优值,但边界收缩因子I的变化呈现间断,由于I的间断式增大,搜索边界不均匀缓慢衰减,搜索优化解的范围也越来越小,导致收敛速度较低和易陷入局部极值;
针对上述问题,为了增强蚁狮算法的遍历性,提高蚁狮算法的寻优性能和收敛效率,本专利提出一种随着算法迭代进化而快速连续增大的边界收缩因子方法,将蚂蚁游走边界更新方式定义为:
其中,γ为收缩调节系数;λ为比例因子;经过多次基准函数优化实验,选取γ=400,λ=20;t和T分别为当前迭代次数和最大迭代次数;
S2:位置更新动态权重系数;
针对原始蚁狮算法蚁狮重建陷阱,在迭代后期,蚁狮位置易陷入局部最优的问题,本专利提出一种基于正态分布和柯西分布动态调整的混合变异方法,对蚁狮位置Antliontj进行变异扰动操作,表达式如下:
其中,Antliont+1j为第t+1代的蚁狮位置;η为调节系数;C(0,1)为服从柯西分布的变异因子;N(0,1)为服从正态分布的变异因子;
赌选择蚁狮的权重系数w1在迭代前期较大,使蚂蚁在搜索空间内探索更优区域,而在后期,精英蚁狮邻近最优区域,其权重系数w2逐渐增大,使蚂蚁在最优区域邻域开发,以此提高算法全局探索与局部开发的平衡能力;
S3:加入反调节因子调节步长;
针对原始蚁狮算法蚁狮精英化,整个优化过程中,蚁狮的作用是在较优解的地方寻附近的最优解,但寻优的步长是固定的,在迭代后期,局部搜索空间变小,步长较大易产生震荡,收敛速度变慢,且容易错过最优值区域,本专利在蚁狮的移动步长中加入反调节因子T/(100elg(t)),算法前期的步长较大,随着迭代的增加,反调节因子逐渐递减,后期的步长越来越小,利于到全局最优值,加入反调节因子调节步长表达式如下:
其中,RtE是在第t次迭代中随机游走在精英蚁狮周围的蚂蚁;t和T分别为当前迭代次数和最大迭代次数;rand()是在[0,1]区间内均匀分布生成的随机数;
S4:建立ALO-NARX神经网络逾期风险预测模型;
将改进蚁狮算法的全局最优解解码,作为NARX神经网络的初始权值和初始偏移进行训练,建立ALO-NARX神经网络逾期风险预测模型,判断是否满足NARX网络训练结束的条件,若满足,则训练结束,得到最优的网络结构,可输入测试集样本数据进行预测;若不满足,转至蚂蚁随机游走。
实施例2:
提供一种蚁狮算法优化NARX神经网络风险预测方法,包括步骤A1-A6。
一种电子设备,其中,包括:存储器和处理器,处理器和存储器连接;
存储器用于存储程序;
处理器调用存储于存储器中的程序,以执行上述任一项的方法。
一种计算机可读存储介质,其中,其上存储有计算机程序,计算机程序被计算机运行时执行上述任一项的方法。
作为客户贷款数据样本客户贷款历史行为特征衍生变量数据需要说明的是,电子设备,可以是,但不限于个人电脑(personal computer,PC)、平板电脑、移动上网设备(mobile internet device,MID)等设备。
应当注意的是,处理器、存储器以及其他可能出现于电子设备的组件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,处理器、存储器以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,手机,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
本文发布于:2023-04-15 08:20:23,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/4/87045.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |