G06Q40/02 G06F16/2458 G06N3/04 G06N3/08 G06K9/62
1.一种基于GCN的欺诈风险预测方法,其特征在于,包括:
获取当前转账申请数据;
根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
2.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
3.如权利要求2所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
4.如权利要求3所述的基于GCN的欺诈风险预测方法,其特征在于,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,包括:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
5.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:
检测识别出的当前转账业务网络数据中个体或体的欺诈行为的类型;
在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
6.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,还包括:为识别出的当前转账业务网络数据中个体或体的欺诈行为设定不同等级的风险标签,得到风险标签池;所述风险标签池用于指导银行交易。
7.如权利要求1所述的基于GCN的欺诈风险预测方法,其特征在于,所述体特征包括:网络结构相关的体拓扑特征和个体信息相关的体实体特征。
8.一种基于GCN的欺诈风险预测装置,其特征在于,包括:
获取单元,用于获取当前转账申请数据;
业务网络构建单元,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
9.如权利要求8所述的基于GCN的欺诈风险预测装置,其特征在于,还包括建立单元,用于按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
10.如权利要求8所述的基于GCN的欺诈风险预测装置,其特征在于,还包括:
检测单元,用于检测识别出的当前转账业务网络数据中个体或体的欺诈行为的类型;
样本更新单元,用于在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
模型更新单元,用于利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7任一所述方法的计算机程序。
本发明涉及人工智能技术领域,尤其涉及一种基于GCN的欺诈风险预测方法及装置。
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
金融欺诈风险因其涵盖范围广、防控难度大等特点,成为银行业内损失最为严重的几大风险之一。对银行系统而言,主要面对两类欺诈风险,一类是信用风险,一类是欺诈风险。信用风险主要是对借款人还款能力和还款意愿进行评估,而欺诈风险则是对借款人的目的是否正当进行判断。
金融机构可通过风险定价和自有备付金进行防范,风险可控性相对较大,欺诈风险每年导致银行损失金额高达数亿美元,因此银行迫切需要构建一个准确高效的银行业务欺诈识别模型,减少欺诈带来的损失。
在银行反欺诈领域,传统的方法是采取“黑白名单”,通过人工方式制定检测规则,当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略,但无法对各类欺诈行为进行全面覆盖。导致专家规则因更新不及时,积累到一定数量后造成误报率通常偏高,进而能够影响到实际风险决策制定和实际业务开展。
本发明实施例提供一种基于GCN的欺诈风险预测方法,用以实现基于GCN高效准确地预测欺诈行为,该方法包括:
获取当前转账申请数据;
根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例还提供一种基于GCN的欺诈风险预测装置,用以实现基于GCN高效准确地预测欺诈行为,该装置包括:
获取单元,用于获取当前转账申请数据;
业务网络构建单元,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于GCN的欺诈风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于GCN的欺诈风险预测方法的计算机程序。
本发明实施例中,基于GCN的欺诈风险预测方案,与现有技术中采取黑白名单识别欺诈行为,效率和准确率都低的技术方案相比,通过:获取当前转账申请数据;根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立,可以实现基于GCN高效准确地预测欺诈行为。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中图卷积神经网络GCN分类示意图;
图2为本发明实施例中基于GCN的欺诈风险预测的原理示意图;
图3为本发明实施例中业务网络示意图;
图4为本发明实施例中GCN欺诈风险预测模型的示意图;
图5为本发明实施例中卷积网络构建GCN欺诈风险预测模型处理各阶段说明示意图;
图6为本发明实施例中基于GCN的欺诈风险预测方法的流程示意图;
图7为本发明实施例中基于GCN的欺诈风险预测装置的结构示意图。
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
伴随银行服务模式日趋多样化,在客户享受灵活便捷服务的同时,银行欺诈风险呈现出更加隐蔽、专业的特点。因此,以机器学习算法为核心驱动建立智能化的风险预测模型,深度挖掘数据价值,成为欺诈风险防范的一种强力手段。经过长时间的反欺诈业务系统存储的大量数据样本,借助图卷积神经网络可进一步地整合同业欺诈数据,将更多样的欺诈数据特征纳入共建反欺诈模型,快速挖掘银行业务中的欺诈行为。
本发明实施例提出了一种基于GCN的银行反欺诈风险预测方案,该方案利用图卷积神经网络(Graph Neural Network,GNN,如图1所示)中的分支(Graph ConvolutionalNetwork,GCN)对银行中金融产品销售、信用卡申请、借贷、转账等业务进行数据挖掘,发现其中的欺诈行为,为银行业务开展提供安全保障,适用于完善银行业反欺诈管理平台,进一步提高欺诈防控水平。
该方案通过机器学习众多人工审核数据,吸取业务专家经验以及发生过的欺诈案例来创建规则库,训练专家人工审核模型。初步完成清洗剔除诸多不可疑的交易数据,重点对可疑案宗进行预排序和分类,根据审核模型对不同时间段欺诈案件历史样本的审核结果与实际交易结果的比对,把它映射成为高维空间的表达式,不断优化模型参数,大幅提高审核效率,降低成本,最终形成卷积网络构建的欺诈识别模型。从而能够对未知案宗在做同样特征向量的提取后,进行预测和评分,甚至在此基础上,判别欺诈案宗属于何种类型。
该方案使训练模型接近资深反欺诈专家水平,弥补反欺诈专家的不足,优化专家资源配置,提供更加精准优良的反欺诈方案起到了指导作用。为银行业务的流水数据构建业务交互网络的同时,助力银行构建智能化反欺诈体系的进程,营造良好的资金安全与金融生态。
下面对该基于GCN的银行反欺诈风险预测方案进行详细介绍。
图6为本发明实施例中基于GCN的欺诈风险预测方法的流程示意图,如图6所示,该方法包括如下步骤:
步骤101:获取当前转账申请数据;
步骤102:根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
步骤103:将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
本发明实施例提供的基于GCN的欺诈风险预测方法可以通过当前转账申请数据构建转账业务网络,进而使用GCN欺诈风险预测模型识别业务网络中个体特征或体特征,基于个体特征或体特征识别欺诈行为,实现了基于GCN高效准确的预测欺诈行为。下面对该方法涉及的各个步骤进行详细介绍。
本发明实施例利用GCN进学习网络中个体的特征以及个体与周围的关系,从而解决银行业务中网络中个体或体分类的问题,下面以银行中的转账为例子,阐述如何通过GCN构建反欺诈模型(GCN欺诈风险预测模型),如图2所示,主要流程分为4个步骤,分别是:收集数据、特征清洗及构建业务网络、搭建图卷积学习模型、模型学习及预测。下面进行详细介绍。
一、首先,介绍预先建立GCN欺诈风险预测模型的步骤,即上述“收集数据、特征清洗及构建业务网络、搭建图卷积学习模型、模型学习”的步骤。
1.如图2和图5所示,首先介绍数据准备(收集)的步骤。
步骤1:通过分析转账申请进件审批数据,确定数据中包含两种角,分别是申请人和接受人,从日常业务系统中随机抽取一定时间内的10份的转账记录,信息包括转账人的基本信息,如:年龄、性别、居住地等信息,通过银行的数据融合,同样可以在其他业务上收集接受人的个人信息,将发生转账行为的双方信息汇总如下,构建为申请数据(转账申请数据),举例如下:
某申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...);
某申请数据2:(2021.02.01,陈二,男,25,...,张B,男,26,...);
某申请数据3:(2021.02.01,张三,男,26,...,吴C,男,27,...);
某申请数据4:(2021.02.01,李四,女,19,...,张B,男,26,...);
某申请数据5:(2021.03.02,王五,男,23,...,王DD,女,25,...);
某申请数据6:(2021.02.02,赵六,男,25,...,吴C,男,27,...);
某申请数据7:(2021.02.02,钱七,女,19,...,王DD,女,25,...);
某申请数据8:(2021.03.02,周八,男,23,...,张B,男,26,...);
某申请数据9:(2021.02.03,吴九,男,25,...,王DD,女,25...);
某申请数据10:(2021.02.03,郑十,女,19,...,张B,男,26,...);
某申请数据11:(2021.02.01,张三,男,26,...,吴C,男,27,...);
某申请数据12:(2021.02.01,张三,男,26,...,王DD,女,25,...);
某申请数据13:(2021.02.01,张三,男,26,...,叶AA,女,26,...);
某申请数据14:(2021.03.02,王五,男,23,...,吴C,男,27,...);
某申请数据15:(2021.02.02,赵六,男,25,...,吴C,男,27,...);
某申请数据16:(2021.02.02,钱七,女,19,...,王DD,女,25,...);
某申请数据17:(2021.02.03,郑十,女,19,...,叶AA,女,26,...);
某申请数据18:(2021.02.02,钱七,女,19,...,王DD,女,25,...)。
步骤2:构建用户反欺诈风险标签数据。
2.接着,如图2和图5所示,介绍预处理的步骤,即特征清洗以及构建业务网络(转账业务网络)的步骤。
1)清洗数据(预处理的步骤):首先是清除无效数据和干扰数据,去掉孤立节点,去掉安全节点,清理规则如下:
清除只有两个节点的子网络,形成该节点的人基本可以断定是正常小额转账业务,且转账链路非同一子节点的无需进行欺诈判别。
清除只有三个节点的子网络,因为以家人关系而形成的团体,一般至少由三人形成分组。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步尽职调查。
通过上述可知,在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
具体实施时,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,可以进一步提高欺诈识别的准确率。
通过上述可知,在一个实施例中,对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据,可以包括:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
具体实施时,上述清理数据的实施方式可以进一步提高欺诈预测的准确率。
当然,如图5所示,预处理还可以包括数据转换,规范数据等。
2)构建网络:
完成数据清理后,统计每条记录,记录客户个体与个体之间发生业务的次数(转账人和接受人之间发生转账业务的次数),如:“张三”在不同日期向“吴C”转账2次,则记录“张三-吴C:2”。该数值作为网络中张三和吴C之间的边链接的权重。整理以上记录得到以下信息(如下表1所示),举例如下:可以称为数据字典:
表1
在建构建网络的过程中将转账人和接受人作为网络的关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人这两种角的年龄、手机号、单位电话、、学历、年收入、职位等基本信息作为每个节点的属性,构建得到图3(有向图,即转账业务网络)。
业务网络中连接比较紧密的个体而言,通常可以采用度中心性、接近中心性和介中心性三个指标,其中度中心性表示连接到某节点的边数,根据金钱流向可将其分为入度和出度,如张三的出度是7入度是0,王DD的出度是0入度是12,一个节点的节点度越大就意味着该节点在网络中就越重要;接近中心性表示从某节点到所有其他节点的最短路径的平均长度,反映在网络中某一节点与其他节点之间的接近程度;介中心性表示某节点在多少对节点的最短路径上。从网络视角衡量欺诈风险的传播,度反映节点关联好友数量,最短路径反映网络中节点间亲密程度。但是介数中心性是比较能体现节点在图中桥梁作用的中心性度量方法。介数反映了相应的节点或者边在整个网络中的作用和影响力,具有很强的现实意义。例如,在转账网络中,介数较高的人的转账记录非常频繁,表示其较少第三方参与转账,存在欺诈风险。
就网络中连接比较紧密的体而言,可以将上述网络分为三个,但是实际上在网络中不仅可以通过团体中每个个体的特征进行分析,还依赖于整个团体作为一个整体的特征。这一方面使得团体识别拥有足够丰富的数据维度。一般来说,团体的特征可以分为这两大维度:
(1)网络结构相关的团伙拓扑特征。
(2)个体信息相关的团伙实体特征。
其中,团体的拓扑特征包括团的节点的数量、自由度(自由度即统计学上的一个概念。简单的解释就是观测的数目-这些观测中存在必要的联系数目)、团体中节点间最长的最短路径等;团的实体特征包括团中男女比例、最大年龄差,平均年龄、团体总资产、团体总负债等。
通过上述可知,在一个实施例中,所述体特征可以包括:网络结构相关的体拓扑特征和个体信息相关的体实体特征。
3.接着,如图2和图5所示,介绍搭建图卷积学习模型。
转账网络完成构建后,仅仅通过统计网络中个体或体的指标,就可以判别个体或体的欺诈风险,但是仅仅依靠统计指标去判断存在两个问题,一是规则较多且不是一成不变的,今天可能是有效的规则,明天就可能出现误判,因此规则应该根据数据情况进行及时更新;二是信息深度不够,依靠指标可以利用个体,及个体A-个体B之间的信息,也就是0度或1度的关系,那么2度以上的关系个体A-个体B-个体C的信息没有利用,其在现在防反欺诈手段层出不穷的情况下,没有足够的深度的信息,就无法在庞大的网络中发现超大网络中的欺诈个体及体。
利用GCN其特征学习及整合的能力,可以克服以上两个问题。GCN又称图卷积网络,实际上跟提取图片信息的CNN作用是一样,同样是一个一个特征提取器,只不过它的对象是网络数据。通过从图数据中提取特征的方法,可以使用这些特征去对图数据进行节点分类,进而进行体分类,即得到个人或体是属于存在欺诈行为的类别还是不存在欺诈行为的类别。相比较基于个体特征的规则发现欺诈的方法,GCN不仅考虑每个个体特征,还利用个体1度以上的关系,并且GCN仅仅依赖少量的欺诈黑样本即刻进行欺诈识别,特别适合目前欺诈黑样本较少情况下的欺诈识别,可以提高欺诈预测的准确率。
GCN通常是以网络层堆叠的方式进行构建,如图4所示,每一个卷积层仅处理一阶邻域信息,通过叠加若干卷积层可以实现多阶邻域的信息传递,图4是一个两层隐藏层的GCN网络,网络数据从Input层(输入层)输入,经过两个Hidden layer(隐藏层)的特征学习得到输出Output(输出层)。
上述一阶邻域是指处理数据的维度,比如某申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...)有着多个属性维度。处理数据的过程就是从单一属性申请数据a:(刘一,男,叶AA,女),到把这条数据的全部属性都加入处理的过程,申请数据1:(2021.02.01,刘一,男,25,...,叶AA,女,26,...)。
对于业务网络中的每个节点,从它的所有邻居节点处获取其特征信息,当然也包括它自身的特征。假设我们使用average()函数。将对所有的节点进行同样的操作。最后,将这些计算得到的平均值输入到神经网络中。层层的特征传递通过下面公式:
其中,H(l)第l层的激活后的特征,并且H0为原始输入数据X,σ为用于学习非线性特征的激活函数,网络的邻接矩阵与单位矩阵的和,为的度矩阵,即Wl为每层的参数矩阵,在网络训练时,输入的数据包括原始输入数据X及矩阵网络训练通过不断修改每层的参数矩阵Wl,使得数据经过每层网络计算后得到真实结果。
总的来说,GCN算法原理主要包括传播、聚合和非线性变换三个步骤,每个步骤完成的功能如下:
传播是指网络中的每一个节点将自身的特征信息发送给相邻的邻居节点。
聚合是指网络中每个节点将邻居节点的特征信息汇聚的过程,是对节点的局部结构信息进行融合。局部结构信息可以理解为CNN的感知域,共享卷积核权重,正比于神经网络的层数;迭代开始时,每个节点包含了直接连接邻居的特征信息,当计算神经网络第二层时就能把邻居的邻居节点的特征信息聚合进来,从而使参与运算的信息就更多更充分。层数越多,感知域就更广,参与运算的节点信息就越多。
对聚合之后特征信息做非线性变换,增加模型的表示能力[^10]
利用目前流行的深度学习框架Keras,可以快速搭建GCN网络,如图4所示,一共使用两个GCN,搭配使用relu激活函数(如图4中的relu),构建的一个网络数据学习神经网络。
4.接着,如图2和图5所示,介绍模型学习及预测的步骤。
完成数据整理及GCN的构建后,下一步即可按以下步骤进行GCN训练,为避免随机数据抽取带来的误差,训练过程可采用10折交叉验证的方向进行GCN的训练,具体地,首先将数据随机等数量划分为10份,取其中9份做GCN网络的训练数据,剩下一份作为测试数据,如此每份数据均作为测试数据进行GCN训练,最终得到10个训练结果及测试结果,取训练结果及测试结果作为GCN的最终结果。
GCN对网络进行的是节点分类,在训练过程中使用交叉熵作为GCN的损失函数,该函数在预测值与真实值相差越大值越大,以驱使网络较低真实值与预测值的差距,达到学习网络特征的目的。在测试时使用F1-score作为评估指标,衡量GCN在欺诈及非欺诈两类人员上的预测总体效果,F1-score值越大,表明GCN的效果越好。
综上所述,在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
二、接着,介绍上述步骤101至步骤103,即利用上述步骤“一”建立了GCN欺诈风险预测模型进行实际预测的步骤。
通过上述可知,上述步骤“一”建立了GCN欺诈风险预测模型,在实际预测时,可以利用该模型实际进行预测,提高预测的准确率和效率。在进行预测之前,首先介绍上述步骤101和步骤102。
上述步骤101中也可以进行清洗预处理的步骤,该清洗预处理的步骤可以参见上述“一”中的对历史转账申请数据进行清洗预处理的步骤。当然,上述步骤102也可以参见上述“一”中构建业务网络的步骤。上述步骤103的步骤也可以参见上述“一”中“4”的“预测”部分。
三、接着,介绍本发明实施例进一步优选的步骤。
在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:
检测识别出的当前转账业务网络数据中个体或体的欺诈行为的类型;
在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
具体实施时,完成GCN训练后,得到的GCN可以将其部署到业务系统中,辅助判别欺诈个体或体,针对银行不断扩增的转账记录,由转账行为构建的网络将不断变得复杂,欺诈的复杂性也将不断增强,GCN可以在原来的知识上通过再训练学习新的欺诈特征,如此,可以便捷进行模型的迭代更新,适应新形式的欺诈识别。
在一个实施例中,上述基于GCN的欺诈风险预测方法还可以包括:为识别出的当前转账业务网络数据中个体或体的欺诈行为设定不同等级的风险标签,得到风险标签池;所述风险标签池用于指导银行交易。
具体实施时,对于最终的预测风险结果,设定不同等级的风险标签,将客户行为记录成风险标签池,如下表2所示,为后续交易提供实质指导。
表2
综上,本发明实施例提供的基于图卷积神经网络GCN的银行反欺诈风险预测的效果与优点是:
本发明通过将业务数据中关联的个体构建为关联网络,进而使用GCN学习网络中客户个体特征以及客户个体之间关系的特征,最后识别网络中个体人物画像与体的识别行为,相比较传统基于规则的欺诈识别方法,GCN利用更广、更深层次的特征,总体上可比传统方法识别更好、误报率更低。不仅如此,GCN还是一个半监督的方法,只需要把大量带有欺诈标签样本,转换为可以学习网络中的欺诈特征,总结出有效的规律,利用卷积网络构建欺诈识别模型。目前,大数据已成定势,银行的大多数业务都可利用其庞大的数据资源构建各类关系网络,该发明将有效帮助挖掘这些关系网中有用的特征,推进银行大数据业务安全、高效的风控管理进程。
本发明实施例中还提供了一种基于GCN的欺诈风险预测装置,如下面的实施例所述。由于该装置解决问题的原理与基于GCN的欺诈风险预测方法相似,因此该装置的实施可以参见基于GCN的欺诈风险预测方法的实施,重复之处不再赘述。
图7为本发明实施例中基于GCN的欺诈风险预测装置的结构示意图,如图7所示,该装置包括:
获取单元01,用于获取当前转账申请数据;
业务网络构建单元02,用于根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;
预测单元03,用于将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:建立单元,用于按照如下方法预先建立GCN欺诈风险预测模型:
获取历史转账申请数据;
根据历史转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到转账业务网络数据样本;所述样本包括不存在欺诈行为的正样本和存在欺诈行为的负样本;
将所述数据样本划分为训练集和测试集;
采用度中心性指标、接近中心性指标和介中心性指标,利用所述训练集对GCN进行训练,得到训练后的GCN欺诈风险预测模型;
利用所述测试集对训练后的GCN欺诈风险预测模型进行测试,得到所述预先建立的GCN欺诈风险预测模型。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:预处理单元,用于对所述历史转账申请数据进行清洗预处理,得到预处理后的历史转账申请数据。
在一个实施例中,所述预处理单元具体用于:
清除预计构建转账业务网络后只有两个节点的子网络对应的转账申请数据,及清除预计构建转账业务网络后只有三个节点的子网络对应的转账申请数据,得到预处理后的历史转账申请数据。
在一个实施例中,上述基于GCN的欺诈风险预测装置还可以包括:
检测单元,用于检测识别出的当前转账业务网络数据中个体或体的欺诈行为的类型;
样本更新单元,用于在检测到当前欺诈行为的类型不存在于历史欺诈行为的类型中时,将当前欺诈行为的类型对应的转账业务网络数据加入到转账业务网络数据样本库中,得到更新的转账业务网络数据样本库;
模型更新单元,用于利用更新的转账业务网络数据样本库,更新所述GCN欺诈风险预测模型。
在一个实施例中,所述体特征可以包括:网络结构相关的体拓扑特征和个体信息相关的体实体特征。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于GCN的欺诈风险预测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述基于GCN的欺诈风险预测方法的计算机程序。
本发明实施例中,基于GCN的欺诈风险预测方案,与现有技术中采取黑白名单识别欺诈行为,效率和准确率都低的技术方案相比,通过:获取当前转账申请数据;根据当前转账申请数据,将转账人和接受人作为关键节点,以转账人和接受人之间发生转账业务的次数作为边权重,以转账人和接受人的基本信息作为每个节点的属性,构建得到当前转账业务网络数据;将当前转账业务网络数据输入预先建立的GCN欺诈风险预测模型,提取出当前转账业务网络数据中个体特征或体特征,根据所述个体特征或体特征,识别出当前转账业务网络数据中个体或体的欺诈行为;所述GCN欺诈风险预测模型根据多个历史转账申请数据构建的转账业务网络数据样本预先建立,可以实现基于GCN高效准确地预测欺诈行为。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本文发布于:2023-04-14 09:31:02,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/86545.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |