一种基于网络嵌入技术的线上借贷反欺诈方法

阅读: 评论:0

著录项
  • CN202010148123.5
  • 20200305
  • CN111429249A
  • 20200717
  • 同济大学
  • 王成;舒鹏飞
  • G06Q40/02
  • G06Q40/02 G06K9/62 G06N3/04 G06N3/08

  • 上海市杨浦区四平路1239号
  • 上海(31)
  • 上海科律专利代理事务所(特殊普通合伙)
  • 叶凤
摘要
本发明设计网络嵌入技术和互联网金融线上借贷反欺诈技术。基于网络嵌入技术的线上借贷反欺诈方法,分为3个部分,其特征在于:第一部分针对用户的历史数据建立原生的异质信息网络,包括对用户历史数据的处理,生成基于用户历史申请记录的原生网络;第二阶段针对用户的在线借贷申请信息进行网络嵌入,包括更新原生网络、提取衍生同质网络和同质网络嵌入学习;第三部分对用户的借贷申请进行欺诈预测,针对历史的有标签数据的建模和对在线的借贷申请进行批处理。针对实时的测试数据集,首先更新原生网络,从原生网络中,从中提取出衍生的同质网络,并进行网络嵌入学习,对嵌入学习后有标签的数据进行建模,并对测试集中无标签的数据进行欺诈检测。
权利要求

1.一种基于网络嵌入的线上借贷反欺诈方法,其特征在于,过程如下:

输入:最近三天的借贷申请记录

输出:这三天借贷申请中每条申请记录的欺诈风险值

(1)将用户的历史申请记录构建成一个原生网路,原生网络的构建方法为:在所有的历史申请记录中,将用户的申请记录中的每个特征值作为网络中的一个节点,节点的类型为该特征值对应的特征类型,将每个申请单号类型的节点(APPLYNO节点)作为网络中的超导节点。遍历每一条申请记录,将在同一条申请记录中所有的特征值对应的网络节点与该申请记录对应的APPLYNO节点连接起来,构建好原生网络。执行步骤(2);

(2)当有一条新的借贷申请记录产生时,将该申请记录的所有特征值按照步骤(1)中的方法更新到步骤(1)中构建好的原生网络中,得到一个新的原生网络;执行步骤(3);

(3)当每连续三天更新原生网络后,从原生网络中提取出一个同质的衍生网络,提取同质的衍生网络的方法为:将网络中所有的APPLYO节点提取出来,在原生网络中如果任意两个APPLYNO节点之间有公共的邻居节点,则在衍生网络中将这两个APPLYNO节点连接起来,形成网络中的一条边,边的权重weight等于这两个APPLYNO节点之间共同邻居节点的个数。执行步骤(4);

(4)将提取的同质的衍生网络输入到node2Vec模型中,node2Vec模型会输出每个APPLYNO节点的128维向量表示。node2vec模型主要包括两个部分:随机游走和向量学习。

随机游走:将网络中的每个节点作为起始节点,根据网络结构和边的权重,从当前节点随机游走到其他节点,在游走过程中结束后,会得到以每个节点作为起始节点的游走节点序列。为了增加样本数量,游走过程可以重复多次;

向量学习:将随机游走后的序列输入到skip-gram模型后,skip-gram模型训练完成后,会输出每个APPLYNO节点的向量表示。

执行步骤(5);

(5)在完成每个APPLYNO节点的向量表示后,将历史记录中有标签的申请记录对应的APPLYNO节点的向量表示和记录标签输入到XGBoost模型中,训练一个XGBoost模型(简称xgb模型)。执行步骤(6);

(6)将最近三天的借贷申请的申请单号节点(APPLYNO节点)的向量表示输入到训练好的xgb模型中,xgb模型会输出每个申请记录的欺诈概率值pred(0-1之间的小数);执行步骤(7);

(7)设置一个欺诈风险阈值threshold,如果某条申请记录的欺诈风险值pred大于threshold,则认定这条借贷申请是欺诈借贷,拒绝提供借贷服务;否则认定为正常借贷,可以提供借贷业务。

说明书
技术领域

本发明涉及互联网金融线上借贷的反欺诈技术领域。

互联网与金融行业的融合发展正催生了互联网金融的新业态,给人们带来了网络贷款等更加便捷的网络金融服务。互联网金融给人们的生活带来便利的同时,与之相伴的是层出不穷的网络欺诈,比如体欺诈、多头借贷等。欺诈者通常以非法占有为目的,编造虚假的个人信息或利用非法渠道获取的他人信息向贷款平台申请网络贷款。线上借贷欺诈每年给金融平台造成了巨大的经济损失。因此,金融平台亟需建立一个有效的欺诈借贷检测方法,阻止欺诈借贷的发生。

目前传统的线上借贷反欺诈的方法是基于征信的方法,当申请者向金融平台申请线上借贷时,金融平台委托第三机构提供申请人的信用信息,金融平台根据申请人的信用报告是否为申请人提供贷款服务。但是当前线上借贷欺诈呈现出复杂化、多样化的趋势,基于征信的方法已经无法满足日益变化的欺诈手段,并且征信花费的时间周期较长,无法及时的对用户的借贷申请提供反馈。同时目前基于数挖掘技术的线上借贷反欺诈技术需要工作人员有很强的业务知识,反欺诈的结果很大程度上依赖于工作人员的掌握的“专家知识”。

本发明提出一种基于网络嵌入技术的线上借贷反欺诈方法,通过网络结构将不同来源的数据整合在一起,利用网络表示不同信息之间的关系,并利用网络嵌入技术自动获取网络的特征表达,从而有效地识别出欺诈事件。

得益于当前线上借贷产生的丰富申请信息,本发明可以对这些数据进行分析并以此为基础,设计出一种基于网络嵌入技术的线上借贷反欺诈系统,保护金融平台的安全,促进互联网金融行业的健康发展。

欺诈借贷的发生通常是由于欺诈者编造虚假个人信息或者利用从非法渠道获取的个人信息向借贷平台申请网络贷款,但是却逾期不履行合约按期还款。传统的反欺诈方法通常是具有“专家知识”的反欺诈人员从申请者提供的信息中出异常或虚假的信息,从而决定是否为申请人提供贷款的业务,这种方法通常需要消耗大量的时间成本和人力成本。

本发明区别于传统的线上借贷反欺诈的方法,本发明利用网络的结构将不同的数据整合在一起,利用网络表示不同信息之间的关系,并利用网络嵌入技术对网络进行表征学习,基于表征的结果构建线上借贷反欺诈方法。该方法不需要反欺诈人员具有深厚的“专家知识”,利用网络嵌入技术就能够自动学习到网络中隐含的不同信息之间的关系,克服了现有反欺诈技术的不足,为线上借贷反欺诈提供了一种新的方法和思路。

为此,给出的技术方案为:

一种基于网络嵌入的线上借贷反欺诈方法,过程如下:

输入:最近三天的借贷申请记录

输出:这三天借贷申请中每条申请记录的欺诈风险值

(1)将用户的历史申请记录构建成一个原生网路,原生网络的构建方法为:在所有的历史申请记录中,将用户的申请记录中的每个特征值作为网络中的一个节点,节点的类型为该特征值对应的特征类型,将每个申请单号类型的节点(APPLYNO节点)作为网络中的超导节点。遍历每一条申请记录,将在同一条申请记录中所有的特征值对应的网络节点与该申请记录对应的APPLYNO节点连接起来,构建好原生网络。执行步骤(2);

(2)当有一条新的借贷申请记录产生时,将该申请记录的所有特征值按照步骤(1)中的方法更新到步骤(1)中构建好的原生网络中,得到一个新的原生网络;执行步骤(3);

(3)当每连续三天更新原生网络后,从原生网络中提取出一个同质的衍生网络,提取同质的衍生网络的方法为:将网络中所有的APPLYO节点提取出来,在原生网络中如果任意两个APPLYNO节点之间有公共的邻居节点,则在衍生网络中将这两个APPLYNO节点连接起来,形成网络中的一条边,边的权重weight等于这两个APPLYNO节点之间共同邻居节点的个数。执行步骤(4);

(4)将提取的同质的衍生网络输入到node2Vec模型中,node2Vec模型会输出每个APPLYNO节点的128维向量表示。node2vec模型主要包括两个部分:随机游走和向量学习。

随机游走:将网络中的每个节点作为起始节点,根据网络结构和边的权重,从当前节点随机游走到其他节点,在游走过程中结束后,会得到以每个节点作为起始节点的游走节点序列。为了增加样本数量,游走过程可以重复多次;

向量学习:将随机游走后的序列输入到skip-gram模型后,skip-gram模型训练完成后,会输出每个APPLYNO节点的向量表示。执行步骤(5);

(5)在完成每个APPLYNO节点的向量表示后,将历史记录中有标签的申请记录对应的APPLYNO节点的向量表示和记录标签输入到XGBoost模型中,训练一个XGBoost模型(简称xgb模型)。执行步骤(6);

(6)将最近三天的借贷申请的申请单号节点(APPLYNO节点)的向量表示输入到训练好的xgb模型中,xgb模型会输出每个申请记录的欺诈概率值pred(0-1之间的小数);执行步骤(7);

(7)设置一个欺诈风险阈值threshold,如果某条申请记录的欺诈风险值pred大于threshold,则认定这条借贷申请是欺诈借贷,拒绝提供借贷服务;否则认定为正常借贷,可以提供借贷业务。

本发明通过对现实的互联网金融平台的线上借贷的数据集构建原生网络,提取衍生同质网络,对网络进行表征学习后,训练XGBoost模型,并通过实验验证其准确性与有效性。本发明经过试验证明,该方法在精确率(Precision)、召回率(Recall)和KS值都优于先前的研究。

图1实施例异质的原生网络;

图2本发明基于网络嵌入技术的线上借贷反欺诈方法系统结构图;

图3本发明方法算法流程图。

实施例

主要分为三个阶段:

第一阶段针对用户的历史数据建立原生的异质信息网络,包括对用户历史数据的处理,生成基于用户历史申请记录的原生网络;

第二阶段针对用户的在线借贷申请信息进行网络嵌入,包括更新原生网络、提取衍生同质网络和同质网络嵌入学习;

第三阶段对用户的借贷申请进行欺诈预测,针对历史的有标签数据的建模和对在线的借贷申请进行批处理。

第一阶段具体的实施步骤:

步骤1-1,对用户的历史借贷数据进行预处理,对用户历史数据的原始字段进行空值处理和字符转换。如果一条记录中,某个字段为空值,则将这条记录中的此字段删除。将历史借贷记录的标签设置为0或1,0表示该条借贷为正常借贷记录,1表示该条借贷为欺诈借贷记录。

步骤1-2,将每个申请记录的每个特征值都作为网络中的一个节点,每个节点的类别设置为该值对应的字段类型。如果两个不同的申请记录中某个特征有共同的特征值,那在网络中将它们视作一个节点。

在网络借贷应用场景中,每条申请记录通常包括用户个人信息(姓名、身份证号码、电话、住址等)、就业信息(公司名称、、等)、个人财产信息(房产信息、汽车资产等)以及社会关系信息(伴侣信息、亲属信息、朋友信息等)。对于任一特征F,如果在所有的借贷记录中出现了n个不同的特征值F={f1,f2,…,fn},那么在原生网络中,对于特征F就有n个不同的节点,可以表示为:f1,f2,…,fn。以公司名称这一特征为例,假设在所有的记录中出现了5家不同的公司名,那么在原生网络中,对于公司名称(Company,简称C)这一特征,就有5个不同的节点,可以分别表示为节点C1、C2、C3、C4和C5,节点的类型为公司名。

步骤1-3,将网络中的申请单号类型的节点(以下简称为APPLYNO节点)作为网络中的超导节点,将其它特征所对应的节点作为普通节点。将一条申请单中的所有特征值在网络中对应的节点(普通节点)与该申请单单号对应的APPLYNO节点(超导节点)连接起来,就组成了网络中的边。

步骤1-4,遍历所有的历史申请记录,就生成了一个异质的原生网络。在网络中,如果有2种及2种以上不同类型的节点或者有2种及2种以上不同类型的边,则这类的网络称为异质网络,因此,本实施例中构建的原生网络是异质网络,称为异质的原生网络。

本实施例生成了一个异质的原生网络,如图1所示。本实施例以表1中的5条申请记录为例来构建原生网络,每条申请记录除了申请单号(APPLYNO)外有3个不同的特征,分别为姓名(Name)、家庭住址(Address)和公司名称(Company)。

在网络借贷中,每条借贷记录的申请单号都是唯一的,申请单号可以用来唯一的表示一条借贷记录,如果有n条申请记录,则就有n个不同的申请单号,将申请单号在网络中所对应的节点称为超导节点,可以表示为AN={AN1,AN2,…,ANn},将其他特征在网络中所对应的节点称为普通节点;并且,对于网络中任意一个普通节点,只与其所在申请记录中的申请单号所对应的超导节点相连。表1中有5条不同的申请记录,申请单号分别为001、002、003、004和005,在原生网络中的节点分别标记为AN1、AN2、AN3、AN4和AN5,此类节点即为超导节点;对于姓名这一特征,一共有4个不同的特征值(王飞,张天、李忠、李爱),那么在原生网络中,对于姓名这一特征,就有4个不同的节点,分别记为N1、N2、N3和N4;对于家庭住址这一特征,有3个不同的特征值(上海市浦东区、上海市闵行区、上海市静安区),则在原生网络中,有3个不同的节点,分别记为A1、A2和A3;对于公司名称这一特征,有3个不同的特征值(百度、阿里巴巴、网易),则在原生网络中,有3个不同的节点,分别记为C1、C2和C3;遍历该5条申请记录,将每条记录中的特征(申请单号除外)所对应的的节点与该条记录所对应的超导节点相连,即生成了网络中的边,由此构成了异质的原生网络,如图1所示。(表1中的记录均为举例的申请记录,对于地址这一特征,只表示到了区,在实际应用中,可根据具体的情况精确到更详细的地址。)

表1.申请记录

第二阶段具体的实施步骤:

步骤2-1,当方法每接收到一条新的借贷申请,按照步骤1-1到1-3的方法,将当前的申请记录更新到第一阶段生成的原生网络中;

步骤2-2,当每三天过去后,从原生网络中抽取基于APPLYNO节点的衍生同质网络,抽取的方法为:将原生网络中所有的APPLYNO节点提取出来,在原生网络中如果某两个APPLYNO节点之间有公共的邻居节点(普通节点),则在衍生同质网络中将这两个APPLYNO节点连接起来,形成网络中的一条边,边的权重weight等于这两个APPLYNO节点之间共同邻居节点的个数。在网络中,如果只有1种类型的节点和1种类型的边,则这类的网络称为同质网络,因此本案例中提取的衍生网络是同质网络,称为衍生同质网络。

步骤2-3,将步骤2-2提取的衍生同质网络输入到node2Vec模型中,模型会输出每个APPLYNO节点的128维向量表示(用于输入给步骤3-1中XGBoost模型)。node2vec是经典的网络嵌入模型,其输入是由节点和边构成的网络,其输出是网络中每个节点的向量表示。Node2vec模型主要包括两个部分:随机游走和向量学习。

(1)随机游走:将网络(即衍生同质网络)中的每个节点作为起始节点,根据网络结构和边的权重,从当前节点随机游走到其他节点,记录下游走的节点序列。在游走过程结束后,会得到以每个节点作为起始节点的游走节点序列。为了增加样本数量,游走过程可以重复多次;在随机游走过程中,主要需要设置随机游走的重复次数、游走长度以及广度优先参数和深度优先参数;在本实施例中,参数设置如下:

重复次数(num-walks):10;

游走长度(walk-length):100;

广度优先参数(p):1;

深度优先参数(q):1。

(2)向量学习:将随机游走后的序列输入到skip-gram模型后,模型训练完成后,会输出每个APPLYNO节点的向量表示。在向量学习过程中,主要需要设置skip-gram模型的参数,包括采样滑动窗口大小和学习的向量维度;在本实施例中,该过程的参数设置如下:

滑动窗口大小(window-size):2;

向量维度(dimensions):128。

第三阶段的具体实施步骤如下:

步骤3-1,将有标签的申请记录对应的APPLYNO节点的向量表示和记录标签(即是由步骤2-3中学习到的节点向量)输入到XGBoost模型中,训练一个分类模型xgb;XGBoost模型是机器学习领域广泛应用的分类器模型,在本案例中,主要通过调节XGBoost模型的参数来训练合适的分类器。XGBoost模型的主要参数设置如下:

(1)目标函数(objective):“binary:logistic”;

(2)学习率(learning_rate):0.01;

(3)迭代次数(n_estimators):800;

(4)最大深度(max_depth):6;

(6)行采样率(subsample):0.7;

(7)列采样率(colsample_bytree):0.7;

步骤3-2,将最近3天的申请记录对应的APPLYNO节点的向量表示(也是由步骤2-3中学习到的节点向量,取最近3天记录的)输入到步骤3-1中训练好的xgb模型中,模型会输出每个申请记录的欺诈预测值pred(0-1之间的小数);

步骤3-3,设定一个欺诈阈值threshold,在最近3天的申请记录中,将在步骤3-2中输出的欺诈预测值pred大于阈值threshold的借贷申请看作是欺诈借贷,不为其提供借贷服务,其它的则认为是正常借贷。

本发明通过在真实互联网金融企业的线上借贷数据集上进行测试,我们收集了某借贷公司从2015年1月1日至2017年7月31日的借贷数据,该数据中一共有1516995条借贷申请记录,其中有15500条欺诈记录。我们将2017年1月1日之前的数据作为训练数据,将2017年7月1日至2017年7月31日的数据作为测试数据。在对原始数据进行预处理后,除申请单号外,每条记录有18个不同的特征,在利用训练数据构建的原生网络中,一共有21927659个节点,26150888条边。

利用本文提出的方法对2017年7月的数据进行测试,利用精确率(Precision)、召回率(Recall)、打扰率(又称假阳率,False Positive Rate,FPR)和KS值作为评价方法性能的指标。实验结果如表2所示,实验证明,该方法在此指标上都优于传统的线上借贷反欺诈的方法。

表2.测试结果

Precision Recall FPR KS 0.6382 0.4342 0.0539 0.3802

本项目的创新点

1.利用网络结构的方式将用户的历史数据整合成结构化数据,利用网络结构直观的表示不同特征之间的关联性。

2.将网络嵌入技术创新性的应用到了线上借贷反欺诈的领域;

3.区别于以往人工特征的方法,本项目不依赖反欺诈人员的专业知识,通过网络表征学习自动学习不同特征之间隐含的关联关系。

本发明“网络”是由点和边组成的传统意义上的图结构;

本发明“原生网络”是本发明首次提出的名词;文中提到的“同质网络”和“异质网络”均为学术上的专有名词。

本发明“网络”本身是人为构建的,文中使用node2vec模型对构建的网络进行网络表征学习,表征学习后网络中的每个节点都被嵌入到了低维的向量空间。

批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。

[1]A.Abdallah,M.A.Maarof,and A.Zainal,Fraud detection system:A survey[J],J.Network and Computer Applications,vol.68,pp.90–113,2016.

[2]C.Jing,C.Wang,and C.Yan,Thinking like A fraudster:Detectingfraudulent transactions via statistical sequential features[C],InternationalConference on Financial Cryptography and Data Security 2019,pp.140–155.

[3]Perozzi B,Al-Rfou R,Skiena S.DeepWalk:online learning of socialrepresentations[C],Acm Sigkdd International Conference on KnowledgeDiscovery&Data Mining 2014.pp.701-710

[4]Grover A,Leskovec J.node2vec:Scalable Feature Learning forNetworks[C].Acm Sigkdd International Conference on Knowledge Discovery&DataMining 2016,pp.855-864.

[5]T.Chen and C.Guestrin,Xgboost:A scalable tree boosting system[C],in Proceedings of the 22nd ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining,2016,pp.785–794.

[6]A.Jarovsky,T.Milo,S.Novgorodov,and W.Tan,Rule sharing for frauddetection via adaptation[C],in 34th IEEE International Conference on DataEngineering,ICDE 2018,pp.125-136.

[7]Chao Xu,Zhentan Feng and et al,FeatNet:Large-scale Fraud DeviceDetection by Network Representation Learning with Rich Features[C],Proceedings of the 11th ACM Workshop on Artificial Intelligence and Security,CCS 2018,pp.57-63.

[8]Massimiliano Z,Miguel R,Santiago M,et al.Credit Card FraudDetection through Parenclitic Network Analysis[J].Complexity,2018:1-9.

[9]Roger A.Leite,Theresia Gschwandtner,et al.Network Analysis forFinancial Fraud Detection[C],Eurographics Conference on Visualization,EuroVis2018,pp.21-23.

本文发布于:2023-04-13 07:37:17,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/85744.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图