用于预定申请人的信用判定模型的训练方法、装置和电子设备

阅读: 评论:0

著录项
  • CN202111333645.3
  • 20211111
  • CN114331665A
  • 20220412
  • 中科聚信信息技术(北京)有限公司
  • 张春青;贺成文
  • G06Q40/02
  • G06Q40/02 G06F16/35 G06F16/36

  • 北京市海淀区学院南路62号中关村资本大厦4层401室
  • 北京(11)
  • 北京彩和律师事务所
  • 刘磊;闫桑田
摘要
本申请涉及一种用于预定申请人的信用判定模型的训练方法、装置和电子设备。该用于预定申请人的信用判定模型的训练方法包括:获取所述预定申请人的有关数据;获取用于所述预定申请人的关系图谱;基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据;基于所述用于模型建立的样本数据提取特征;以及,使用提取出的特征训练所述用于预定申请人的信用判定模型。这样,针对例如征信白户的申请人,通过进行基于关系图谱的关联查询和特征提取,通过申请人的周边人的信息和行为来进行信用判定,可以提升判定准确性。
权利要求

1.一种用于预定申请人的信用判定模型的训练方法,其特征在于,包括:

获取所述预定申请人的有关数据;

获取用于所述预定申请人的关系图谱;

基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据;

基于所述用于模型建立的样本数据提取特征;以及

使用提取出的特征训练所述用于预定申请人的信用判定模型。

2.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,获取所述预定申请人的有关数据包括数据范围确认和数据预处理。

3.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,用于所述预定申请人的关系图谱的构建包括:

确定用于关系图谱构建的数据;

确定异构图中的节点和关系;

整理节点属性和关系属性;

对于所述异构图进行超点筛除;

对于所述异构图进行关系筛选;

进行所述异构图的关系权重的训练;以及

对所述异构图进行社区发现以获得所述用于所述预定申请人的关系图谱。

4.如权利要求3所述的用于预定申请人的信用判定模型的训练方法,其特征在于,对于所述异构图进行超点筛除包括:

进行超点范围界定,其中,入度数量大于预定阈值的关联节点为所述超点;以及,

进行超点评估,所述超点评估包括以下标准中的至少一个:

节点为IP类型,且关联客户节点最近登录时间中位数差值平均值大于阈值;

节点为地址类型,且关联客户节点最近输入时间中位数差值平均值大于阈值;

节点为设备类型,且关联客户节点最近登录时间中位数差值平均值大于阈值;以及,

节点为地址类型,且为非标准地。

5.如权利要求3所述的用于预定申请人的信用判定模型的训练方法,其特征在于,对于所述异构图进行关系筛选包括:

选择符合低同标签检验指标、低异标签检验指标、高连通系数指标和高平均聚类系数指标中的至少一个的关系类型作为所选的关系。

6.如权利要求5所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述同标签检验指标用于反映网络中正样本与负样本用户节点的关联紧密程度,计算结果等于正样本和负样本节点形成的边/总边数,且表示为:

7.如权利要求5所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述异标签检验指标用于反映正样本和负样本节点之间的紧密程度,计算结果等于正样本和负样本节点形成的边的观察值/正样本和负样本节点形成的边期望值,且如果指标结果小于1,则表示与随机网络相比,正样本和负样本节点的关联稀疏,且表示为:

8.如权利要求5所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述连通系数指标用于反映网络的稠密程度,该值越接近于1表征网络越稠密,且表示为:

其中β为连通分支数,Ni为第i个连通分支中的节点数量,N为网络中的节点总数目,且Li为第i个连通分支的平均最短路径。

9.如权利要求5所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述平均聚类系数指标等于网络中所有节点的节点聚类系数加和平均值,且节点聚类系数是与节点i直接相连的所有邻居节点(不包括节点i)之间的实际边数与这些邻居节点之间最大可能边数之间的比值,表示为:

其中K代表节点i的所有邻居点的边数,L代表节点i的度。

10.如权利要求3所述的用于预定申请人的信用判定模型的训练方法,其特征在于,进行所述异构图的关系权重的训练包括:

基于关联性质乘以时间属性计算所述异构图的关系权重,表示为:

权重=a×e-b

其中a表示在该关系的同构图中同标签检验指标的值,b表示时间衰减系数。

11.如权利要求3所述的用于预定申请人的信用判定模型的训练方法,其特征在于,对所述异构图进行社区发现以获得所述用于所述预定申请人的关系图谱包括:

通过边权重过滤所述异构图中的连接比较弱的边;

将所述异构图中的单一节点各自归为一个社区,并计算模块度进行分配以获得初次划分结果;

对所述初次划分结果进行压缩以生成新图;

选取所述新图中的种子节点,所述种子节点符合条件:节点度数>平均度+标准差;以及,

将所述新图中的非种子节点根据模块度合并到所述种子节点的社区。

12.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据包括:

在所述关系图谱中,选取用户大于等于二且至少有一个有信贷表现的征信白户样本的图作为建模样本及特征衍生范围。

13.如权利要求12所述的用于预定申请人的信用判定模型的训练方法,其特征在于,在所述关系图谱中,选取用户大于等于二且至少有一个有信贷表现的征信白户样本的图作为建模样本及特征衍生范围包括:

选取满足一定逾期条件的征信白户样本作为负样本,且选取在一段时间表现期内无逾期的征信白户样本作为正样本;

将网络中的其它非白户样本,不作为建模样本,仅作为建模样本的周围邻居为白户样本贡献其图特征信息;以及,

如果建模样本数据量不够,则通过预定抽样方式将一部分非白户样本的征信信息删除,将其作为征信白户样本。

14.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所提取的特征包括个体特征、图关联特征和网络特征。

15.如权利要求14所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述个体特征提取针对网络中的所有样本的自身数据信息进行特征提取,包括建模样本和非建模样本,而与用户在网络中的信息无关。

16.如权利要求14所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述个体特征包括自动行为特征和属性特征。

17.如权利要求14所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述图关联特征是与建模样本在同一个网络中的其它样本的个体特征,基于在图中与建模样本的网络结构,按照预定聚合方式计算后的特征。

18.如权利要求14所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述网络特征包括异构图特征和同构图特征

19.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,进一步包括:

利用皮尔逊相关系数对所提取的特征进行筛选以去除非相关特征。

20.如权利要求1所述的用于预定申请人的信用判定模型的训练方法,其特征在于,所述用于预定申请人的信用判定模型是梯度提升决策树模型。

21.一种用于预定申请人的信用判定模型的训练装置,其特征在于,包括:

数据获取单元,用于获取所述预定申请人的有关数据;

关系获取单元,用于获取用于所述预定申请人的关系图谱;

样本获取单元,用于基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据;

特征提取单元,用于基于所述用于模型建立的样本数据提取特征;以及

模型训练单元,用于使用提取出的特征训练所述用于预定申请人的信用判定模型。

22.一种电子设备,其特征在于,包括:

处理器;以及

存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1到20中任意一项所述的用于预定申请人的信用判定模型的训练方法。

说明书
技术领域

本申请涉及金融模型领域,更为具体地说,涉及一种用于预定申请人的信用判定模型的训练方法、装置和电子设备。

近年来,互联网金融得到了快速发展,在促进普惠金融发展、提升金融服务质量和效率、满足多元化投融资需求等方面发挥了积极作用,展现出了很大的市场空间和发展潜力。互联网金融在为金融业发展注入活力的同时,也对金融管理带来了新的挑战,其快速发展过程中也暴露出了一些问题和风险隐患。

征信白户是指有过贷款或者信用卡的申请记录,但是没有审批通过。征信空白并不代表信用不好,但是由于金融机构无法掌握客户的征信行为,因此无法对客户未来的逾期情况做出判断,不利于银行或者金融机构业务的办理。一般来说金融机构都喜欢征信记录良好的人,不少贷款产品是禁止征信白户客户申请。

对于部分金融机构逐渐将征信白户纳入信贷申请范围,如何有效构建相对应申请预测模型至关重要。在信用风险模型的预测中,征信数据贡献了大部分的预测效能,但是对于白户来说,其征信的缺失导致了模型中能够使用的数据大大减少,因此模型的效能也大大降低。

因此,期望提供一种针对征信白户的预测方案。

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于预定申请人的信用判定模型的训练方法、装置和电子设备,其可以针对例如征信白户的申请人,通过进行基于关系图谱的关联查询和特征提取,通过申请人的周边人的信息和行为来进行信用判定,从而提升判定准确性。

根据本申请的一方面,提供了一种用于预定申请人的信用判定模型的训练方法,包括:获取所述预定申请人的有关数据;获取用于所述预定申请人的关系图谱;基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据;基于所述用于模型建立的样本数据提取特征;以及,使用提取出的特征训练所述用于预定申请人的信用判定模型。

在上述用于预定申请人的信用判定模型的训练方法中,获取所述预定申请人的有关数据包括数据范围确认和数据预处理。

在上述用于预定申请人的信用判定模型的训练方法中,用于所述预定申请人的关系图谱的构建包括:确定用于关系图谱构建的数据;确定异构图中的节点和关系;整理节点属性和关系属性;对于所述异构图进行超点筛除;对于所述异构图进行关系筛选;进行所述异构图的关系权重的训练;以及,对所述异构图进行社区发现以获得所述用于所述预定申请人的关系图谱。

在上述用于预定申请人的信用判定模型的训练方法中,对于所述异构图进行超点筛除包括:进行超点范围界定,其中,入度数量大于预定阈值的关联节点为所述超点;以及,进行超点评估,所述超点评估包括以下标准中的至少一个:节点为IP类型,且关联客户节点最近登录时间中位数差值平均值大于阈值;节点为地址类型,且关联客户节点最近输入时间中位数差值平均值大于阈值;节点为设备类型,且关联客户节点最近登录时间中位数差值平均值大于阈值;以及,节点为地址类型,且为非标准地。

在上述用于预定申请人的信用判定模型的训练方法中,对于所述异构图进行关系筛选包括:选择符合低同标签检验指标、低异标签检验指标、高连通系数指标和高平均聚类系数指标中的至少一个的关系类型作为所选的关系。

在上述用于预定申请人的信用判定模型的训练方法中,所述同标签检验指标用于反映网络中正样本与负样本用户节点的关联紧密程度,计算结果等于正样本和负样本节点形成的边/总边数,且表示为:

在上述用于预定申请人的信用判定模型的训练方法中,所述异标签检验指标用于反映正样本和负样本节点之间的紧密程度,计算结果等于正样本和负样本节点形成的边的观察值/正样本和负样本节点形成的边期望值,且如果指标结果小于1,则表示与随机网络相比,正样本和负样本节点的关联稀疏,且表示为:

在上述用于预定申请人的信用判定模型的训练方法中,所述连通系数指标用于反映网络的稠密程度,该值越接近于1表征网络越稠密,且表示为:

其中β为连通分支数,Ni为第i个连通分支中的节点数量,N为网络中的节点总数目,且Li为第i个连通分支的平均最短路径。

在上述用于预定申请人的信用判定模型的训练方法中,所述平均聚类系数指标等于网络中所有节点的节点聚类系数加和平均值,且节点聚类系数是与节点i直接相连的所有邻居节点(不包括节点i)之间的实际边数与这些邻居节点之间最大可能边数之间的比值,表示为:

其中K代表节点i的所有邻居点的边数,L代表节点i的度。

在上述用于预定申请人的信用判定模型的训练方法中,进行所述异构图的关系权重的训练包括:基于关联性质乘以时间属性计算所述异构图的关系权重,表示为:

权重=a×e-b

其中a表示在该关系的同构图中同标签检验指标的值,b表示时间衰减系数。

在上述用于预定申请人的信用判定模型的训练方法中,对所述异构图进行社区发现以获得所述用于所述预定申请人的关系图谱包括:通过边权重过滤所述异构图中的连接比较弱的边;将所述异构图中的单一节点各自归为一个社区,并计算模块度进行分配以获得初次划分结果;对所述初次划分结果进行压缩以生成新图;选取所述新图中的种子节点,所述种子节点符合条件:节点度数>平均度+标准差;以及,将所述新图中的非种子节点根据模块度合并到所述种子节点的社区。

在上述用于预定申请人的信用判定模型的训练方法中,基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据包括:在所述关系图谱中,选取用户大于等于二且至少有一个有信贷表现的征信白户样本的图作为建模样本及特征衍生范围。

在上述用于预定申请人的信用判定模型的训练方法中,在所述关系图谱中,选取用户大于等于二且至少有一个有信贷表现的征信白户样本的图作为建模样本及特征衍生范围包括:选取满足一定逾期条件的征信白户样本作为负样本,且选取在一段时间表现期内无逾期的征信白户样本作为正样本;将网络中的其它非白户样本,不作为建模样本,仅作为建模样本的周围邻居为白户样本贡献其图特征信息;以及,如果建模样本数据量不够,则通过预定抽样方式将一部分非白户样本的征信信息删除,将其作为征信白户样本。

在上述用于预定申请人的信用判定模型的训练方法中,所提取的特征包括个体特征、图关联特征和网络特征。

在上述用于预定申请人的信用判定模型的训练方法中,所述个体特征提取针对网络中的所有样本的自身数据信息进行特征提取,包括建模样本和非建模样本,而与用户在网络中的信息无关。

在上述用于预定申请人的信用判定模型的训练方法中,所述个体特征包括自动行为特征和属性特征。

在上述用于预定申请人的信用判定模型的训练方法中,所述图关联特征是与建模样本在同一个网络中的其它样本的个体特征,基于在图中与建模样本的网络结构,按照预定聚合方式计算后的特征。

在上述用于预定申请人的信用判定模型的训练方法中,所述网络特征包括异构图特征和同构图特征

在上述用于预定申请人的信用判定模型的训练方法中,进一步包括:利用皮尔逊相关系数对所提取的特征进行筛选以去除非相关特征。

在上述用于预定申请人的信用判定模型的训练方法中,所述用于预定申请人的信用判定模型是梯度提升决策树模型。

根据本申请的另一方面,提供了一种用于预定申请人的信用判定模型的训练装置,包括:数据获取单元,用于获取所述预定申请人的有关数据;关系获取单元,用于获取用于所述预定申请人的关系图谱;样本获取单元,用于基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据;特征提取单元,用于基于所述用于模型建立的样本数据提取特征;以及,模型训练单元,用于使用提取出的特征训练所述用于预定申请人的信用判定模型。

根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的用于预定申请人的信用判定模型的训练方法。

根据本申请的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的用于预定申请人的信用判定模型的训练方法。

本申请提供的用于预定申请人的信用判定模型的训练方法、装置和电子设备,可以针对例如征信白户的申请人,通过进行基于关系图谱的关联查询和特征提取,通过申请人的周边人的信息和行为来进行信用判定,从而提升判定准确性。

通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。

图1图示了根据本申请实施例的用于预定申请人的信用判定模型的训练方法的示例性流程图;

图2图示了根据本申请实施例的表示与用户有关的关系的同构图的示意图;

图3图示了根据本申请实施例的表示与用户有关的关系的异构图的示意图;

图4图示了根据本申请实施例的用于预定申请人的信用判定方法中的关系图谱构建的示意性流程图;

图5图示了根据本申请实施例的优化的基于大规模网络的Louvain方法的示意图;

图6图示了根据本申请实施例的图关联特征的提取的示意图;

图7图示了根据本申请实施例的梯度提升决策树模型的伪代码的示意图

图8图示了根据本申请实施例的用于预定申请人的信用判定模型的训练装置的框图;

图9图示了根据本申请实施例的电子设备的框图。

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

示例性方法

图1图示了根据本申请实施例的用于预定申请人的信用判定模型的训练方法的示例性流程图。

如图1所示,根据本申请实施例的用于预定申请人的信用判定模型的训练方法包括如下步骤。

步骤S110,获取所述预定申请人的有关数据。这里,所述预定申请人的有关数据可以是与用户的信用判定有关的各种数据,例如对于如上所述的征信白户,可以获取其金融资产数据、SDK(软件开发包)端操作行为数据、信贷申请数据等,而对于非白户的用户,除获取上述信息外,还可以获取其人行征信数据。

具体地,在本申请实施例中,获取所述预定申请人的有关数据可以进一步包括数据范围确认和数据预处理两个步骤。

首先,需要确认数据来源的范围,通常,用于信用判定的用户信息来源于用户填写的个人资料、申请信息、行内金融资产信息、以及经过用户授权后采集的设备信息,个人征信数据等,另外,还包括金融机构内部的逾期客户名单、黑名单等,这些都在数据来源的范围的范围内。

接下来,要对获取的数据进行预处理,具体地,一方面通过数据清洗为提取用户的个体特征做准备,比如将用户的金融资产数据、SDK端操作行为数据、信贷申请数据、人行征信数据等海量数据中的异常脏数据、缺失数据等清除或更换为异常值;另一方面,通过数据预处理对网络关联实体进行规范化,主要是地址类数据,比如通过地址标准化工具完成地址规范化处理,以提升网络匹配精准率。

步骤S120,获取用于所述预定申请人的关系图谱。这里,用于表示与用户有关的关系的关系图谱可以预先构建,其主要包括网络设计、权重训练、异构图构建、同构图构建、社区发现等。这样,在进行信用判定时,就可以直接使用已经构建好的关系图谱。当然,也可以在进行信用判定时再进行关系图谱的构建。

图2图示了根据本申请实施例的表示与用户有关的关系的同构图的示意图。如图2所示,同构图中的节点均为用户,可以通过无向图或有向图关联,关系则包括用户之间的各种需要考虑的关系,例如转账关系、同设备关系、同家庭地址关系、同关系、同手机号关系等。

图3图示了根据本申请实施例的表示与用户有关的关系的异构图的示意图。如图3所示,异构图中的节点可以包括不同类型的节点,比如用户节点和关联节点。具体地,用户节点可以通过有向图指向关联节点。节点之间的关系包括登录设备关系、地址关系、登录IP关系、手机号关系等。

另外,社区发现比如社团发现算法,其是一种图算法,用于基于已经构造好的图来进行划分,从而得到关系图谱。

下面,将详细说明与用于所述预定申请人的关系图谱的构建过程。

这里,用于所述预定申请人的关系图谱也可以被称为关系网络,因此,用于所述预定申请人的关系图谱的构建过程也可以被称为网络构建。

图4图示了根据本申请实施例的用于预定申请人的信用判定方法中的关系图谱构建的示意性流程图。

如图4所示,关系图谱构建主要包括以下步骤。

步骤S121,确定用于关系图谱构建的数据,即,进行数据探索。具体地,数据探索包括统计各产品存量数据,包括客户数量、主键数量、有效业务量、正负样本数量等;和统计各类关联维度数据状况,包括缺失率分析,异常值分析、负样本操作流程特性归纳分析等。

步骤S122,确定异构图中的节点和关系。也就是,进行异构图的方案设计。如上所述,异构图中包括节点和关系,其中节点类型大于1。在本申请实施例中,节点包括用户节点、地址节点、手机号码节点、设备节点、IP节点。其中地址节点又包括家庭地址和,设备节点又包括IMEI、MAC等。因此,基于节点类型可以定义多种关系,包括客户-操作设备、客户-手机号码、客户-地址、客户-IP等。

步骤S123,整理节点属性和关系属性。例如,可以根据异构图中的节点类型和关系类型梳理节点属性和关系属性,并生成节点数据表、关系数据表以及客户SDK操作记录表、客户账户资金明细表等。例如,以下表1示出了各个数据表的示例。

【表1】

步骤124,对于异构图进行超点筛除。具体地,首先进行超点范围界定。在本申请实施例中,将入度数量大于预定阈值的关联节点确定为超点。并且,所述预定阈值可以为数值,比如100,也可以是范围,比如入度数量占网络客户节点数量的40%。

然后,进行超点评估,可以包括以下标准:

(1)节点为IP类型,且关联客户节点最近登录时间中位数差值平均值大于阈值(比如2周);

(2)节点为地址类型,且关联客户节点最近输入时间中位数差值平均值大于阈值(比如2周);

(3)节点为设备类型,且关联客户节点最近登录时间中位数差值平均值大于阈值(比如2周);

(4)节点为地址类型,且为非标准地址(如缺少街道/社区维度信息)。

步骤125,对异构图进行关系筛选。也就是,基于SDK端操作行为数据、信贷申请数据等数据,可梳理出大量关联关系,除上述关联外,还有如邮箱关联、GPS关联等关联关系,需要对这些关联关系进行筛选。

在本申请实施例中,可以通过计算关联关系筛选指标来对上述关联进行筛选。这里,针对每一类型的实体都可以构成一个同构图,图上的节点是申请件,若两个用户ID关联到该类型实体下(至少)同一个实体,那么则形成边。通过计算同构图的连通性和同质性指标,确定连接的实体。

关联关系筛选指标包括同标签检验指标,用于反映网络中正样本与负样本用户节点的关联紧密程度,计算结果等于正样本和负样本节点形成的边/总边数。表示为:

另外,关联关系筛选指标包括异标签检验指标,用于反映正样本和负样本节点之间的紧密程度,计算结果等于正样本和负样本节点形成的边的观察值/正样本和负样本节点形成的边期望值。如果指标结果小于1,则表示与随机网络相比,正样本和负样本节点的关联稀疏。表示为:

并且,关联关系筛选指标还包括连通系数指标,用于反映网络的稠密程度,该值越接近于1表征网络越稠密,稠密的网络更有利于负标签的传播。表示为:

其中β为连通分支数,Ni为第i个连通分支中的节点数量,N为网络中的节点总数目,且Li为第i个连通分支的平均最短路径。

并且,关联关系筛选指标还包括平均聚类系数指标。这里,节点的聚类系数指的是与节点i直接相连的所有邻居节点(不包括节点i)之间的实际边数与这些邻居节点之间最大可能边数之间的比值。网络的平均聚类系数等于网络中所有节点聚类系数加和平均值。表示为:

其中K代表节点i的所有邻居点的边数,L代表节点i的度。

这样,在根据本申请实施例中,可以选择低同标签检验指标、低异标签检验指标、高连通系数指标和高平均聚类系数指标的关系类型。

步骤S126,进行异构图的关系权重的训练。这里,异构图中的边的权重代表该类型边的关键程度,利用样本数据可以对各类关系进行权重训练,并完成属性标注。在本申请实施例中,异构图的关系权重的计算可以基于两部分,即关联性质乘以时间属性,表示为:

权重=a×e-b

其中a表示在该关系的同构图中同标签检验指标的值,b表示时间衰减系数,一般定为1。

步骤S127,对异构图进行社区发现以获得所述用于所述预定申请人的关系图谱。具体地,社区发现算法是基于异构图中用户节点与其他类型节点的关联提取用户节点与用户节点之间的关联的同构图。社区发现的目的是将图中节点划分到不同社区,使得社区内部连接紧密,社区之间连接稀疏。社区发现算法众多,在本申请实施例中,例如可以选择Louvain算法完成社区发现工作。Louvain算法本质属于贪心算法,是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。

这里,模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数之差,它的取值范围是[-1/2,1),表示为:

其中,Aij是节点i和节点j之间边的权重,ki表示节点i的加权度数,ci表示节点i所在的社区,m表示所有边的权重之和。

模块度的公式定义可以作如下简化:

其中,其中Σin表示社区c内的边的权重之和,Σtot表示与社区c内的节点相连的边的权重之和。

在本申请实施例中,通过Louvain算法进行社区发现包括以下5个步骤。

步骤1,将图中的每个节点看成一个独立的社区,因此社区的数目与节点个数相同;

步骤2,对每个节点i,依次尝试把节点i分配到其每个邻居节点所在的社区,计算分配前与分配后的模块度变化ΔQ,并记录ΔQ最大的那个邻居节点,如果maxΔQ>0,则把节点i分配到ΔQ最大的那个邻居节点所在的社区,否则保持不变;

步骤3,重复步骤2,直到所有节点的所属社区不再变化;

步骤4,对图进行压缩,将所有在同一个社区的节点压缩成一个新节点,社区内节点之间的边的权重转化为新节点的环的权重,社区间的边权重转化为新节点间的边权重;

步骤5,重复步骤1到步骤4直到整个图的模块度不再发生变化。

但是,上述Louvain算法的步骤2的迭代次数过多,使得运行时间较缓慢,大社区过度合并,存在部分社区过大的现象;另外,小社区数量较多,在最终的划分结果中没有及时合并小社区。基于以上问题,在本申请实施例中,进一步提出基于大规模网络的Louvain优化算法。

图5图示了根据本申请实施例的优化的基于大规模网络的Louvain方法的示意图。

如图5所示,该Louvain方法首先进行图萃取,即通过边权重过滤所述异构图中的连接比较弱的边;然后,进行初次社区划分,即将所述异构图中的单一节点各自归为一个社区,并计算模块度进行分配以获得初次划分结果;然后,进行社区压缩,即对所述初次划分结果进行压缩以生成新图;接下来,选取所述新图中的种子节点,所述种子节点符合条件:节点度数>平均度+标准差;最后,进行其它节点的合并,即将所述新图中的非种子节点根据模块度合并到所述种子节点的社区。

步骤S130,基于所述关系图谱进行样本筛选以获得用于模型建立的样本数据。例如,可以在如上所述得到的关系图谱中,选取客户数>=2且至少有一个有信贷表现的征信白户样本的图作为建模样本及特征衍生范围。

具体地,在本申请实施例中,可以选取满足一定逾期条件的征信白户样本作为负样本,且选取在一段时间表现期内无逾期的征信白户样本作为正样本;而网络中的其它非白户样本,不作为建模样本,仅作为建模样本(白户样本)的周围邻居为白户样本贡献其图特征信息;如果建模样本数据量不够,则通过预定抽样方式将一部分非白户样本的征信信息删除,将其当做是征信白户样本。

步骤S140,基于所述用于模型建立的样本数据提取特征。这里,特征可以包括个体特征、图关联特征和网络特征。其中,个体特征是建模样本的自身属性,如金融资产特征和SDK操作行为特征等。可以通过针对客户自身属性信息通过自动化特征工程框架(比如Featuretools)实现进行特征衍生来获得。

图关联特征是与建模样本在同一个网络中的其他样本的属性特征(如金融资产特征、SDK特征、人行征信特征等),是基于在图中与建模样本的关联关系、关联权重、关联距离等网络结构聚合计算后的特征,也就是将建模样本周边客户的属性按照一定的聚合方式计算后作为建模样本的属性特征。

此外,网络特征是用户所在关联网络中的结构特征。

在本申请实施例中,个体特征提取可以是针对网络中的所有样本的自身数据信息进行特征提取,包括建模样本和非建模样本,而与用户在网络中的信息无关。另外,根据特征提取方式和数据来源可以分为自动行为特征和属性特征。

首先,自动行为特征所依赖的数据源为用户的征信信息、SDK操作记录表和用户的账户资金明细表等,所生成特征主要为用户在金融机构内的行为数据。例如,在本申请实施例中,可以通过自动化特征工程框架(比如Featuretools)来实现客户行为特征的自动化提取。这里,Featuretools擅长将时间和关系数据集转换为用于机器学习的特征矩阵,其实际上是对常见的特征工程方法进行了自动化封装,如groupby、min、max、mean等,在本申请实施例中,可以利用Featuretools构建特有算子进行定制化特征生成。

在本申请实施例中,Featuretools的实体集可以包括用户实体表、用户征信明细表、用户SDK操作记录表和用户账户资金明细表等。关系集指的是实体集之间的关联键的定义,在本申请实施例中,3个数据表关联键例如均为用户ID。

通过python实现方法如下:

步骤1,构建实体和实体集,表示为:

import featuretools as ft

import pandas as pd

本文发布于:2023-04-12 22:51:27,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/86107.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图