一种基于验证码式问答的在线信用和欺诈风险评估方法

阅读：评论：0

著录项

申请号 CN201610927703.8
申请日 20161031
公开（公告）号 CN106529773A
公开日 20170322
申请（专利权）人宜人恒业科技发展（北京）有限公司
发明人王婷;种骥科;姜涛;彭南博;张晶;余春晖
主分类号 G06Q10/06
分类号
G06Q10/06 G06Q30/06
地址北京市朝阳区通惠河北路郎家园6号2号楼A座3层
国省代码北京(11)
代理机构北京高文律师事务所
代理人徐江华

摘要

本发明提供一种基于验证码式问答的在线信用和欺诈风险评估方法，通过一种符合用户习惯的验证码模式，结合用户的申请信息，利用用户在手机App上填写补充信息和验证问题过程中的行为特征和设备状态作为反欺诈分析的手段，通过采集用户在填写贷款申请表单时的输入长度、输入时间、编辑次数、物理位置、各类传感器状态等，提取出有效的用户行为特征和设备状态，然后将这些特征转化为信号，进而利用决策树风险模型进行分类判断。本发明在原有申请流程基础上，只用用户几秒钟的时间，就能为反欺诈算法提供多项特征；原有申请流程不需要改变，问答环节可以随时加入；特征提取于用户对问答的自然习惯，不容易伪造。

权利要求



1.一种基于验证码式问答的在线信用和欺诈风险评估方法，包括下列步骤：

(1)用户在移动平台打开移动应用APP，保持和云端服务器联网状态，所述移动应用APP 调用表单页面，并将填写的申请信息通过移动应用APP中的信息通信模块发送到云端服务器的信息通信模块；

(2)云端服务器依据用户填写的申请信息，通过调用补充和验证问题生成模型生成补充问题和验证问题，并发回移动应用APP，展示问题页面呈现给用户；

(3)用户在回答展示页面中的问题时，移动应用APP调用行为和状态收集模块采集用户在填写过程中的用户行为和设备状态，并实时发送到云端服务器；

(4)所述云端服务器调用行为特征和设备特征提取模块将用户行为和设备状态提取为行为特征和设备特征，并同时发送给在线决策引擎和在线学习引擎；

(5)在线决策引擎将行为特征和设备特征发送给在线决策模型，在线学习引擎依据输入的行为特征和设备特征进行模型在线学习和更新，并将更新的模型发给在线决策模型，所述在线决策模型依据输入的行为特征和设备特征以及更新模型进行决策并输出决策。

2.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：步骤(3)中，所述用户行为包括采集用户在填写贷款申请表单时的回答延时、输入长度、输入时间、编辑次数、物理位置，所述设备状态包括地理位置信息、移动平台中各类传感器状态，提取出输入时有效的用户行为特征和设备特征。

3.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：步骤(5)中，所述在线决策模型将决策结果发送到所述云端服务器的补充和验证问题生成模型，使用户模型更新。

4.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：步骤(5)中，所述在线决策模型通过建立风险模型，来评估用户的信用和欺诈风险，所述风险模型包括决策树模型、随机森林模型、逻辑回归模型、支持向量机、神经元网络、朴素贝叶斯、深度神经网模型。



5.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：步骤(2)中，所述补充问题和验证问题的来源采用用户填写的申请信息，通过申请信息查询到的第三方信息，以及用户在申请过程中授权抓取的第三方信息。

6.根据权利要求5所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：步骤(2)中，问答的方式以验证码形式出现，降低用户对答题的警戒心理，得到更真实的答案。



7.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：所述云端服务器内还设置有离线模型训练模块，所述离线模型训练模块是金融机构利用自身积累的放贷历史记录，构建的训练模型，本发明使用决策树作为分类引擎，利用采集到的用户申请贷款填写表单时的补充和验证问题的行为特征再匹配上该用户在获得贷款后的还款变现，构建训练数据集。

8.根据权利要求7所述的基于验证码式问答的在线信用和欺诈风险评估方法，其特征在于：所述在线决策引擎使用的是离线模型训练模块基于历史6个月的用户数据构建的分类引擎，以及一直积累到现在的敏感词典来在线计算每一个用户的得分。

说明书

技术领域

本发明涉及一种应用数学模型的信用评估方法，尤其是涉及一种基于验证码式问答的在线信用和欺诈风险评估方法。

随着移动互联网的猛迅发展，人们越来越习惯于利用手机进行购物、消费、娱乐。越来越多的借贷行为也已开始向线上转移。P2P是专指个人与个人间的小额借贷交易，电子商务专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续。为了保障出借人的利益，平台方需要对借贷人的信用资质进行全方位评估，由于国内征信体系发展相对滞后，导致目前各个P2P平台当中存在大量的欺诈现象。

目前识别欺诈方法有两项缺陷：

1.识别信用和欺诈风险主要依靠产品设计师设计出的标准产品流程。在全自动化的产品流程中，如果用户提供的个人资料有些不明确的地方，流程不能自动跟进确认一些信息细节，使不确认性以风险的方式呈现，导致本可以放款的债权被拒贷。要想降低欺诈概率，就要要求用户填写更多的用户信息，使申请流程越来越繁琐。繁琐的申请流程会负面影响用户申请贷款的体验，会降低公司的业绩。

2.现有技术主要依靠的是用户主动提供的数据，这些数据成本低，可以轻易伪造，而不容易辨认。

在贷款机构和贷款用户面谈时，人工信息审核机制是重要反欺诈信息来源。在线上的申请过程中，用户的自动信息审核机制可以在用户使用软件时被捕捉并数字化，用于信用和欺诈审批决策。

用户在回答问题时是要依赖长期自己长期积累下来的知识，普通人在输入他人的信息时是需要思考和吃力的，同时需要不断校验输入内容的正确性。如果问题可以不加思索的给出答案，这样的行为信号可以真实的反应用户的自身的信息。

本发明提供了一种基于验证码式问答的在线信用和欺诈风险评估方法，该方法在只用用户几秒钟的时间，用一个用户熟悉的界面，实时的和用户交互，并在用户没有感知的情况下采集用户的真实行为，利用这些行为构建特征然后靠决策引擎去发现潜在的欺诈用户。本发明所采集的数据是在用户进行贷款申请时采集，不侵犯用户的隐私信息。其技术方案如下所述：

一种基于验证码式问答的在线信用和欺诈风险评估方法，包括下列步骤：

(1)用户在移动平台打开移动应用APP，保持和云端服务器联网状态，所述移动应用APP调用表单页面，并将填写的申请信息通过移动应用APP中的信息通信模块发送到云端服务器的信息通信模块；

(2)云端服务器依据用户填写的申请信息，通过调用补充和验证问题生成模型生成补充问题和验证问题，并发回移动应用APP，展示问题页面呈现给用户；

(3)用户在回答展示页面中的问题时，移动应用APP调用行为和状态收集模块采集用户在填写过程中的用户行为和设备状态，并实时发送到云端服务器；

(4)所述云端服务器调用行为特征和设备特征提取模块将用户行为和设备状态提取为行为特征和设备特征，并同时发送给在线决策引擎和在线学习引擎；

进一步的，步骤(3)中，所述用户行为包括采集用户在填写贷款申请表单时的回答延时、输入长度、输入时间、编辑次数、物理位置，所述设备状态包括地理位置信息、移动平台中各类传感器状态，提取出输入时有效的用户行为特征和设备特征。

进一步的，步骤(5)中，所述在线决策模型将决策结果发送到所述云端服务器的补充和验证问题生成模型，使用户模型更新。

进一步的，步骤(5)中，所述在线决策模型通过建立风险模型，来评估用户的信用和欺诈风险，所述风险模型包括决策树模型、随机森林模型、逻辑回归模型、支持向量机、神经元网络、朴素贝叶斯、深度神经网模型。

进一步的，步骤(2)中，所述补充问题和验证问题的来源采用用户填写的申请信息，通过申请信息查询到的第三方信息，以及用户在申请过程中授权抓取的第三方信息。

步骤(2)中，问答的方式以验证码形式出现，降低用户对答题的警戒心理，得到更真实的答案。

此外，所述云端服务器内还设置有离线模型训练模块，所述离线模型训练模块是金融机构利用自身积累的放贷历史记录，构建的训练模型，本发明使用决策树作为分类引擎，利用采集到的用户申请贷款填写表单时的补充和验证问题的行为特征再匹配上该用户在获得贷款后的还款变现，构建训练数据集。

所述在线决策引擎使用的是离线模型训练模块基于历史6个月的用户数据构建的分类引擎，以及一直积累到现在的敏感词典来在线计算每一个用户的得分。

本发明直接采集用户在进行贷款申请时的行为，有以下优势：

1、在原有申请流程基础上，只用用户几秒钟的时间，就能为反欺诈算法提供多项特征；

2、原有申请流程不需要改变，问答环节可以随时加入；

3、特征提取于用户对问答的自然习惯，不容易伪造。

图1是所述基于用户长期使用行为的在线信用风险评估方法的数据传递示意图；

图2是用户申请信息及验证问题测试示例一示意图；

图3是用户申请信息及验证问题测试示例二示意图；

图4是用户申请信息及验证问题测试示例三示意图。

本发明提供一种基于验证码式问答的在线信用风险评估方法，利用用户在互联网网站和移动应用App上的使用行为作为反欺诈分析的手段，通过一种符合用户习惯的验证码模式，结合用户的申请信息，采集辅助信息和验证信息，并通过回答问题的行为，收集用户行为和设备状态，包括回答延时、输入速度，和设备的状态，包括地理位置、传感器状态，从中提取出有效的行为信号和设备信号，包括回答延时信号、输入速度信号、地理位置信号、传感器状态信号，然后将这些信号转化为特征，进而利用风险模型，包括决策树模型、随机森林模型，来评估用户的信用和欺诈风险。本发明在原有申请流程基础上，不改变申请流程，可插入任何环节，就能提供多项反欺诈和信用风险特征；特征提取于用户的自然使用行为，伪造成本高。

本发明利用用户在手机App上填写补充信息和验证问题过程中的行为特征和设备状态作为反欺诈分析的手段，通过采集用户在填写贷款申请表单时的输入长度、输入时间、编辑次数、物理位置、各类传感器状态等，提取出有效的用户行为和状态特征，而小额信贷申请的反欺诈分析是这两类特征的应用之一。实际应用需要一整套数据科学分析框架，如图1所示，包括：移动平台101；移动应用102；所述移动应用102中调用表单页面103和所述 SDK106；所述表单页面103中包含申请信息发送模块104、信息展示调用模块105；所述 SDK106中包含行为状态收集模块107、信息通信模块-S108、信息展示模块109；云端服务器 201；所述云端服务器201中包含信息通信模块-O 202、补充和验证问题208、行为特征和设备特征提取模块203、离线模型和训练模块204、在线决策引擎205、在线学习引擎207；所述在线决策引擎205中包含在线决策引擎206。各模块间的调用流程包括：

1、“移动平台101”中安装“移动应用102”；

2、“移动应用102”中的调用“表单页面103”；

3、“表单页面103”调用“申请信息发送模块104”；

4、“申请信息发送模块104”将用户填写申请信息发送到“信息通信模块-S 108”；

5、“信息通信模块-S 108”将用户填写申请信息发送到“云端服务器201”中的“信息通信模块-O 202”；

6、“信息通信模块-O 202”将用户填写申请信息发送给“补充和验证问题生成模型 208”；

7、“补充和验证问题生成模型208”依据用户填写申请信息生成补充问题和验证问题；

8、“补充和验证问题生成模型208”将生成的补充问题和验证问题发送给“信息通信模块-O 202”；

9、“信息通信模块-O 202”将生成的补充问题和验证问题发送给“信息通信模块-S 108”；

10、“信息通信模块-S 108”将生成的补充问题和验证问题发送给“信息展现模块 109”；

11、“信息展现模块109”将补充问题和验证问题转化为展示页面和结果验证；

12、“信息展现模块109”将展示页面和结果验证发送给“信息展示调用模块105”；

13、“信息展示调用模块105”将展示页面呈现给用户；

14、用户在信息展示调用模块105”将展示页面中填写信息；

15、“表单页面103”调用“SDK 106”中的“行为和状态收集模块107”，收集步骤14过程中记录的用户行为特征和设备状态；

16、“行为和状态收集模块107”将用户行为特征和设备状态实时的发送到“信息通信模块-S 108”；

17、“信息通信模块-S 108”将用户行为特征和设备状态发送到“云端服务器201” 中的“信息通信模块-O 202”；

18、信息通信模块-O 202”将用户行为特征和设备状态发送到“行为特征和设备特征提取模块203”；

19、“行为特征和设备特征提取模块203”将用户行为特征和设备状态提取为行为特征和设备特征；

20、“行为特征和设备特征提取模块203”将行为特征和设备特征同时发送给“在线决策引擎205”、“在线学习引擎207”；

21、“在线决策引擎205”调用“在线决策模型206”，将行为特征和设备特征发送给 “在线决策模型206”；

22、“在线学习引擎207”依据输入的行为特征和设备特征进行模型在线学习和更新；

23、“在线学习引擎207”将更新的模型发给“在线决策模型206”；

24、“在线决策模型206”依据输入的行为特征和设备特征以及“在线学习引擎207” 发送来的更新模型进件决策；

25、“在线决策模型206”将结果发送到“补充和验证问题生成模型208”用户模型更新；

26、“在线决策模型206”将结果输出决策。

下面以虚拟用户“郑秀晶”为例，对本专利进行详细介绍。图2为用户申请信息及验证问题的示例。用户在Android手机(移动应用101)上安装了某移动应用(移动应用102)，并在其中一个应用页面(表单页面103)上回答了问题“近六个月常驻城市”，其回答为“徐州”，从而生成如下申请问题A。

申请信息A：“近六个月常驻城市：徐州”

申请问题A通过图1中所示调用流程4～6，最终到达“补充和验证问题生成模块 208”，并在该模块中通过流程7，采用如下的逻辑生成验证问题：

申请问题A的验证问题生成逻辑：用户对常驻城市所属省份的敏感度可通过应答行为作出判断，从而对是否用户本人操作有参考价值。

问题A：您常驻城市所在省份(自治区/直辖市)的拼音首字母为？

正确答案A：字母“J S”，且因为徐州市属于江苏省，该省的拼音为“Jiang Su”，拼音的首字母分别为“J”和“S”，且“J”在“S”前面。

备选答案A：字母“W”、“S”、“Z”、“J”、“H”。备选答案A包含正确答案A中的所有字母，及其它错误的答案。

备选答案A的展示形式：每个字母以图片形式展示，图片中的字母经过适当的扭曲和变形。该展示形式可增加回答的难度，并可在用户回答问题时采集用户行为。

备选答案A的回答方式：用户需要以拖拽的方式先将字母“J”代表的图片放置到指定的区域内，再将字母“S”代表的图片放置到指定的区域内。

问题A、正确答案A、备选答案A及其展示形式和回答方式，这些内容通过图1中所示调用流程8～12，到达“信息展示模块105”，并以图2所示形式进行展示。

用户在回答问题A的过程中，“表单页面103”调用“用户行为和设备状态收集模块 107”，如调用流程13～15所述，其采集的用户行为信息如表1所示，设备信息如表2所示。

表1用户行为信息示例

表2设备信息示例

设备信息信息内容

手机厂商华为

手机型号 H60

操作系统 Android

操作系统版本号 4.4.1

APP版本 3.8.6

表3特征名称解释

input_type 输入类别

text_length 字段长度

del_text 删除字段数

type_speed 打字速度

long 经度

lat 纬度

tag1_n1 标签1

tag1_n2 标签2

app_tag2_n1 APP标签1

app_tag2_n2 APP标签2

sensor_1 传感器数据1

sensor_2 传感器数据2

sensor_3 传感器数据3

sensor_4 传感器数据4

表1和表2中的信息经过调用流程16～18，到达“行为特征和设备提取模块203”，并在该模块转变为特征，即调用流程19。以虚拟“郑秀晶”用户为例该用户的各项特征生成一个特征向量(特征名称解释见表3)vec＝[input_type,text_length,del_text,type_ speed,long,lat,tag1_n1,tag1_n2,app_tag2_n1,app_tag2_n2,sensor_1,sensor_2, sensor_3,sensor_4]＝[0,0,0,14.6,18.2,14.4,83.4,2.6,317,14.6,14.9，15.1,0.32， 0.48],调用LogisticRegression模型(逻辑回归模型)，user_fraud_score(用户欺诈分数) ＝LR(vec)＝0.9，LR计算的值区间在[0,1.0]，历史数据会计算出一个区分阈值，本案例以 threshold(阈值)＝0.85为区分阈值，因为欺诈用户数目从统计上是少量的，阈值通常会比较高，由于“郑秀晶”用户的欺诈分数是0.9>threshold，因此决策引擎将拒绝对该用户进行批贷。

除图2所示问题展示形式外，还可采用图3和图4的展示形式，或其它类型的展示形式。可见，所述补充问题和验证问题的来源采用用户填写的申请信息，以及用户在申请信息中临时分享的个人在浏览互联网网站时的信息记录。

对于其中的LR(逻辑回归模型)模型时在离线模型训练模块，将大量的vec输入到模型中得到的，其中的输入数据包含vec和对应的标记。例如一条完整训练数据应是[vec, user_fraud_score]，利用多行这样的训练数据构建一个n行m列的M矩阵，其中行数就是训练样本数据，列数就是样本的特征和对应的标记。当一个未知用户特征进入模型LR之后，我们就可以得到如上一段的预测。

离线模型训练模块，是金融机构利用自身积累的放贷历史记录，构建训练模型，本案使用决策树作为分类引擎，利用采集到的用户申请贷款填写表单时的补充和验证问题的行为特征再匹配上该用户在获得贷款后的还款变现，构建训练数据集。对于分类样本好用户和欺诈用户的定义，本案使用用户获得贷款后在未来6个月的还款执行期间，如果用户最多只偿还了3期贷款就认为它们是欺诈用户，如果用户偿还贷款最长一次逾期天数小于7天那么就定义为好用户，其它范围的用户考虑为灰用户，不用做训练数据。离线训练模型采用逻辑回归来训练并对模型进行调参。

在线决策引擎主要使用的是离线模型训练模块基于历史6个月的用户数据构建的分类引擎，和一直积累到现在的敏感词典词典来在线计算每一个用户的得分。

预测结果是在经过决策引擎判断后，用户会得到欺诈或者非欺诈的结果，一旦用户被判定为欺诈用户，他的贷款申请就会被拒绝。

本发明利用用户在手机App上填写补充信息和验证问题过程中的行为特征和设备状态作为反欺诈分析的手段，通过采集用户在填写贷款申请表单时的输入长度、输入时间、编辑次数、物理位置、各类传感器状态等，提取出有效的用户行为和状态特征，然后将这些特征转化为信号，进而利用决策树风险模型进行分类判断。

本案在数据采集上不存在其他的替代方案，本案的风险模型可以采用其他的算法，例如逻辑回归、支持向量机、神经元网络、随机森林和朴素贝叶斯等等。

不同的申请人和应用场景可选用不同机器学习算法支持。在产品开发初期，案例比较稀少时，可选用决策树算法。在欺诈案例有一定积累时，可选用逻辑回归算法。在数据收集比较完整时，可选用支持向量机算法。在数据收集不完整，频有缺失场景下，可选用随机森林算法。在案例非常充足的情况下，可用融入神经元网络算法的集成算法。

本文发布于:2023-04-14 13:01:28，感谢您对本站的认可！

本文链接：https://patent.en369.cn/patent/4/86493.html

上一篇：一种二手房交易款项监管方法及系统

下一篇：一种低地板有轨电车的控制方法、系统和低地板有轨电车

标签：一种基于验证码式问答的在线信用和欺诈风险评估方法

留言与评论（共有 0 条评论）