G06Q10/06 G06Q30/06
1.一种基于验证码式问答的在线信用和欺诈风险评估方法,包括下列步骤:
(1)用户在移动平台打开移动应用APP,保持和云端服务器联网状态,所述移动应用APP 调用表单页面,并将填写的申请信息通过移动应用APP中的信息通信模块发送到云端服务 器的信息通信模块;
(2)云端服务器依据用户填写的申请信息,通过调用补充和验证问题生成模型生成补 充问题和验证问题,并发回移动应用APP,展示问题页面呈现给用户;
(3)用户在回答展示页面中的问题时,移动应用APP调用行为和状态收集模块采集用户 在填写过程中的用户行为和设备状态,并实时发送到云端服务器;
(4)所述云端服务器调用行为特征和设备特征提取模块将用户行为和设备状态提取为 行为特征和设备特征,并同时发送给在线决策引擎和在线学习引擎;
(5)在线决策引擎将行为特征和设备特征发送给在线决策模型,在线学习引擎依据输 入的行为特征和设备特征进行模型在线学习和更新,并将更新的模型发给在线决策模型, 所述在线决策模型依据输入的行为特征和设备特征以及更新模型进行决策并输出决策。
2.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:步骤(3)中,所述用户行为包括采集用户在填写贷款申请表单时的回答延时、输入长 度、输入时间、编辑次数、物理位置,所述设备状态包括地理位置信息、移动平台中各类传感 器状态,提取出输入时有效的用户行为特征和设备特征。
3.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:步骤(5)中,所述在线决策模型将决策结果发送到所述云端服务器的补充和验证问题 生成模型,使用户模型更新。
4.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:步骤(5)中,所述在线决策模型通过建立风险模型,来评估用户的信用和欺诈风险,所 述风险模型包括决策树模型、随机森林模型、逻辑回归模型、支持向量机、神经元网络、朴素 贝叶斯、深度神经网模型。
5.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:步骤(2)中,所述补充问题和验证问题的来源采用用户填写的申请信息,通过申请信 息查询到的第三方信息,以及用户在申请过程中授权抓取的第三方信息。
6.根据权利要求5所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:步骤(2)中,问答的方式以验证码形式出现,降低用户对答题的警戒心理,得到更真实 的答案。
7.根据权利要求1所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:所述云端服务器内还设置有离线模型训练模块,所述离线模型训练模块是金融机构 利用自身积累的放贷历史记录,构建的训练模型,本发明使用决策树作为分类引擎,利用采 集到的用户申请贷款填写表单时的补充和验证问题的行为特征再匹配上该用户在获得贷 款后的还款变现,构建训练数据集。
8.根据权利要求7所述的基于验证码式问答的在线信用和欺诈风险评估方法,其特征 在于:所述在线决策引擎使用的是离线模型训练模块基于历史6个月的用户数据构建的分 类引擎,以及一直积累到现在的敏感词典来在线计算每一个用户的得分。
本发明涉及一种应用数学模型的信用评估方法,尤其是涉及一种基于验证码式问 答的在线信用和欺诈风险评估方法。
随着移动互联网的猛迅发展,人们越来越习惯于利用手机进行购物、消费、娱乐。 越来越多的借贷行为也已开始向线上转移。P2P是专指个人与个人间的小额借贷交易,电子 商务专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续。为了保障出借人的利 益,平台方需要对借贷人的信用资质进行全方位评估,由于国内征信体系发展相对滞后,导 致目前各个P2P平台当中存在大量的欺诈现象。
目前识别欺诈方法有两项缺陷:
1.识别信用和欺诈风险主要依靠产品设计师设计出的标准产品流程。在全自动化 的产品流程中,如果用户提供的个人资料有些不明确的地方,流程不能自动跟进确认一些 信息细节,使不确认性以风险的方式呈现,导致本可以放款的债权被拒贷。要想降低欺诈概 率,就要要求用户填写更多的用户信息,使申请流程越来越繁琐。繁琐的申请流程会负面影 响用户申请贷款的体验,会降低公司的业绩。
2.现有技术主要依靠的是用户主动提供的数据,这些数据成本低,可以轻易 伪造,而不容易辨认。
在贷款机构和贷款用户面谈时,人工信息审核机制是重要反欺诈信息来源。在线 上的申请过程中,用户的自动信息审核机制可以在用户使用软件时被捕捉并数字化,用于 信用和欺诈审批决策。
用户在回答问题时是要依赖长期自己长期积累下来的知识,普通人在输入他人的 信息时是需要思考和吃力的,同时需要不断校验输入内容的正确性。如果问题可以不加思 索的给出答案,这样的行为信号可以真实的反应用户的自身的信息。
本发明提供了一种基于验证码式问答的在线信用和欺诈风险评估方法,该方法在 只用用户几秒钟的时间,用一个用户熟悉的界面,实时的和用户交互,并在用户没有感知的 情况下采集用户的真实行为,利用这些行为构建特征然后靠决策引擎去发现潜在的欺诈用 户。本发明所采集的数据是在用户进行贷款申请时采集,不侵犯用户的隐私信息。其技术方 案如下所述:
一种基于验证码式问答的在线信用和欺诈风险评估方法,包括下列步骤:
(1)用户在移动平台打开移动应用APP,保持和云端服务器联网状态,所述移动应 用APP调用表单页面,并将填写的申请信息通过移动应用APP中的信息通信模块发送到云端 服务器的信息通信模块;
(2)云端服务器依据用户填写的申请信息,通过调用补充和验证问题生成模型生 成补充问题和验证问题,并发回移动应用APP,展示问题页面呈现给用户;
(3)用户在回答展示页面中的问题时,移动应用APP调用行为和状态收集模块采集 用户在填写过程中的用户行为和设备状态,并实时发送到云端服务器;
(4)所述云端服务器调用行为特征和设备特征提取模块将用户行为和设备状态提 取为行为特征和设备特征,并同时发送给在线决策引擎和在线学习引擎;
(5)在线决策引擎将行为特征和设备特征发送给在线决策模型,在线学习引擎依 据输入的行为特征和设备特征进行模型在线学习和更新,并将更新的模型发给在线决策模 型,所述在线决策模型依据输入的行为特征和设备特征以及更新模型进行决策并输出决 策。
进一步的,步骤(3)中,所述用户行为包括采集用户在填写贷款申请表单时的回答 延时、输入长度、输入时间、编辑次数、物理位置,所述设备状态包括地理位置信息、移动平 台中各类传感器状态,提取出输入时有效的用户行为特征和设备特征。
进一步的,步骤(5)中,所述在线决策模型将决策结果发送到所述云端服务器的补 充和验证问题生成模型,使用户模型更新。
进一步的,步骤(5)中,所述在线决策模型通过建立风险模型,来评估用户的信用 和欺诈风险,所述风险模型包括决策树模型、随机森林模型、逻辑回归模型、支持向量机、神 经元网络、朴素贝叶斯、深度神经网模型。
进一步的,步骤(2)中,所述补充问题和验证问题的来源采用用户填写的申请信 息,通过申请信息查询到的第三方信息,以及用户在申请过程中授权抓取的第三方信息。
步骤(2)中,问答的方式以验证码形式出现,降低用户对答题的警戒心理,得到更 真实的答案。
此外,所述云端服务器内还设置有离线模型训练模块,所述离线模型训练模块是 金融机构利用自身积累的放贷历史记录,构建的训练模型,本发明使用决策树作为分类引 擎,利用采集到的用户申请贷款填写表单时的补充和验证问题的行为特征再匹配上该用户 在获得贷款后的还款变现,构建训练数据集。
所述在线决策引擎使用的是离线模型训练模块基于历史6个月的用户数据构建的 分类引擎,以及一直积累到现在的敏感词典来在线计算每一个用户的得分。
本发明直接采集用户在进行贷款申请时的行为,有以下优势:
1、在原有申请流程基础上,只用用户几秒钟的时间,就能为反欺诈算法提供多项 特征;
2、原有申请流程不需要改变,问答环节可以随时加入;
3、特征提取于用户对问答的自然习惯,不容易伪造。
图1是所述基于用户长期使用行为的在线信用风险评估方法的数据传递示意图;
图2是用户申请信息及验证问题测试示例一示意图;
图3是用户申请信息及验证问题测试示例二示意图;
图4是用户申请信息及验证问题测试示例三示意图。
本发明提供一种基于验证码式问答的在线信用风险评估方法,利用用户在互联网 网站和移动应用App上的使用行为作为反欺诈分析的手段,通过一种符合用户习惯的验证 码模式,结合用户的申请信息,采集辅助信息和验证信息,并通过回答问题的行为,收集用 户行为和设备状态,包括回答延时、输入速度,和设备的状态,包括地理位置、传感器状态, 从中提取出有效的行为信号和设备信号,包括回答延时信号、输入速度信号、地理位置信 号、传感器状态信号,然后将这些信号转化为特征,进而利用风险模型,包括决策树模型、随 机森林模型,来评估用户的信用和欺诈风险。本发明在原有申请流程基础上,不改变申请流 程,可插入任何环节,就能提供多项反欺诈和信用风险特征;特征提取于用户的自然使用行 为,伪造成本高。
本发明利用用户在手机App上填写补充信息和验证问题过程中的行为特征和设备 状态作为反欺诈分析的手段,通过采集用户在填写贷款申请表单时的输入长度、输入时间、 编辑次数、物理位置、各类传感器状态等,提取出有效的用户行为和状态特征,而小额信贷 申请的反欺诈分析是这两类特征的应用之一。实际应用需要一整套数据科学分析框架,如 图1所示,包括:移动平台101;移动应用102;所述移动应用102中调用表单页面103和所述 SDK106;所述表单页面103中包含申请信息发送模块104、信息展示调用模块105;所述 SDK106中包含行为状态收集模块107、信息通信模块-S108、信息展示模块109;云端服务器 201;所述云端服务器201中包含信息通信模块-O 202、补充和验证问题208、行为特征和设 备特征提取模块203、离线模型和训练模块204、在线决策引擎205、在线学习引擎207;所述 在线决策引擎205中包含在线决策引擎206。各模块间的调用流程包括:
1、“移动平台101”中安装“移动应用102”;
2、“移动应用102”中的调用“表单页面103”;
3、“表单页面103”调用“申请信息发送模块104”;
4、“申请信息发送模块104”将用户填写申请信息发送到“信息通信模块-S 108”;
5、“信息通信模块-S 108”将用户填写申请信息发送到“云端服务器201”中的“信 息通信模块-O 202”;
6、“信息通信模块-O 202”将用户填写申请信息发送给“补充和验证问题生成模型 208”;
7、“补充和验证问题生成模型208”依据用户填写申请信息生成补充问题和验证问 题;
8、“补充和验证问题生成模型208”将生成的补充问题和验证问题发送给“信息通 信模块-O 202”;
9、“信息通信模块-O 202”将生成的补充问题和验证问题发送给“信息通信模块-S 108”;
10、“信息通信模块-S 108”将生成的补充问题和验证问题发送给“信息展现模块 109”;
11、“信息展现模块109”将补充问题和验证问题转化为展示页面和结果验证;
12、“信息展现模块109”将展示页面和结果验证发送给“信息展示调用模块105”;
13、“信息展示调用模块105”将展示页面呈现给用户;
14、用户在信息展示调用模块105”将展示页面中填写信息;
15、“表单页面103”调用“SDK 106”中的“行为和状态收集模块107”,收集步骤14过 程中记录的用户行为特征和设备状态;
16、“行为和状态收集模块107”将用户行为特征和设备状态实时的发送到“信息通 信模块-S 108”;
17、“信息通信模块-S 108”将用户行为特征和设备状态发送到“云端服务器201” 中的“信息通信模块-O 202”;
18、信息通信模块-O 202”将用户行为特征和设备状态发送到“行为特征和设备特 征提取模块203”;
19、“行为特征和设备特征提取模块203”将用户行为特征和设备状态提取为行为 特征和设备特征;
20、“行为特征和设备特征提取模块203”将行为特征和设备特征同时发送给“在线 决策引擎205”、“在线学习引擎207”;
21、“在线决策引擎205”调用“在线决策模型206”,将行为特征和设备特征发送给 “在线决策模型206”;
22、“在线学习引擎207”依据输入的行为特征和设备特征进行模型在线学习和更 新;
23、“在线学习引擎207”将更新的模型发给“在线决策模型206”;
24、“在线决策模型206”依据输入的行为特征和设备特征以及“在线学习引擎207” 发送来的更新模型进件决策;
25、“在线决策模型206”将结果发送到“补充和验证问题生成模型208”用户模型更 新;
26、“在线决策模型206”将结果输出决策。
下面以虚拟用户“郑秀晶”为例,对本专利进行详细介绍。图2为用户申请信息及验 证问题的示例。用户在Android手机(移动应用101)上安装了某移动应用(移动应用102),并 在其中一个应用页面(表单页面103)上回答了问题“近六个月常驻城市”,其回答为“徐州”, 从而生成如下申请问题A。
申请信息A:“近六个月常驻城市:徐州”
申请问题A通过图1中所示调用流程4~6,最终到达“补充和验证问题生成模块 208”,并在该模块中通过流程7,采用如下的逻辑生成验证问题:
申请问题A的验证问题生成逻辑:用户对常驻城市所属省份的敏感度可通过应答 行为作出判断,从而对是否用户本人操作有参考价值。
问题A:您常驻城市所在省份(自治区/直辖市)的拼音首字母为?
正确答案A:字母“J S”,且因为徐州市属于江苏省,该省的拼音为“Jiang Su”,拼 音的首字母分别为“J”和“S”,且“J”在“S”前面。
备选答案A:字母“W”、“S”、“Z”、“J”、“H”。备选答案A包含正确答案A中的所有字母, 及其它错误的答案。
备选答案A的展示形式:每个字母以图片形式展示,图片中的字母经过适当的扭曲 和变形。该展示形式可增加回答的难度,并可在用户回答问题时采集用户行为。
备选答案A的回答方式:用户需要以拖拽的方式先将字母“J”代表的图片放置到指 定的区域内,再将字母“S”代表的图片放置到指定的区域内。
问题A、正确答案A、备选答案A及其展示形式和回答方式,这些内容通过图1中所示 调用流程8~12,到达“信息展示模块105”,并以图2所示形式进行展示。
用户在回答问题A的过程中,“表单页面103”调用“用户行为和设备状态收集模块 107”,如调用流程13~15所述,其采集的用户行为信息如表1所示,设备信息如表2所示。
表1用户行为信息示例
表2设备信息示例
设备信息 信息内容
手机厂商 华为
手机型号 H60
操作系统 Android
操作系统版本号 4.4.1
APP版本 3.8.6
表3特征名称解释
input_type 输入类别
text_length 字段长度
del_text 删除字段数
type_speed 打字速度
long 经度
lat 纬度
tag1_n1 标签1
tag1_n2 标签2
app_tag2_n1 APP标签1
app_tag2_n2 APP标签2
sensor_1 传感器数据1
sensor_2 传感器数据2
sensor_3 传感器数据3
sensor_4 传感器数据4
表1和表2中的信息经过调用流程16~18,到达“行为特征和设备提取模块203”,并 在该模块转变为特征,即调用流程19。以虚拟“郑秀晶”用户为例该用户的各项特征生成一 个特征向量(特征名称解释见表3)vec=[input_type,text_length,del_text,type_ speed,long,lat,tag1_n1,tag1_n2,app_tag2_n1,app_tag2_n2,sensor_1,sensor_2, sensor_3,sensor_4]=[0,0,0,14.6,18.2,14.4,83.4,2.6,317,14.6,14.9,15.1,0.32, 0.48],调用LogisticRegression模型(逻辑回归模型),user_fraud_score(用户欺诈分数) =LR(vec)=0.9,LR计算的值区间在[0,1.0],历史数据会计算出一个区分阈值,本案例以 threshold(阈值)=0.85为区分阈值,因为欺诈用户数目从统计上是少量的,阈值通常会比 较高,由于“郑秀晶”用户的欺诈分数是0.9>threshold,因此决策引擎将拒绝对该用户进行 批贷。
除图2所示问题展示形式外,还可采用图3和图4的展示形式,或其它类型的展示形 式。可见,所述补充问题和验证问题的来源采用用户填写的申请信息,以及用户在申请信息 中临时分享的个人在浏览互联网网站时的信息记录。
对于其中的LR(逻辑回归模型)模型时在离线模型训练模块,将大量的vec输入到 模型中得到的,其中的输入数据包含vec和对应的标记。例如一条完整训练数据应是[vec, user_fraud_score],利用多行这样的训练数据构建一个n行m列的M矩阵,其中行数就是训 练样本数据,列数就是样本的特征和对应的标记。当一个未知用户特征进入模型LR之后,我 们就可以得到如上一段的预测。
离线模型训练模块,是金融机构利用自身积累的放贷历史记录,构建训练模型,本 案使用决策树作为分类引擎,利用采集到的用户申请贷款填写表单时的补充和验证问题的 行为特征再匹配上该用户在获得贷款后的还款变现,构建训练数据集。对于分类样本好用 户和欺诈用户的定义,本案使用用户获得贷款后在未来6个月的还款执行期间,如果用户最 多只偿还了3期贷款就认为它们是欺诈用户,如果用户偿还贷款最长一次逾期天数小于7天 那么就定义为好用户,其它范围的用户考虑为灰用户,不用做训练数据。离线训练模型采 用逻辑回归来训练并对模型进行调参。
在线决策引擎主要使用的是离线模型训练模块基于历史6个月的用户数据构建的 分类引擎,和一直积累到现在的敏感词典词典来在线计算每一个用户的得分。
预测结果是在经过决策引擎判断后,用户会得到欺诈或者非欺诈的结果,一旦用 户被判定为欺诈用户,他的贷款申请就会被拒绝。
本发明利用用户在手机App上填写补充信息和验证问题过程中的行为特征和设备 状态作为反欺诈分析的手段,通过采集用户在填写贷款申请表单时的输入长度、输入时间、 编辑次数、物理位置、各类传感器状态等,提取出有效的用户行为和状态特征,然后将这些 特征转化为信号,进而利用决策树风险模型进行分类判断。
本案在数据采集上不存在其他的替代方案,本案的风险模型可以采用其他的算 法,例如逻辑回归、支持向量机、神经元网络、随机森林和朴素贝叶斯等等。
不同的申请人和应用场景可选用不同机器学习算法支持。在产品开发初期,案 例比较稀少时,可选用决策树算法。在欺诈案例有一定积累时,可选用逻辑回归算法。在数 据收集比较完整时,可选用支持向量机算法。在数据收集不完整,频有缺失场景下,可选用 随机森林算法。在案例非常充足的情况下,可用融入神经元网络算法的集成算法。
本文发布于:2023-04-14 13:01:28,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/4/86493.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |