G06K9/62 G06N3/04
1.一种Web Service用户端虚假申请识别方法,其特征在于:包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请记录 作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记录生 成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;具体包括:S31设定损失函数, 其公式如下:
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率 分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录 生成模型模拟的训练数据集概率分布,z为随机向量;
S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训 练样本中随机选取,50个负样本通过申请记录生成模型生成;
S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个正样 本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取的特 征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
2.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S32中 则50个负样本生成过程如下:生成50个随机向量;将50个随机向量作为申请记录生成模型 的输入,得到50个伪造数据,并标定为虚假申请识别模型的负样本。
3.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S33中 则100个正样本生成过程如下:生成100个随机向量;将100个随机向量作为申请记录生成模 型的输入,得到100个伪造数据,并标定为申请记录生成模型的正样本。
4.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S34中 虚假申请识别模型和申请记录生成模型的训练,其具体步骤如下:
S341虚假申请识别模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)};
选取m个训练样本,概率分布为p data(x),标记为{x(1),...,x(m)};
根据随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
▽表示梯度,θ表示网 络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)},根据随机梯度下 降法,更新申请记录生成模型,其计算随机梯度公式如下:
▽表示梯度,θ表示网络参数,θg表示申请记 录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为训练 申请的概率趋于0.5时,训练完成。
5.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S4中, 训练虚假申请分类器的方法:提取虚假申请识别模型中间层的特征,得到训练样本,构建分 类器,利用训练样本对分类器进行训练,得到虚假申请分类器。
6.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S5具 体包括:采集用户端的申请记录,输入虚假申请分类器,分类器经过判断后,若为虚假申请, 进行标记。
本发明涉及大数据分析挖掘技术领域,尤其是一种Web Service用户端虚假申请 识别方法。
随着互联网的普及,各种网络服务日益成为人们日常生活的一部分,如电子商务、 免费的服务、免费的资源下载等等。Web Service是为企业需求提供的在线应用服 务,其他公司或应用软件能够通过Internet来访问并使用这项在线服务。
由于现有Web Service服务被大量的访问,Web Service用户端产生了大量的申 请,其中大部分属于真实申请,但同样存在虚假申请;虚假申请会占用服务资源,产生大量 的网络垃圾,影响合法用户的网络体验,对网络服务的安全性造成极大威胁;而现有的虚假 申请识别需要标注很多的数据,识别效率低。
本发明的发明目的在于:针对上述存在的问题,提供一种Web Service用户端虚假 申请识别方法,利用生成对抗网络训练申请记录生成模型和虚假申请识别模型,当模型收 敛后,得到优化后的虚假申请识别模型,将训练好的虚假申请识别模型的中间层作为新训 练的虚假申请分类器的特征,根据虚假申请分类器识别虚假申请。
本发明采用的技术方案如下:
本发明一种Web Service用户端虚假申请识别方法,包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请 记录作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记 录生成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;具体包括:S31设定损失 函数,其公式如下:
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录生成模型模拟的训练数据集概率分布,z为随机向量;S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训练样本中随机选取,50个负样本通过申请记录生成模型生成;S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个正样本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取 的特征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
进一步,所述S32中则50个负样本生成过程如下:生成50个随机向量;将50个随机 向量作为申请记录生成模型的输入,得到50个伪造数据,并标定为虚假申请识别模型的负 样本。
进一步,所述S33中则100个正样本生成过程如下:生成100个随机向量;将100个随 机向量作为申请记录生成模型的输入,得到100个伪造数据,并标定为申请记录生成模型的 正样本。
进一步,所述S34中虚假申请识别模型和申请记录生成模型的训练,其具体步骤如 下:
S341虚假申请识别模型进行训练,选取m个噪声样本,先验概率分布为pg(z),标记 为{z(1),...,z(m)};选取m个训练样本,概率分布为pdata(x),标记为{x(1),...,x(m)};根据 随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
表示梯度,θ表示网络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,选取m个噪声样本,先验概率分布为pg(z),标记 为{z(1),...,z(m)},根据随机梯度下降法,更新申请记录生成模型,其计算随机梯度公式 如下:
表示梯度,θ表示网络参数,θg表示申请记录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为 训练申请的概率趋于0.5时,训练完成。
以上方法,通过生成对抗网络,构建虚假申请识别模型和申请记录生成模型,并进 行对抗训练,得到优化的虚假申请识别模型,优化的虚假申请识别模型中集成了真实申请 和虚假申请的大量特征,这些特征全面反映了真实申请和虚假申请的区别;基于这些特征 能够检测出大多数的虚假申请。
进一步,所述S4中,训练虚假申请分类器的方法:提取虚假申请识别模型中间层的 特征,得到训练样本,构建分类器,利用训练样本对分类器进行训练,得到虚假申请分类器。
以上方法,将虚假申请识别模型中间层提取出来,中间层中包含了真实申请和虚 假申请的区别特征,基于区别特征构建的分类器,能够更加精准的对申请进行判别,检测出 虚假申请。
进一步,所述S5具体包括:采集用户端的申请记录,输入虚假申请分类器,分类器 经过判断后,若为虚假申请,进行标记。
综上所述,由于采用了上述技术方案,本发明的有益效果是:与现有技术相比,本 发明在虚假申请识别中,基于生成式对抗网络进行训练,生成最优的虚假申请识别模型,并 将虚假申请识别模型的中间层作为特征,训练虚假申请分类器,进行虚假申请分类识别;在 训练中,对标注数据需求量少,但能够达到很高的虚假申请识别精度;并且优化的虚假申请 识别模型能够识别历史记录中很少出现的情况。
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种Web Service用户端虚假申请识别的方法的流程图。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥 的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可 被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列 等效或类似特征中的一个例子而已。
如图1,本发明一种Web Service用户端虚假申请识别方法,包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请 记录作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记 录生成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取 的特征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
申请记录生成模型和虚假申请识别模型进行训练的方法包括:
S31设定损失函数,其公式如下:
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录生成模型模拟的训练数据集概率分布,z为随机向量;S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训练样本中随机选取,50个负样本通过申请记录生成模型生成;S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个正样本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练。
所述S32中则50个负样本生成过程如下:生成50个随机向量;将50个随机向量作为 申请记录生成模型的输入,得到50个伪造数据,并标定为虚假申请识别模型的负样本。
所述S33中则100个正样本生成过程如下:生成100个随机向量;将100个随机向量 作为申请记录生成模型的输入,得到100个伪造数据,并标定为申请记录生成模型的正样 本。
所述S34中虚假申请识别模型和申请记录生成模型的训练,其具体步骤如下:S341 虚假申请识别模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)};
选取m个训练样本,概率分布为pdata(x),标记为{x(1),...,x(m)};
根据随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
表示梯度,θ表示网络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)},根据随机梯 度下降法,更新申请记录生成模型,其计算随机梯度公式如下:
表示梯度,θ表示网络参数,θg表示申请记录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为 训练申请的概率趋于0.5时,训练完成。
在训练虚假申请分类器中,提取虚假申请识别模型中间层的特征,得到训练样本, 构建分类器,其中分类器为一般的线性分类器或其他通用的分类器;利用训练样本对分类 器进行训练,得到虚假申请分类器。
根据训练好的虚假申请分类器对用户端发送的申请进行识别,若识别为虚假申 请,禁止访问,若识别为真实申请,开启服务。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的 新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
本文发布于:2023-04-12 20:24:44,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/85567.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |