G06F16/9535 G06N3/02 G06N3/08 G06Q10/06 G06Q40/04 G06Q50/18
1.一种基于属性异构网络表示学习的专利交易推荐方法,其特征在于,包括以下步骤:(1)属性体系构建:基于IncoPat专利数据库采集专利数据,基于文献研究构建影响专利交易的属性指标体系;(2)专利交易属性异构网络(Attribute Heterogeneous Network,AHN)构建:构建包括三类节点、三类关系及多个属性的专利交易AHN;(3)专利交易AHN的表示学习:包括基于神经网络获得节点的多维高斯分布、基于元路径随机游走生成节点序列、基于skip-gram并利用KL散度度量不同节点高斯分布间的差异,获得每个节点的低维向量空间;(4)目标组织的Top-k推荐:基于余弦相似度计算节点间相似度进行目标组织的Top-k推荐。
2.根据权利要求1所述的一种基于属性异构网络表示学习的专利交易推荐方法,其特征在于,包括以下步骤:
在步骤S101中,构建影响专利交易的属性体系,并基于专利数据库获取专利和组织信息;
基于文献梳理构建影响专利交易的专利及组织属性指标体系,如表1;
表1属性指标体系
专利竞争力计算过程为:专利P的申请人集合为PA,申请人数量为|PA|,IPC集合为PI;专利P的申请人集合拥有的所有专利的IPC集合记为SIPC,数量为|SIPC|;构建申请人-IPC向量其中,IPCj表示SIPC中第j个IPC,j=1,2,…,|SIPC|,表示申请人ai拥有的所有专利中IPCj的出现次数,则专利P的竞争力为申请人集合及IPC集合组合的数量平均,公式如下:
此外,新颖性的计算方法通过专利摘要相似度表征,公式如下:
pm表示数据库中申请时间在专利P之前,与专利P相似度大于等于相似水平α的专利数量,α=0.2;
初始数据获取过程为:基于专利数据库检索有效发明授权专利,通过转让专利的申请人地址、受让人地址、当前专利权人地址进行模糊匹配检索;
数据处理过程如下:
(1)针对一条转让记录中存在多个转让或受让组织的记录,按照将O1→O2O3结构拆分为O1→O2和O1→O3;将O1O2→O3结构拆分为O1→O3和O2→O3的规则拆分,其中:O1,O2,O3代表专利转受让组织,→代表转让方向,数据拆分后提取组织列表,删除转、受让方为个人的记录;
(2)删除转让方和受让方均不在地址限制条件的转让记录;
(3)得到未转让专利项的数目;
(4)针对上述数据集,标注分类标签,发生转让标注为1,未发生转让标注为0;并计算属性指标,对连续型指标利用公式进行归一化处理;利用One-Hot对组织类型属性和组织区域属性进行编码,对组织属性进行向量表示;利用TF-IDF将专利文本属性表示为向量,并结合其他专利属性信息编码向量构成属性矩阵;
在步骤S102中,构建专利交易AHN,给出如下定义:
定义1属性异构网络,AHN,给定AHN,G={V,E,A},其中V表示节点集合,|V|为节点数量,E是网络中边的集合,A是节点的属性矩阵;E仅存在于节点之间,即表示节点vi的属性向量,
专利交易AHN中,节点集合表示为V={v1,v2,…,vO,vO+1,…,vP,vP+1,…,vT},映射为节点类型集合为VType={O,P,T},O表示组织、P表示专利、T表示IPC;|O|表示组织节点的数量;E={E1,E2,E3}为关系类型集合,E1表示组织转出专利、E2表示组织转入专利、E3表示专利与IPC的隶属关系;Ao表示组织属性集合、Ap表示专利属性集合,分别表示表1中列出的组织属性和专利属性;假设Ao={Ao1,Ao2},Ap={Ap1,Ap2},对于每个节点vi∈V,其属性向量表示为则属性矩阵表示为
定义2元路径是网络模式TG={V,E}上的路径,定义为:在不同类型节点之间的一系列关系序列组成的路径;表示O到T之间的复合关系
定义3AHN表示学习,给定AHN,G={V,E,A},A∈Rm×n为属性矩阵,其中m为节点数,m=|V|,n为属性数,目标是学习映射函数f:V→Rd,将G中每个节点映射为d维向量,d取值200;
在步骤S103中,专利交易AHN的表示学习过程包括:基于神经网络得到节点的多维高斯分布;基于元路径随机游走遍历AHN生成节点序列;基于skip-gram并利用KL散度衡量不同节点高斯分布间的差异,从而获得每个节点的低维向量空间;具体如下:
(1)首先,将专利属性矩阵输入神经网络,通过第一层神经网络处理节点属性并输出中间隐藏表示;然后,经过第二层神经网络输出得到节点的均值和协方差矩阵;公式如下:
其中,是节点vi的属性向量,为第一层输出的中间隐藏表示,W和b分别为该层的权重矩阵与偏置向量,和分别表示输出得到的节点vi的均值和协方差矩阵,Wμ和bμ分别表示均值的权重矩阵和偏执向量,W∑和bΣ分别为协方差矩阵的权重矩阵与偏置向量,relu和elu是两个激活函数;
(2)采用为元路径进行随机游走,其含义为某组织转出的专利与另一组织转入的专利同属一个技术领域时,组织间更易发生交易;给定专利交易AHN和元路径,在随机游走的第k+1步的转移概率为:
公式含义为第k步游走到节点vi,且已知预定义的元路径path;首先获取节点vi的类型,如果节点vi是P类型,那么根据上述元路径中不同类型节点间的关系路径,vi的邻居节点的类型应为O类型或T类型,同理,如果节点vi是O类型,那么其邻居节点的类型应为P类型;则第k+1步游走到节点vj需要满足两个条件:节点vi、vj之间存在连接,即(vi,vj)∈E,且节点vj的类型为节点vi的邻居节点类型t类型,即φ(vj)=t,t为vi在元路径中所有邻居节点对应的类型;此时第k+1步游走到节点vj的概率为:Nt(vi)表示节点vi的邻居中类型为t的邻居节点集;当节点vi、vj之间存在连接,即(vi,vj)∈E,但vj不属于vi的邻居节点类型t类型,即φ(vj)≠t,转移概率为0;当节点vi、vj之间不存在连接,即其转移概率也为0;
每个节点随机游走50次,行走长度为10步,且随机游走次数和步长的数值能够保证覆盖网络中的每个节点;最终得到节点序列,
(3)采用skip-gram模型对专利交易AHN网络进行训练,skip-gram是主流的神经网络语言模型,核心思想是使用当前单词预测其周围的单词,在网络中,即使用当前节点预测其周围邻居节点,节点看作单词,节点序列相当于句子;具体步骤如下:
skip-gram模型基于中心节点嵌入最大化观察邻域节点的概率,目标函数即
其中,VType表示节点的类型集合,Nt(vi)表示节点vi的类型为t的邻居节点集,是一个映射函数,将节点映射成向量,含义为在随机游走中,当给定一个节点vi时,在它的窗口范围内出现t类型节点的概率;基于条件独立性假设,将上式中的条件概率近似如下:
其中,vj∈Nt(vi)表示节点vj属于节点vi的t类型邻居;
采用Softmax函数针对节点vj的节点类型进行规范化;给定vi后,邻居vj出现的概率为:
其中,函数exp(x)表示自然对数e的x次方,和分别表示中心节点和其邻居的嵌入,表示网络中任意节点的嵌入,即是二者的点积,KL散度又被称为相对熵(relative entropy)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量;公式如下:
其中,和分别表示两个节点的多维高斯分布,表示两个分布的KL散度,和分别表示两个分布的均值,和分别表示两个协方差矩阵的行列式,R表示向量,l表示嵌入的维度,和tr(·)分别表示协方差矩阵的逆和迹;通过这种方式,公式(7)重新写为:
利用sigmoid函数归一化;损失函数如式(10):
其中,σ是sigmoid函数,即表示为节点vj的嵌入,节点vj属于节点vi的t类型邻居,即vj∈Nt(vi);负样本表示不包含在Nt(vi)中的节点,表示负样本节点vk的嵌入,vk的节点类型和vj相同;Pneg(v)表示中心节点的噪声分布,在E限制的情况下服从具有指定均值和偏差的正态分布,初始的均值和偏差是随机生成的,负样本节点vk是从分布中取得的向量,即vk~Pneg(v),K为从Pneg(v)中收集的负样本总数量;具体而言,首先初始化节点向量,分别对正负样本中的每一个节点初始化一个低维向量作为该节点的向量表示,然后利用梯度下降法最小化损失函数,其本质为最大化不断更新节点的向量,直到收敛或训练阶段结束;首先,在5-100之间,随机设定skip-gram模型中的epoch参数值大小,若训练次数小于epoch参数值,且损失函数已经收敛,则提前结束训练,否则直到达到训练次数,即epoch参数值时结束训练;
在步骤S104中,基于余弦相似度计算节点相似度,对相似度值进行Top-k排序,得到Top-k个专利作为目标组织的推荐结果;
通过表示学习训练完成后提取出组织及专利的表示向量,采用余弦相似度衡量两个节点间相似程度,如果两个向量的余弦相似度越大,那么它们越相似;计算组织oi和专利pj间余弦相似度如式(11):
其中l为向量长度,分别代表组织oi和专利pj的向量,对计算出的余弦值进行降序排列,得到Top-k专利交易推荐结果。
本发明可应用于专利交易推荐领域,包括为组织推荐专利和交易 伙伴。
专利交易是专利价值实现的重要途径,在支持企业专利运营战略、 提升企业创新能力、促进产业高质量发展等方面起着重要作用。随着 全球知识产权的激烈竞争,授权专利的数量不断增加,但专利交易率 低的问题不容忽视。专利交易推荐是融合用户属性以及用户搜索、交 易等行为信息,挖掘用户偏好,并在海量技术供给中快速匹配出符合 偏好的专利或交易伙伴的复杂过程,是基于多源异构信息融合以促进 专利交易的重要手段。基于海量的专利以及交易数据,开展智能化专 利交易推荐,对促进专利成果转化应用具有重要价值。
(1)专利交易推荐方法
现有专利交易推荐方法主要包括两类:第一类是基于同构信息 网络链路预测的交易推荐,该类方法首先基于组织间历史交易数据, 构建组织间专利交易网络。然后针对未连接的组织对进行链路预测, 即:通过已知的网络节点以及结构等信息预测网络中尚未产生连边的 两个节点之间产生链接的可能性,实现为组织推荐交易伙伴的目的。 该类方法难以融合专利、组织等多类型对象及对象间多维关系信息, 推荐结果的可解释性和精确度有待提高。
第二类是基于异构信息网络(Heterogeneous Information Network,HIN)进行交易推荐,该类方法首先融合多类型对象以及 对象间的多维关系,其中包括专利之间的语义相似关系、对象间的历 史合作关系等,构建异构信息网络。然后人工规划元路径,并通过元路径遍历、嵌入表示以及相似度计算,进行专利交易推荐。该类方法 能显著提高推荐精度,但常常忽略组织、专利等多类型对象的属性信 息,或者是将对象的部分属性看作是新的节点类型,使得异构网络拓 扑的复杂性大大增加。基于此,如何在异构信息网络中直接融合多类 型对象的属性信息,构建属性异构信息网络,并开展专利交易推荐, 需要提出新的解决方法。
(2)属性异构信息网络表示学习方法
基于属性异构信息网络(Attributed Heterogeneous Network, AHN)进行专利交易推荐的一个关键技术难点在于如何进行网络表 示学习,将网络中的多类型节点用一个低维稠密的向量空间表示,并 能够保持原有网络的结构关系特征。
目前,基于HIN表示学习的研究成果较为丰富,有关AHN表 示学习的成果较少,具体有:基于矩阵分解的AHN融合模型,通过 构造基因-疾病属性异构网络,并将网络的多个邻接矩阵和属性矩阵 分解为低秩矩阵,以进行疾病关联预测;利用AHN对论坛用户 及关系进行建模,并使用Player2Vec方法高效学习AHN的节点表示, 以识别论坛关键参与者;Vendor2Vec方法,基于元路径的随机游走并 结合深度神经网络(DNN)学习AHN的节点表示。
上述研究将AHN中的节点表示为低维连续空间中的点向量, 但由于节点属性复杂多样,这些属性可能相互冲突甚至相互矛盾,使 得节点表示具有不确定性。例如:在专利交易AHN中,组织O分别 在技术领域T1和T2转让专利P1和P2,当T1、T2属于不同的技术 领域或P1、P2具有不同的属性时,将它们分别引入组织O的表示时 会产生不同的效果。通过将每个节点嵌入为高斯分布(Gaussian distribution),为本发明解决专利交易AHN中节点表示不确定性问题 提供了思路,即每个节点在低维潜在空间中由一个高斯分布表示,其 中,高斯分布中的均值反映节点的位置,方差反映节点的不确定性。 此外,专利交易AHN中不同类型节点间的距离还存在非对称性问 题,例如,当提到某组织时,它涉及的技术领域自然会被提及,但当 提到某技术领域时,会想到该领域的领先企业,而非该组织,即组织 与技术领域的距离不等于技术领域与组织之间的距离。已有研究多采 用点积、余弦距离或欧氏距离等方法衡量节点间距离,但难以准确衡 量具有非对称性的节点间距离。采用KL散度(Kullback-Leibler divergence)衡量不同高斯分布间的差异,可以解决节点间非对称性问题。
综上,专利交易推荐方法面临的主要问题包括:如何在异构信 息网络中融合属性信息,而不增加拓扑结构复杂性;如何实现属性异 构信息网络的表示学习,以解决节点嵌入不确定性问题和不同类型节 点之间的非对称问题;如何在解决上述问题的基础上提升推荐结果的 精度。
1、本发明需要且能够解决的技术问题。
本发明提出的基于属性异构信息网络表示学习的专利交易推荐 方法,在一定程度上能解决如下问题:第一,在异构信息网络中融合 属性信息,并开展交易推荐,提升推荐结果的准确性;第二,不将属 性转化为节点并映射新的关系,可以降低网络拓扑结构的复杂性;第 三,利用多维高斯分布对网络中节点进行表示学习以解决节点嵌入中 的不确定性问题,利用KL散度测度不同类型节点间的距离,以解决 不同类型节点之间距离的非对称性问题。
2、本发明具体的技术方案:
为达到上述目的,本发明提出了一种基于属性异构信息网络表示 学习的专利交易推荐方法,主要包括以下步骤:(1)属性体系构建: 基于IncoPat专利数据库采集专利数据,基于文献研究构建影响专利 交易的属性指标体系;(2)专利交易AHN构建:构建包括三类节点、 三类关系及多个属性的专利交易AHN;(3)专利交易AHN的表示 学习:包括基于神经网络获得节点的多维高斯分布、基于元路径随机 游走生成节点序列、基于skip-gram并利用KL散度度量不同节点高 斯分布间的差异,获得每个节点的低维向量空间;(4)目标组织的 Top-k推荐:基于余弦相似度计算节点间相似度进行目标组织的Top-k 推荐。
本发明实施的基于属性异构信息网络表示学习的专利交易推荐 方法,考虑多类型节点的属性,丰富了组织、专利的向量表示,提高 推荐结果的可解释性;利用多维高斯分布及KL散度解决嵌入中的不 确定性问题及不同类型节点间距离的不对称性问题,能够实现专利交 易的精准推荐。
3、本发明所能达到的效果:
第一,本发明基于文献梳理,将组织及专利属性融入专利交易 AHN中,与传统方法metapath2vec、TADW相比,推荐精度大幅提 高,说明组织及专利属性对交易具有重要影响,弥补了传统基于HIN 的专利交易推荐中属性融合不足、计算复杂度高及计算精度低等局限。
第二,通过准确率指标评价发现,本发明的5个准确性指标值均 在86%以上,且高于其他对比的4个方法。说明在专利交易AHN的 表示学习中,考虑属性嵌入的不确定性和节点距离的非对称性能提高 推荐精度。
第三,通过非准确率指标评价发现,本发明的推荐结果更具有多 样性,且在推荐小众冷门专利上具有优势。
图1为根据本发明实施例的基于属性异构信息网络表示学习的 专利交易推荐方法流程图;
图2为根据本发明实施例的构建专利交易属性异构信息网络模 式;
图3为本发明实施例的专利交易AHN表示学习示例图;
图4为根据本发明实施例的步骤S102中神经网络处理节点属性 的示意图。
下面参照附图描述根据本发明实施例提出的基于属性异构信息 网络表示学习的专利交易推荐方法。图1是本发明一个实施例的专利 交易推荐方法流程图,包括以下步骤:
在步骤S101中,基于专利数据库获取专利和组织信息,首先基 于IncoPat专利数据库检索2003-2019年某大湾区的有效发明授权专 利,由于IncoPat的专利转让记录中没有转让方和受让方的具体城市 信息,因此限制“转让或受让人所属区域为湾区城市”,通过转让专 利的申请人地址、受让人地址、当前专利权人地址进行模糊匹配检索。 获得初步信息为:转让专利48640项,未转让71272项。数据处理过 程如下:
(1)针对一条转让记录中存在多个转让或受让组织的记录,按 照将O1→O2O3结构拆分为O1→O2和O1→O3;将O1O2→O3结构拆分为O1→O3和O2→O3的规则拆分(其中:O1,O2,O3代表专利转受让组织,→代表转 让方向),数据拆分后提取组织列表,删除转、受让方为个人的记录。
(2)利用JavaScript连接百度地图API和谷歌地图API,进行组 织所属城市的模糊查询。在此基础上,删除转让方和受让方均不在湾 区城市的转让记录,最后,得到转让专利32304项。
(3)去掉当前专利权为个人的3553项,去掉字段缺失记录35061 项,得到未转让专利32658项。统计数据集共64962项(转让:32304 项,未转让:32658项)。
基于文献梳理构建影响专利交易的专利及组织属性指标体系,如 表1。
表1属性指标体系
其中,专利竞争力计算方法的核心思想是通过专利申请人刻画专利 竞争力,即涉足更多技术领域或在某一技术领域拥有更多专利的申请 人,其拥有的专利在交易市场中更具竞争力。计算过程为:专利P 的申请人集合为PA,申请人数量为|PA|,IPC集合为PI。专利P的申 请人集合拥有的所有专利的IPC集合记为SIPC,数量为|SIPC|。构建申 请人-IPC向量其中,IPCj表示SIPC中第j个 IPC,j=1,2,…,|SIPC|,表示申请人ai拥有的所有专利中IPCj的出现 次数。专利P的竞争力为其申请人集合及IPC集合组合的数量平均, 公式如下:
例如,专利P1的申请人集合为PA1={a1,a2},a1拥有专利P1、P2,a2拥有专利P1,P1的IPC集合为PI1={IPC1,IPC2},P2的IPC集合为 PI2={IPC1,IPC3},则专利P1的申请人集合拥有的所有专利的IPC集合 为SIPC={IPC1,IPC2,IPC3},则Fa1=[2,1,1],Fa2=[1,1,0],
此外,新颖性的计算方法通过专利摘要相似度表征,公式如下:
pm表示数据库中申请时间在专利P之前,与P相似度大于等于 相似水平α的专利数量,α=0.2。
针对上述数据集,计算属性指标,并标注分类标签,发生转让标 注为1,未发生转让标注为0;对连续型指标进行归一化。
在步骤S102中,构建专利交易AHN,给出如下定义:
定义1(属性异构网络,AHN),给定AHN,G={V,E,A},其中 V表示节点集合,|V|为节点数量,E是网络中边的集合,A是节点的 属性矩阵。E仅存在于节点之间,即表示节点vi的属性 向量,
本发明构建的专利交易AHN中,节点集合表示为 V={v1,v2,...,vO,vO+1,...,vP,vP+1,...,vT},映射为节点类型集合为 VType={O,P,T},O表示组织、P表示专利、T表示IPC。|O|表示组织节 点的数量。E={E1,E2,E3}为关系类型集合,E1表示组织转出专利、E2表 示组织转入专利、E3表示专利与IPC的隶属关系。Ao表示组织属性 集合、Ap表示专利属性集合,图2为专利交易AHN的网络模式。假 设Ao={Ao1,Ao2},Ap={Ap1,Ap2},对于每个节点vi∈V,其属性向量可 以表示为则属性矩阵可以表示为
定义2(元路径Meta path),是网络模式TG={V,E}上的路径,定 义为:在不同类型节点之间的一系列关系序列组成的路径。例如: 表示O到T之间的复合关系
定义3(AHN表示学习)给定AHN,G={V,E,A},A∈Rm×n为属 性矩阵,其中m为节点数,m=|V|,n为属性数,目标是学习映射函 数f:V→Rd,将G中每个节点映射为d维向量,且d< 图3为专利交易AHN表示学习的示例。图中左侧为专利交易 AHN,包括网络的拓扑结构以及节点的属性信息,右侧为该网络节 点在低维空间的表示。在拓扑结构上有直接连接即存在显式关系的节 点在低维空间中有相似表示,如节点对(P1,T1);节点对(P2,P3)不存在 显式关系,但它们均与节点O3相连,即存在隐式关系,因此它们在 低维空间接近;节点对(O2,O4)不直接相连,但因其属性相似故在低维 空间中接近。 在步骤S103中,专利交易AHN的表示学习过程包括:基于神 经网络得到节点的多维高斯分布;基于元路径随机游走遍历AHN生 成节点序列;基于skip-gram并利用KL散度衡量不同节点高斯分布 间的差异,从而获得每个节点的低维向量空间。具体如下: (1)首先,将专利属性矩阵输入神经网络,通过第一层神经网 络处理节点属性并输出中间隐藏表示;然后,经过第二层神经网络输 出得到节点的均值和协方差矩阵。公式如下: 其中,是节点vi的属性向量,为第一层输出的中间隐藏表示, W和b分别为该层的权重矩阵与偏置向量,和分别表示输出得 到的节点vi的均值和协方差矩阵,Wμ和bμ分别表示均值的权重矩阵和 偏执向量,W∑和b∑分别为协方差矩阵的权重矩阵与偏置向量,relu 和elu是两个激活函数。 (2)本发明采用为元路径进行随机游走,其含 义为某组织转出的专利与另一组织转入的专利同属一个技术领域时, 组织间更易发生交易。给定专利交易AHN和元路径,在随机游走的 第k+1步的转移概率为: 公式含义为已知第k步游走到节点vi,且已知预定义的元路径 path。首先获取节点vi的类型,如果节点vi是P类型,那么根据上述 元路径中不同类型节点间的关系路径,vi的邻居节点的类型应为O类 型或T类型,同理,如果节点vi是O类型,那么其邻居节点的类型应 为P类型。那么第k+1步游走到节点vj需要满足两个条件:节点vi、 vj之间存在连接,即(vi,vj)∈E,且节点vj的类型为节点vi的邻居节点 类型t类型,即φ(vj)=t,t为vi在元路径中所有邻居节点对应的类型。 此时第k+1步游走到节点vj的概率为:Nt(vi)表示节点vi的邻 居中类型为t的邻居节点集。当节点vi、vj之间存在连接,即(vi,vj)∈E, 但vj不属于节点vi的邻居节点类型t类型,即φ(vj)≠t,转移概率为0。 当节点vi、vj之间不存在连接,即其转移概率也为0。 本发明实施例中,每个节点随机游走50次,行走长度为10步, 最终得到节点序列(本发明取得随机游走次数和步长的数值能够保证 覆盖网络中的每个节点,如果网络规模变化,取值也应该有所改变)。 (3)采用skip-gram模型对专利交易AHN网络进行训练, skip-gram是主流的神经网络语言模型,核心思想是使用当前单词预 测其周围的单词,在网络中,即使用当前节点预测其周围邻居节点, 节点看作单词,节点序列相当于句子。具体步骤如下: skip-gram模型基于中心节点嵌入最大化观察邻域节点的概率, 目标函数即 其中,VType表示节点的类型集合,Nt(vi)表示节点vi的邻居中类型 为t的邻居节点集,是一个映射函数,将节点映射成向量,含义为在随机游走中,当给定一个节点vi时,在它的窗 口范围内出现t类型节点的概率。基于条件独立性假设,将上式中的 条件概率近似如下: 其中,vj∈Nt(vi)表示节点vj属于节点vi的t类型邻居。 采用Softmax函数针对节点vj的节点类型进行规范化。给定vi后, 邻居vj出现的概率为: 其中,函数exp(x)表示自然对数e的x次方,和分别表示中 心节点和其邻居的嵌入,表示网络中任意节点的嵌入,即是二者的点积,可以看作它们之间的相 似性度量。然而,点积只考虑均值而不考虑协方差的合并。考虑到不 同类型节点之间的“距离”可能不对称,因此,使用Kullback-Leibler (KL)散度将协方差矩阵合并到模型中。KL散度又被称为相对熵 (relative entropy)或信息散度(information divergence),是两个概率 分布(probability distribution)间差异的非对称性度量。公式如下: 其中,和分别表示两个节点的多维高斯分布,表 示两个分布的KL散度,值越小,表明两个分布越相似。和分 别表示两个分布的均值,和分别表示两个协方差矩阵的行列 式,R表示向量,l表示嵌入的维度,和tr(·)分别表示 协方差矩阵的逆和迹。通过这种方式,公式(7)可以重新写为: 但上述方法由于存在求和项,效率较低。为提高计算速度,利用 负采样重新定义损失函数,和词嵌入类似,在对每一个中心节点的训 练中,不需要对所有节点进行Softmax计算,而是通过对节点进行随 机采样,因此,每次训练的时候,在选择一个正样本的同时,随机生 成K个负样本,共训练K+1个样本。相对于Hierarchical softmax模 型来说,可以大幅提高性能。优化目标变化后,不宜再使用Softmax, 因此利用sigmoid函数归一化。损失函数计算如式(10): 其中,σ是sigmoid函数,即表示为节点vj的 嵌入,节点vj属于节点vi的t类型邻居,即vj∈Nt(vi)。负样本表示不 包含在Nt(vi)中的节点,表示负样本节点vk的嵌入,vk的类型和vj相 同。Pneg(v)表示中心节点的噪声分布,在E限制的情况下服从具有 指定均值和偏差的正态分布,初始的均值和偏差随机生成,负样本节 点vk是从分布中取得的向量,即vk~Pneg(v),K为从Pneg(v)中收集的负 样本总数量。具体而言,首先初始化节点向量,分别对正负样本中的 每一个节点初始化一个低维向量作为该节点的向量表示,然后利用梯 度下降法最小化损失函数,其本质为最大化不断更新节点的向量,直到收敛或训练阶段结束。首先,在5-100之 间,随机设定skip-gram模型中的epoch参数值大小,若训练次数小 于epoch值,且损失函数已经达到收敛条件,则提前结束训练,否则 直到达到训练次数,即epoch参数值时结束训练。 在步骤S104中,基于余弦相似度计算节点相似度,对相似度值 进行Top-k排序,得到Top-k个专利作为目标组织的推荐结果。 通过表示学习训练完成后提取出组织及专利的表示向量,如华为 技术有限公司:[-0.2869007,-0.45726693,0.08010134,0.96499217, 0.65272784,…],专利CN101813636B:[0.6562854,0.77058595, 0.910496,0.02038962,…]。每个向量长度为200,采用余弦相似度 衡量两个节点间相似程度,如果两个向量的余弦相似度越大,那么它们越相似。计算组织oi和专利pj间余弦相似度如式(11): 其中l为向量长度,分别代表组织oi和专利pj的向量, 对计算出的余弦值进行降序排列,得到Top-k专利交易推荐结果。 本发明采用7个指标来评价推荐算法的性能,包括五个准确率指 标(Accuracy、Precision、Recall、F1和AUC)和两个非准确率指标 (IntraSim和Popularity)。 (1)Accuracy:对于给定的测试集,推荐模型正确推荐的样本 数与全部样本数之比: (2)Precision:表示发生过的交易记录占推荐结果的比例: (3)Recall:表示被推荐出的交易记录占实际交易的比例: (4)F1:Precision和Recall的调和平均值: 其中,NR表示正确推荐的数目,NS表示全部样本数,NRtran表示 交易的专利中被正确推荐的数目,NMtran表示推荐可能发生交易的数 目,NAtran表示实际发生过交易的数目。 (5)AUC:使用ROC曲线下面积(Area Under ROC Curve,AUC) 来评测推荐系统性能。具体计算时为降低计算复杂度,采用公式如下: 组织和专利存在交易关系的作为正样本集合,其余为负样本集合。 其中,POS表示正样本集合,rankpos表示正样本pos在正样本集合中 的排序值,∑pos∈POSrankpos为所有正样本的rank值之和,np表示正样 本数量,nn负样本数量。AUC值越接近1,说明效果越好。 (6)IntraSim:该指标源于电商中用户-商品推荐,衡量推荐结 果的多样性,本发明将其引入专利交易推荐中。对于组织o∈O的专利 推荐列表,如果专利间相似度越大,说明推荐给组织的专利比较单一, 推荐算法难以推荐新的专利;反之,如果该值越小,则表明推荐的专 利越丰富,推荐多样性越高: 其中,O表示所有组织集合,|O|表示所有组织数量,表示组织 oi的前c个专利推荐结果集合,pi、pj表示两个专利,其余弦相似度 为(计算公式参照式(11))。 (7)Popularity:该指标也源于用户-商品推荐,旨在衡量推荐算 法产生新颖(不太流行)和意外结果的能力。本发明将其引入专利交 易推荐评价中,用来评价推荐结果的热门程度。若其值越高,说明推 荐算法倾向于推荐交易“热度”较高的专利,属于热门推荐;反之, 则越倾向于为组织推荐“热度”较低但又符合组织偏好的小众或冷门 专利。 其中,O表示所有组织集合,|O|表示所有组织数量,表示组织 oi的前c个专利推荐结果集合,表示专利pi的交易次数,代表该专 利的热度。 本发明选取不同的基线方法进行性能对比:①metapath2vec:仅 利用网络结构信息,基于元路径随机游走得到节点序列,不考虑属性; ②TADW:基于AHN矩阵分解的表示学习方法;③AHNvec-PTR: 为本发明的变体方法,将网络节点表示为点向量而非潜在空间的高斯 分布;④AHNsy-PTR:为本发明的变体方法,采用对称的内积衡量 节点距离而非KL散度。对比结果如表2。 表2推荐方法对比 表2中,通过准确率指标评价发现,本发明AHNRL-PTR的5个准 确性指标值均在86%以上,且4个指标均高于其他4个方法。另外 AHNRL-PTR的IntraSim和Popularity指标值小于metapath2vec、 AHNvec-PTR和AHNsy-PTR方法,说明该发明的推荐结果更具有多 样性且在推荐小众冷门专利上具有优势。同时,也说明在专利交易 AHN的表示学习中,考虑属性嵌入的不确定性和节点距离的非对称 性能提高推荐精度。基于该模型,计算非准确性指标如下表所示。 表3本发明性能(非准确率指标) 表3中,通过改变推荐列表长度发现,IntraSim指标值在2左右, 说明推荐给组织的专利比较丰富,但随着推荐列表长度增加,出现小 幅增长趋势,说明推荐的专利越多,多样性下降。随着推荐列表长度 增加,Popularity指标值大幅降低,表明推荐专利越多,本发明越倾 向于推荐不太活跃的专利或冷门专利,可见本发明在挖掘用户潜在专 利技术交易兴趣方面具有优势。
本文发布于:2023-03-13 00:32:15,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68616.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |