G06F16/36 G06N3/04 G06N3/08 G06Q10/04 G06Q50/18
1.一种专利空白预测方法,其特征在于,包括:
获取预设时间段内的历史专利,生成历史文本文件;
提取所述历史文本文件中的实体和各实体之间的关系;将所述实体作为节点,将所述关系作为边,构建专利知识图谱;
在所述专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;
根据所述新的专利知识图谱,获取目标预测专利。
2.根据权利要求1所述的专利空白预测方法,其特征在于,所述获取预设时间段内的历史专利,生成历史文本文件,包括:
根据专利分类号,选择预设时间段内关于至少一个目标领域的所有专利公开文本作为历史专利;
提取每个所述历史专利的标题和摘要部分内容,合并生成所述历史文本文件。
4.根据权利要求2所述的专利空白预测方法,其特征在于,所述将所述实体作为节点,将所述关系作为边,构建专利知识图谱,包括:
按照所述专利公开文本的申请年份,获取到各个年份内的历史文本文件;
获取各个年份内的所述历史文本文件所对应的实体和各实体之间的关系;
逐年分的将所述历史文本文件所对应的实体和各实体之间的关系添加至上一年分所构建的专利知识图谱中,完成所述专利知识图谱的创建。
3.根据权利要求1所述的专利空白预测方法,其特征在于,所述实体包括领域实体和命名实体,所述各实体之间的关系包括共现关系和具体关联关系;所述提取所述历史文本文件中的实体和各实体之间的关系,包括:
采用领域词典比照方法,获取所述历史文本文件中的所述领域实体;
基于深度学习方法,获取所述历史文本文件中的所述命名实体;
获取同一实体被多次设置为节点时的所述共现关系;
利用基于机器学习的关系抽取方法,获取所述历史文本文件中各实体之间的所述具体关联关系。
5.根据权利要求1所述的专利空白预测方法,其特征在于,所述在所述专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱,包括:
利用公共邻居法、TransE预测模型、图神经网络预测模型或上下文增强图神经网络预测模型中的任一方法,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱。
6.根据权利要求5所述的专利空白预测方法,其特征在于,利用上下文增强图神经网络预测模型,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱,包括:
采用图结构编码器根据每个所述实体在所述专利知识图谱中的位置以及与其它实体之间的关系,以获取每个所述实体在所述专利知识图谱中的向量表示;
采用上下文编码器,利用通用语义表示模型对所述历史文本文件中的每个句子进行编码,以获取每个所述实体在所述历史文本文件中的向量表示;
通过一个门机制将每个实体在所述专利知识图谱中的向量表示以及在所述历史文本文件中的向量表示进行组合,构成与每个所述实体相对应的综合向量;
利用TransE预测模型,根据每个所述实体相对应的综合向量,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱。
7.根据权利要求6所述的专利空白预测方法,其特征在于,所述利用TransE预测模型,根据每个所述实体相对应的综合向量,获取未连边的两个节点间所存在的潜在边,包括:
根据任意两个实体的综合向量,创建用于表征两个所述实体关系的三元组(h,r,t);
获取所述TransE预测模型的损失函数L:
利用所述损失函数L每个所述三元组进行运算,获取每个所述三元组所对应的评分值;
在所述评分值大于预设阈值的三元组所对应的两个节点间创建所述潜在边;
其中,h、t分别为知识图谱中三元组头实体和尾实体的向量表示,r为头实体和尾实体之间的关系;K为知识图谱中的所有正三元组集合;(h,r,t)为正三元组;K'为负三元组集合,(h',r,t')为K'中的一个通过用一个随机选择的不同实体替换掉正三元组中的头实体或者尾实体构成的负三元组;h'、t'分别为负三元组中的头实体和尾实体的向量表示;h+r≈t;γ是一个正的常数,是关于变量u、v的距离函数。
8.一种专利空白预测系统,其特征在于,包括:
数据预处理模块,用于获取预设时间段内的历史专利,生成历史文本文件;
专利知识图谱构建模块,用于提取所述历史文本文件中的实体和各实体之间的关系;将所述实体作为节点,将所述关系作为边,构建专利知识图谱;
边预测模块,用于在所述专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;
专利预测模块,用于根据所述新的专利知识图谱,获取目标预测专利。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述专利空白预测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述专利空白预测方法的步骤。
本发明涉及计算机技术领域,尤其涉及一种专利空白预测方法及系统。
专利空白预测是指通过挖掘现有专利海量信息,预测尚未申请专利的技术空白点,对明确科技研究方向与申请新专利具有重大价值。专利是知识产权的一种,它赋予发明者在一定期限内享有对发明的独占排它性权利,以便其被广泛利用,从而促进科学技术的进步、产业的发展。专利是具有很高价值的知识和技术信息资源,拥有数量大、内容广、实用可靠等特点。因此,专利研究对科学研究和企业发展都具有重要的理论和现实意义。从国家层面来看,研究专利可以帮助完善专利法,制定和完善与专利相关的政策,同时明确技术薄弱点和空白点,为产业布局提供依据;从企业层面来看,研究专利可以帮助企业确定研发和购并的投资比例、进行人力资源管理、确认核心研发人员以达到最优的人员组合、及时掌握竞争对手的研发动态并避免侵权。
专利研究涉及多领域和多学科,在计算机科学领域,专利研究人员将目光投向了近年来比较热门的人工智能、机器学习、深度学习等研究方法,利用这些工具对海量的专利数据进行分析,以寻专利中隐藏的语义关系和模式,包括:1)专利聚类和自动分类是专利研究中一个常见的主题,利用计算机进行聚类和辅助分类,可以将主题、技术要点相近的专利划分到一组,加快专利分类的速度;2)基于统计和概率模型,分析和挖掘已有专利中隐含的信息;3)近年来神经网络方法被广泛地用于研究专利的质量和价值。
目前基于专利知识图谱与图神经网络进行专利空白预测的研究在专利研究方向上尚未发现相关记载。由于专利文档包含了丰富的实体和关系,这使得我们可以利用知识图谱技术构建专利知识图谱,从而借助知识图谱和图神经网络来挖掘专利数据中隐藏的丰富语义关系。Sarica等尝试利用自然语言处理方法,以专利数据库为数据源构建工程化的知识图谱,从而为专利检索提供便利。然而该研究并没有探索和利用知识图谱上的新技术(如预训练语言模型以及图神经网络等),并未深入挖掘潜在的隐藏在专利中的语义关系。许端阳等利用Freebase知识图谱和Mesh词表创建肺癌领域知识图谱,再以此图谱对专利文献赋予标签,最后基于标签之间的网络进行新兴技术预测。然而该研究并没有直接针对专利数据构建专利知识图谱来预测新兴技术,也没有利用共现关系在图谱上定义专利。
有鉴于此,亟需提供一种基于知识图谱的专利空白预测方法,以填补该领域技术上的空白。
本发明实施例提供一种专利空白预测方法及系统,用以解决现有技术在进行空白专利预测技术上的空白,以明确科技研究方向以及提高专利申请的目标方向。
第一方面,本发明实施例提供一种专利空白预测方法,主要包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。
可选地,上述获取预设时间段内的历史专利,生成历史文本文件,主要包括:根据专利分类号,选择预设时间段内关于至少一个目标领域的所有专利公开文本作为历史专利;提取每个历史专利的标题和摘要部分内容,合并生成历史文本文件。
可选地,上述实体主要包括领域实体和命名实体,各实体之间的关系主要包括共现关系和具体关联关系;提取历史文本文件中的实体和各实体之间的关系,主要包括:
采用领域词典比照方法,获取所述历史文本文件中的所述领域实体;基于深度学习方法,获取所述历史文本文件中的所述命名实体;获取同一实体被多次设置为节点时的共现关系;利用基于机器学习的关系抽取方法,获取历史文本文件中各实体之间的具体关联关系。
可选地,上述将实体作为节点,将所述关系作为边,构建专利知识图谱,主要包括:
按照专利公开文本的申请年份,获取到各个年份内的历史文本文件;获取各个年份内的历史文本文件所对应的实体和各实体之间的关系;逐年分的将历史文本文件所对应的实体和各实体之间的关系添加至上一年分所构建的专利知识图谱中,完成所述专利知识图谱的创建。
可选地,上述在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱,主要包括:利用公共邻居法、TransE预测模型、图神经网络预测模型或上下文增强图神经网络预测模型中的任一方法,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱。
可选地,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱,主要包括:采用图结构编码器根据每个实体在专利知识图谱中的位置以及与其它实体之间的关系,以获取每个实体在所述专利知识图谱中的向量表示;采用上下文编码器,利用通用语义表示模型对所述历史文本文件中的每个句子进行编码,以获取每个所述实体在所述历史文本文件中的向量表示;通过一个门机制将每个实体在所述专利知识图谱中的向量表示以及在历史文本文件中的向量表示进行组合,构成与每个实体相对应的综合向量;利用TransE预测模型,根据每个实体相对应的综合向量,获取未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱。
可选地,上述利用TransE预测模型,根据每个实体相对应的综合向量,获取未连边的两个节点间所存在的潜在边,主要包括:
根据任意两个实体的综合向量,创建用于表征两个实体关系的三元组(h,r,t);
获取TransE预测模型的损失函数L:
利用所述损失函数L每个三元组进行运算,获取每个三元组所对应的评分值;
在评分值大于预设阈值的三元组所对应的两个节点间创建潜在边;
其中,h、t分别为知识图谱中三元组头实体和尾实体的向量表示,r为头实体和尾实体之间的关系;K为知识图谱中的所有正三元组集合;(h,r,t)为正三元组;K'为负三元组集合,(h',r,t')为K'中的一个通过用一个随机选择的不同实体替换掉正三元组中的头实体或者尾实体构成的负三元组;h'、t'分别为负三元组中的头实体和尾实体的向量表示;h+r≈t;γ是一个正的常数,是关于变量u、v的距离函数。
第二方面,本发明实施例还提供一种专利空白预测系统,主要包括数据预处理模块、专利知识图谱构建模块、边预测模块以及专利预测模块,其中:数据预处理模块主要用于获取预设时间段内的历史专利,生成历史文本文件;专利知识图谱构建模块主要于提取历史文本文件中的实体和各实体之间的关系;将所述实体作为节点,将所述关系作为边,构建专利知识图谱。边预测模块主要用于在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;专利预测模块主要用于根据新的专利知识图谱,获取目标预测专利。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述专利空白预测方法的步骤。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述专利空白预测方法的步骤。
本发明实施例提供的专利空白预测方法及系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种专利空白预测方法的流程示意图;
图2是本发明实施例提供的另一种专利空白预测方法的流程示意图;
图3为本发明实施例提供的一种专利空白预测系统的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种专利空白预测方法的流程示意图,如图1所示,包括但不限于以下步骤:
步骤S1:获取预设时间段内的历史专利,生成历史文本文件;
步骤S2:提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;
步骤S3:在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;
步骤S4:根据新的专利知识图谱,获取目标预测专利。
知识图谱作为一种知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图神经网络(Graph Neural Networks,GNN)是一种可以直接在知识图谱上运行的神经网络模型。
本发明实施例提供一种专利空白预测方法,基于最新的自然语言处理方法和知识图谱技术,提出了一种基于知识图谱和图神经网络的专利空白预测方法,包括:
首先,下载并清洗历史专利,组建历史文本文件;再通过实体抽取和关系识别技术,根据历史文本文件构建随时间变化的专利知识图谱。
然后,为了在专利知识图谱上进行两个节点间的潜在边预测(即预测未连边的两个节点间所存在的潜在边),以挖掘两个节点是代表的实体间的隐含关系,从而实现专利预测,可以对专利知识图谱中的实体(节点)和实体间的关系(边)进行编码表示,从而构建关于历史文本文件相对应的专利知识图谱。
进一步地,可以利用共现关系在专利知识图谱上量化定义一篇专利,即在专利知识图谱中,将每篇专利表示为包含该专利所有实体和共现关系的全连通子图。
进一步地,可以根据公共邻居法、图神经网络方法或者上下文增强的图神经网络方法对现有的专利知识图谱进行边预测,以挖掘专利知识图谱中潜在的三元组,进而进行新专利预测。
最后,本发明实施例实现专利空白预测任务的方式即是将包含了新增预测边的全连通子图预测为新专利。
本发明实施例提供的专利空白预测方法,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
基于上述实施例的内容,作为一种可选实施例,上述获取预设时间段内的历史专利,生成历史文本文件,主要包括:根据专利分类号,选择预设时间段内关于至少一个目标领域的所有专利公开文本作为历史专利;提取每个历史专利的标题和摘要部分内容,合并生成历史文本文件。
由于专利数据库中的专利数目过多,且主题繁杂,在本发明实施例提供的专利空白预测方法中,可以有针对性的选择一个或者若干目标领域进行专利空白预测。例如:为了通过对电子通讯领域的专利的研究,以掌握当前5G研究前沿动态,梳理5G研究的技术热点和专利空白点,助力5G技术的发展,可以选择对USPTO电子通讯领域专利数据进行专利空白研究,其对应的是CPC分类系统中分类号以H04L开头的专利,具体领域定义为“以数字形式进行的信号传输,包括数据传输、电话通讯、或者控制的方法和安排”。
首先,从美国专利商标局的数据库网站PatentsView下载专利摘要、专利的CPC分类号等数据,再按照各自的唯一专利号将下载的表格数据进行对齐,然后根据专利申请年份和分类号,筛选出2010-2019年间申请的分类号中包含H04L的所有专利文档,并将每个文档的标题和摘要部分抽出、合并形成单独的文本文件,作为历史文本文件。
作为可选地,也可以选择提取每个所述历史专利的权利要求书部分的内容,或者提取历史专利的专利主题名称,对此本发明实施例不作具体地限定。
本发明实施例提供的专利空白预测方法,充分利用现有的专利库信息,并提取最能反映专利内容的标题和摘要部分内容,生成单独的文本文件,并根据该文本文件建立与之对应的专利知识图谱。最后通过对知识图谱中的各节点间所存在的潜在边进行预测,以实现目标预测专利的获取,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
基于上述实施例的内容,作为一种可选实施例,上述实体包括领域实体和命名实体,各实体之间的关系包括共现关系和具体关联关系;步骤S2中所述的提取历史文本文件中的实体和各实体之间的关系,主要包括:采用领域词典比照方法,获取所述历史文本文件中的所述领域实体;基于深度学习方法,获取所述历史文本文件中的所述命名实体;获取同一实体被多次设置为节点时的所述共现关系;利用基于机器学习的关系抽取方法,获取所述历史文本文件中各实体之间的具体关联关系。
由于任一专利文件必然同时包含结构化(如实体信息)和非结构化信息(如实体间的关系信息),因此对专利的研究包括对这两部分信息的分析。本发明实施例提供的专利空白预测方法,通过收集预设时间段内的专利数据(如2010年到2018年),按专利申请的年份划分这些专利数据,抽取这些专利中的实体和关系,将它们按年份加入到知识图谱中,以构建不同年份t的专利知识图谱KG(t)。
其中,在构建专利知识图谱KG(t)之前,抽取这些专利中的实体和关系主要包括以下内容:
一方面,抽取专利数据中的命名实体。命名实体的识别是指识别历史文本文件中具有特定意义的实体,如人名、机构名、地名等。领域实体指某个领域中具有特定含义的词汇或词组,也可称为术语(terminology),可以采用领域词典比照的方式从专利文档中提取领域实体。其中,本发明实施例通过采用深度学习方法,通过构建支持向量机模型(SupportVector Machine,SVM)、隐马尔科夫模型(Hidden Markov Model,HMM)或条件随机场模型(Conditional Random Field,CRF)等机器学习模型,实现从专利数据中抽取命名实体来进一步增大专利图谱的规模。
另一方面,抽取各个实体之间的相互关系。关系抽取是从历史文本文件中抽取出两个或多个实体之间的语义关系。在本发明实施例中,可以利用共现关系,在专利知识图谱中将每篇专利表示为包含该专利所有实体和共现关系的全连通子图,将包含了新增预测边的全连通子图预测为新专利,故可以通过获取各实体之间最重要的共现关系,即如果两个实体同时出现在一篇专利文档中,则认为这两个实体具有共现关系。上述关系抽取方式借鉴了美国情报学家Henry Small提出的文献共被引(Co-citation)概念,即认为当两篇文献被同时引用时,它们之间存在着内在联系。
进一步地,在本发明实施例所提供的空白预测方法中,还可以利用机器学习中的关系抽取方法(如利用基于文本的卷积神经网络(Text-CNN))来获取历史文本文件中的多种具体的关系,以进一步丰富实体之间的关系类型。
本发明实施例提供的专利空白预测方法,采用不同的方法充分提取历史文本文件中的实体和各实体之间的关系,以构建详细的专利知识图谱,有效的提高了专利空白预测的精度和可行性。
基于上述实施例的内容,作为一种可选实施例,所述步骤S2中所述的将实体作为节点,将关系作为边,构建专利知识图谱,主要包括:按照专利公开文本的申请年份,获取到各个年份内的历史文本文件;获取各个年份内的历史文本文件所对应的实体和各实体之间的关系;逐年分的将历史文本文件所对应的实体和各实体之间的关系添加至上一年分所构建的专利知识图谱中,完成专利知识图谱的创建。
在本发明实施例所提供的利空白预测方法中,可以按照逐年生成的方式,构建专利知识图谱,即逐年份地将抽取到的实体和关系添加到知识图谱中,从而得到实体数和关系数都不断增大的专利知识图谱。
具体地,为了在已经构建的专利知识图谱上进行专利空白预测,需要首先在知识图谱上进行边预测来挖掘潜在的三元组,进而预测专利空白点。可以按如下方式定义知识图谱上的边预测问题:给定到t时刻(如2015年)的专利文档数据,构建t时刻的专利知识图谱,则t时刻的知识图谱包含了已经存在的实体和关系,边预测的任务就是根据已有的节点和边来推断缺失的边(存在但是没有被观察到的边),这些预测出来的边代表了未来可能的新兴技术,而这部分边将可能在时刻t+Δt出现(如2016年)。由于专利知识图谱随着时间的推移,包含的实体和关系会逐渐增多,而且已有的实体和关系不会消失,因此在专利知识图谱上进行边预测是可行的。收集一定时间段内的专利数据(如2010年到2019年),按专利申请的年份划分这些专利数据,并抽取这些专利中的实体和关系,将它们按年份加入到知识图谱中,便可以得到不同年份t的专利知识图谱。
作为可选的实施例,所述在所述专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱,可以包括:利用公共邻居法、TransE预测模型、图神经网络预测模型或上下文增强图神经网络预测模型中的任一方法,获取未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱。
在利用专利知识图谱进行专利预测时,需要预先获取每个实体(节点)在图谱结构中的信息以及每个实体在历史文本文件中的信息。
作为可选地,可以利用图结构编码器根据每个领域的实体在知识图谱中所处的位置,以及与相邻实体的特征表示,为每个实体赋予一个向量表示。在本发明实施例中,可以利用注意力机制对邻近节点的特征加权求和作为目标节点的向量表示,具体为:
考虑单一图注意力层,假设这一层的输入是一系列的节点特征其输出是一系列的新特征由于输入和输出可能具有不同的维度F和F'。为了将输入特征h转化为输出特征h',则需要设置一个通用的线性变换,可以用权重矩阵W∈RF'×F来表示。节点j对节点i的重要程度可以用统一的注意力机制a来计算:
在实验中a是单层网络,它的参数用来表示。利用softmax函数来对系数eij进行归一化:
其中eij为与的拼接经过以为参数,LeakyReLU为激活函数的单层网络的结果:
最后,则可以获取到节点i的新的向量表示为:
进一步地,还可以利用上下文编码器用来捕获实体上下文语境信息。由于历史文本文件中的每一个实体e都是出现在一定的语境中,假设实体e出现的句子为[w1,w2,...,wl],l为句子的长度,wi为句子中的第i个单词。本发明实施例可以使用一个通用语义表示模型(Bidirectional Encoder Representation from Transformers,简称BERT)来对句子进行编码,得到这个句子中每个单词(即实体)的向量表示[h1,h2,...,hl]∈Rd,其中d为向量的维度。
最后,可以通过构建一个门机制将实体的图结构编码表示与上下文编码表示结合起来形成实体的最终表示用于接下来的边预测以及专利预测任务。
其中,通用语义表示模型由于具备增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,能够更准确的提取出每个实体在历史文本文件中的向量表示,故能够有效的提高本发明实施例所提供的专利空白预测方法的精度。
设置门机制可以理解为通过设定一定的判断条件,在原专利知识图谱中,将上一步骤计算出来的未连边的两个节点间所潜在的边,输入至该判断条件的,当满足预设条件时,则认为上述两个节点间确实存在一个边;若不满足预设条件,则认为两个节点间不存在边。
可选地,基于构建的专利知识图谱,提出公共邻居法、图神经网络法以及上下文增强图神经网络法来挖掘专利知识图谱上存在但还未发现的潜在三元组。我们可以通过以下门机制对于预测出来的新边,考察其是否真的在之后年份的图谱中出现,并可以由此计算出边准确率以检验算法预测的精度,例如:
对于截止到2010年的专利图谱,设算法预测的新边集合为R0,包含2010-2019年所有专利的图谱边集为R,则边准确率aedge按照下面的公式计算,边准确率aedge越高则证明算法的精度越高:
进一步地,公共邻居法是基于局部的信息来作出判断,上述利用公共邻居法,获取未连边的两个节点间所存在的潜在边的方法可以采用:
公共邻居法的预测原理基于如下的假设:在社会网络中,如果两个人拥有许多的公共的熟人,那么他们之间碰面的可能性要大于没有任何公共联系的两个人。两个结点共同的邻居结点越多,那么它们之间存在一条潜在的边的概率越大。
考虑图上的两个结点x和y,假设它们的邻居结点集合为Γx和Γy。定义一个打分函数s(x,y),代表x和y之间存在一条预测边的可能性大小。在公共邻居法中,s(x,y)就是x和y之间公共邻居结点的个数,形式化的表示为:
s(x,y)=|Γx∩Γy|
通过分析图谱的结构,例如统计节点的出度和入度,通过设置一个适当理的阈值r。当s(x,y)>r时,就认为x和y之间存在一条预测边。
在本发明实施例中,首先统计图谱中每对节点的公共邻居数的最大值M。如果某对节点之间没有连边,而它们的公共邻居数m与最大值M满足下式所示,则认为这对节点之间存在一条新的预测边。
本发明实施例提供的通过公共邻居法,获取未连边的两个节点间所存在的潜在边,可以准确的预测出新三元组,同时随着专利知识图谱规模增大,该方法所预测出的新边数随之增加,而且边预测准确率也逐渐提高。
TransE预测模型的基本原理是将实体和关系都表示为向量,并且将判断某个三元组是否存在的问题转化为验证实体和关系间的算术表达式是否成立。
具体而言,对于一个三元组(h,r,t),表示两个实体的向量h和t,与表示关系的向量r应该满足h+r≈t。这样模型的损失函数L可以定义如下:
其中,h、t分别为知识图谱中三元组头实体和尾实体的向量表示,r为头实体和尾实体之间的关系;K为知识图谱中的所有正三元组集合;(h,r,t)为正三元组;K'为负三元组集合,(h',r,t')为K'中的一个通过用一个随机选择的不同实体替换掉正三元组中的头实体或者尾实体构成的负三元组;h'、t'分别为负三元组中的头实体和尾实体的向量表示;h+r≈t;γ是一个正的常数,是关于变量u、v的距离函数。按照上述损失函数L对模型进行优化后,就可以利用模型对每一对三元组(h,r,t)进行打分。分数越高,则说明(h,r,t)这条三元组成立的概率就越大。
由此,本发明实施例还提供一种基于TransE预测模型进行潜在边预测的图神经网络预测模型(Graph-Based-TransE)预测方法,包括但不限于以下步骤:
首先用使用注意力机制的图结构编码器对图谱中的实体进行编码,再利用TransE方法训练预先构建的Graph-Based-TransE模型,最后对每一对三元组(h,r,t)进行打分和预测。在具体预测时,通过统计所有还未连边的实体对(任意两个实体构成实体对)的分数最大值,如果某对节点的打分超过分数最大值的一半,就认为这对结点之间存在一条潜在的预测边。
本发明实施例提供的图神经网络预测模型(Graph-Based-TransE)预测方法,与公共邻居法相比,在相同条件下获取到的三元组数目会大幅度增加,更重要的是在相同的数据集上边预测准确率也明显提高了,平均多出了4个百分点。究其原因在于:图结构编码器能够更充分地利用图谱的结构信息,并利用TransE模型将关系表示为向量,能同时考虑实体和关系的向量表示之间的数量关系,这是公共邻居法所不具有的。
基于上述实施例的内容,本发明实施例还提供一种利用上下文增强图神经网络预测模型,获取未连边的两个节点间所存在的潜在边,以构建所述新的专利知识图谱的方法,包括但不限于:
采用图结构编码器根据每个所述实体在专利知识图谱中的位置以及与其它实体之间的关系,以获取每个实体在所述专利知识图谱中的向量表示;采用上下文编码器,利用通用语义表示模型对历史文本文件中的每个句子进行编码,以获取每个实体在历史文本文件中的向量表示;通过一个门机制将每个实体在所述专利知识图谱中的向量表示以及在所述历史文本文件中的向量表示进行组合,构成与每个实体相对应的综合向量;利用TransE预测模型,根据每个实体相对应的综合向量,获取未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱。
在上述实施例使用图结构编码器和TransE预测模型进行潜在边预测的基础上,本发明实施例通过增加上下文编码器,并将图结构编码器和上下文编码器获得的节点向量表示通过一个门组合起来,形成新的综合向量表示,然后使用TransE模型进行边预测。
相比于公共邻居法以及图神经网络模型预测方法,本发明实施例加入了上下文编码器的上下文增强图神经网络模型能够预测出了更多的新边,即可以视为可以挖掘出知识图谱中更多潜在的知识,同时边预测准确率也大幅提升,比图神经网络方法的最佳效果高出约7.8个百分点。
本发明实施例提供的专利空白预测方法,提供了一种上下文增强图神经网络预测模型,由于加入了上下文编码器后,不仅仅领域实体本身的信息被利用了,专利文档中的实体所出现的上下文语境信息也被利用了,因此大大增强了模型预测的效果。
综上所述,本发明实施例提供的专利空白预测方法,如图2所示,包括但不限于以下步骤:
首先,收集历史专利数据,然后对所收集的专利数据进行数据预处理,包括将每个专利数据的标题和摘要部分抽出,组建专利文本文件。
然后,抽取专利文本文件中的所有实体以及各个实体之间的关系,构建专利知识图谱。
进一步地,分别利用图结构编码器和上下文编码器获取每个实体在专利知识图谱中的向量表示以及所述专利文本文件中的向量表示;再通过构建一个门机制将实体的图结构编码表示与上下文编码表示结合起来形成实体的最终表示用于接下来的边预测以及专利预测任务。
其中,构建一个门机制的方法可以是采用公共邻居法、图神经网络预测法、以及上下文增强图神经网络模型预测法,以实现对每个节点组的潜在边的预测。
最后,根据预测后生成的包含新的边的专利知识图谱,实现专利的预测。
本发明实施例提供的专利空白预测方法,根据共现关系的定义,将每一篇专利文件中所包含的实体和关系在专利知识图谱中表现为一个全连通子图,进而将预测出的新边加入当前的知识图谱中,再统计包含至少一条新预测边的新的全连通子图,将包含了新的预测边的新的全连通子图作为模型预测出来的一篇新专利所对应的全连通子图。
进一步地,本发明实施例还提供了一种对专利空白预测进行检验的方法,具体包括:
设预测的一篇新专利p包括的领域实体集合为E,若至少存在一篇今后年份的专利p',它的领域实体集合满足则认为预测的这篇新专利p是有效的。设预测的所有新专利集合为P,其中有效的新专利集合为P0,则专利预测准确率按照下面的公式计算:
本发明实施例提供的专利空白预测方法,随着图谱规模的增大,提出的专利预测模型预测出的新专利数均随年份增加,而且专利准确率也逐年提高。其中,相比于公共邻居法,所提供的图神经网络预测方法在专利准确率上有超过一个百分点的提升,而且随着图谱规模越来越大,提升的效果也越来越大。同时,结合了上下文编码表示和图结构表示的预测方法,专利预测效果在各个年份均优于仅基于图结构编码器的图神经网络方法。
图3为本发明实施例提供的一种专利空白预测系统,如图3所示,主要包括但不限于数据预处理模块1、专利知识图谱构建模块2、边预测模块3以及专利预测模块4,其中:
数据预处理模块1主要用于获取预设时间段内的历史专利,生成历史文本文件;专利知识图谱构建模块2主要用于提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;边预测模块3主要用于在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;专利预测模块4主要用于根据新生成的专利知识图谱,获取目标预测专利。
进一步地,本发明实施例所提供的专利空白预测系统,还可以包括:编码嵌入模块,用于采用图结构编码器和上下文编码器分别捕获实体在图谱结构中的信息,以及在专利文本文件中的上下文信息。
本发明实施例提供的专利空白预测系统,利用历史专利文档数据中的实体和关系构建专利知识图谱,通过图神经网络算法来预测专利知识图谱中潜在的三元组,以实现空白专利的预测,为明确科技研究方向与新专利的申报方向提供了便捷的途径。
需要说明的是,本发明实施例提供的专利空白预测系统,在具体执行时,可以运行上述任一实施例所述的专利空白预测方法,对此本实施例不作赘述。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communication interface)420、存储器(memory)430和通信总线(bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行专利空白预测方法,主要包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的专利空白预测方法,主要包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的以执行专利空白预测方法,主要包括:获取预设时间段内的历史专利,生成历史文本文件;提取历史文本文件中的实体和各实体之间的关系;将实体作为节点,将关系作为边,构建专利知识图谱;在专利知识图谱中预测未连边的两个节点间所存在的潜在边,以构建新的专利知识图谱;根据新的专利知识图谱,获取目标预测专利。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本文发布于:2023-03-12 23:12:14,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/68437.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |