一种检索相似专利的方法和装置

阅读: 评论:0

著录项
  • CN202110633549.4
  • 20210607
  • CN113254589A
  • 20210813
  • 南京因由数字科技有限公司
  • 刘亚娟
  • G06F16/33
  • G06F16/33 G06F16/31 G06F40/289 G06K9/62

  • 江苏省南京市浦口区永宁街道侯冲社区南组1471号
  • 江苏(32)
  • 北京远创理想知识产权代理事务所(普通合伙)
  • 卫安乐
摘要
本发明涉及一种检索相似专利的方法和装置,包括根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,权利要求树状图中的每个节点代表每一项权利要求;将每一个词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个检索结果放入权利要求树状图中对应的节点,并根据已建立的权重值模型,计算权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各检索结果中与待检索专利文本相似度值最高的专利文件,得到待检索专利文本的相似专利文件集。本发明实现了对专利检索中的关键检索信息的检索,提高了专利检索结果的准确度,提升了用户的满意度。
权利要求

1.一种检索相似专利的方法,其特征在于,所述方法包括:

根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;

将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;

将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;

保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

2.根据权利要求1所述的检索相似专利的方法,其特征在于,所述根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,具体包括:

基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;

获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

3.根据权利要求2所述的检索相似专利的方法,其特征在于,所述根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合,具体包括:

获取所述分词之间的修饰关系;

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

4.根据权利要求1所述的检索相似专利的方法,其特征在于,通过以下方法构建所述权重值模型:

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;

利用损失函数优化初级评分模型,得到所述权重值模型。

5.根据权利要求4所述的检索相似专利的方法,其特征在于,所述将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值,具体包括:

依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

6.一种检索相似专利的装置,其特征在于,所述装置包括:

生成模块,用于根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;

检索模块,用于将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;

计算模块,用于将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;

确定模块,用于保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

7.根据权利要求6所述的检索相似专利的装置,其特征在于,

所述生成模块,具体用于基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;

获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

8.根据权利要求7所述的检索相似专利的装置,其特征在于,

所述生成模块,具体用于获取所述分词之间的修饰关系;

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

9.根据权利要求6所述的检索相似专利的装置,其特征在于,

所述计算模块,具体用于通过以下方法构建所述权重值模型:

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;

利用损失函数优化初级评分模型,得到所述权重值模型。

10.根据权利要求9所述的检索相似专利的装置,其特征在于,

所述计算模块,具体用于依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

说明书
技术领域

本发明涉及计算机技术领域,尤其涉及一种检索相似专利的方法和装置。

专利检索是具体查专利说明书的渠道和方法,使企业明晰世界专利的动态、避免重复开发与资金浪费,对企业而言功劳甚大。专利研究和申请切不能存有侥幸心理,据不完全统计,各国因未查阅专利文献、使研究课题失去价值,每年造成的损失数以十亿计,间接损失就更多了。所以,专利检索对于企业的成长,对于全球生产力的节省与提高,具有举足轻重的作用。

目前专利检索的常规方式主要为以匹配用户对待检索专利的描述信息进行直接匹配查,存在检索效率低,也很难达到用户满意的检索效果,以及对用户的检索技能要求较高,容易造成关键检索信息遗漏率高,存在专利检索结果不准确的问题。

本发明所要解决的技术问题是针对现有技术的不足,提供一种检索相似专利的方法和装置。

本发明解决上述技术问题的技术方案如下:

一种检索相似专利的方法,所述方法包括:

根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;

将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;

将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;

保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步地,所述根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,具体包括:

基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;

获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

进一步地,所述根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合,具体包括:

获取所述分词之间的修饰关系;

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

进一步地,通过以下方法构建所述权重值模型:

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;

利用损失函数优化初级评分模型,得到所述权重值模型。

进一步地,所述将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值,具体包括:

依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

本方法发明的有益效果是:提出了一种检索相似专利的方法,包括根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。本发明实现了对专利检索中的关键检索信息的检索,提高了专利检索结果的准确度,提升了用户的满意度。

本发明还解决上述技术问题的另一种技术方案如下:

一种检索相似专利的装置,所述装置包括:

生成模块,用于根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;

检索模块,用于将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;

计算模块,用于将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;

确定模块,用于保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

进一步地,所述生成模块,具体用于基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图;

获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

进一步地,所述生成模块,具体用于获取所述分词之间的修饰关系;

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别;

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

进一步地,所述计算模块,具体用于通过以下方法构建所述权重值模型:

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重;

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型;

利用损失函数优化初级评分模型,得到所述权重值模型。

进一步地,所述计算模块,具体用于依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本;

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量;

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的一种检索相似专利的方法的流程示意图;

图2为本发明另一实施例所述的一种检索相似专利的装置的示意图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

如图1本发明实施例所述的一种检索相似专利的方法包括以下步骤:

110、根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求。

应理解,获取权利要求文本,并根据权利要求文本中的每一条权利要求的引用关系,得到权利要求树状图,例如,可以认为独立权利要求1是根节点,权利要求2引用权利要求1时,权利要求2是根节点下一层的节点,若权利要求3引用权利要求1时,权利要求3是根节点的下一层的节点,和权利要求2是同一层,若权利要求3引用权利要求2时,则权利要求3是权利要求2的下一层的节点。当出现引用多条权利要求时,将引用的权利要求设置为每一条被引用的权利要求的下一层的节点。

120、将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果。

应理解,基于词集合,生成检索式,对于检索式,可以与或关系等,本实施例中不做赘述。

130、将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值。

140、保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

进一步地,步骤110中具体包括:

111、基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图。

112、获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

进一步地,步骤112中具体包括:

获取所述分词之间的修饰关系。

应理解,可以根据语义获取分词之间的修饰关系,也可以根据其他方式获取分析之间的修饰关系,其中修饰关系是相关的分词在语句中的依存关系,是分词之间在语义上的关联性。

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别。

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

进一步地,通过以下方法构建所述权重值模型:

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重。

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型。

应理解,评分模型可以应用目前现有的一些数学模型等,本实施例中不做限制。

利用损失函数优化初级评分模型,得到所述权重值模型。

进一步地,步骤130中具体包括:

依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本。

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量。

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

基于上述实施例所提出的一种检索相似专利的方法,包括根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求;将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果;将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值;保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。本发明实现了对专利检索中的关键检索信息的检索,提高了专利检索结果的准确度,提升了用户的满意度。

如图2所示,一种检索相似专利的装置,所述装置包括:

生成模块,用于根据待检索专利文本中的权利要求文本,生成权利要求树状图和多个词集合,其中,所述权利要求树状图中的每个节点代表每一项权利要求。

检索模块,用于将每一个所述词集合生成对应的检索式,在专利文献库中进行检索,得到检索结果。

计算模块,用于将每一个所述检索结果放入所述权利要求树状图中对应的节点,并根据已建立的权重值模型,计算所述权利要求树状图中各节点对应的检索结果中的每一个专利文件与所述待检索专利文本之间的相似度值。

确定模块,用于保留各所述检索结果中与所述待检索专利文本相似度值最高的专利文件,得到所述待检索专利文本的相似专利文件集。

进一步地,所述生成模块,具体用于基于所述权利要求文本中的各条权利要求的引用关系,生成所述权利要求树状图。

获取所述权利要求文本中的各条权利要求中的分词,根据所述分词之间的修饰关系,确定所述分词的级别,并根据所述分词的级别,得到各条所述权利要求对应的词集合。

进一步地,所述生成模块,具体用于获取所述分词之间的修饰关系。

当第一分词是第二分词的修饰词时,则设置所述第一分词的级别高于所述第二分词的级别。

抽取所述分词中级别大于预设级别的分词作为所述权利要求对应的词集合。

进一步地,所述计算模块,具体用于通过以下方法构建所述权重值模型。

为所述权利要求树状图的每一层中每一个节点构建对应的词集合中各分词的权重。

根据所述权利要求树状图的形状和所述各分词的权重构建所述权利要求树状图中节点的初级评分模型。

利用损失函数优化初级评分模型,得到所述权重值模型。

进一步地,所述计算模块,具体用于依据各所述节点对应的词集合中的分词,对所述待检索专利文本进行检索,得到所述检索结果,其中所述检索结果中包括至少一个专利文本。

根据所述词集合,分别对所述专利文本的全文进行分词,并计算词频,得到所述专利文本的词向量。

根据所述权重值模型,计算所述专利文本的词向量和所述待检索专利文本的词向量之间的相似度,得到所述相似度值。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

本文发布于:2023-03-12 22:57:17,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68410.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图