一种基于知识图谱的专利智能检索方法及系统

阅读：评论：0

著录项

申请号 CN202010061494.X
申请日 20200119
公开（公告）号 CN111274332A
公开日 20200612
申请（专利权）人中国科学院计算技术研究所
发明人韦伟;李小娟;王晶
主分类号 G06F16/28
分类号
G06F16/28 G06F16/36 G06F16/33 G06F40/289 G06K9/62
地址北京市海淀区中关村科学院南路6号
国省代码北京(11)
代理机构北京律诚同业知识产权代理有限公司
代理人祁建国

摘要

本发明提出一种基于知识图谱的专利智能检索方法及系统，从数据库中获取各专利的原始信息，并以原始信息中基本信息、专利作者和专利申请单位作为实体，通过实体与实体的属性信息，构建各专利及其作者的实体节点，并根据实体节点间的关系，得到包含全部实体节点以及实体节点间关系的知识图谱库；获取检索信息，判断检索信息是否为基本信息，若是，则在知识图谱库中检索检索信息对应的所有相似度大于预设值的所有专利，作为检索结果，否则判断检索信息是否为属性信息，若是，则通过图状关系描述属性信息，生成检索子图，根据检索子图在知识图谱库中进行子图匹配，获得匹配结果集合，并将其中相似性值大于预设值的专利作为检索结果，否则结束检索。

权利要求



1.一种基于知识图谱的专利智能检索方法，其特征在于，包括：

步骤1、从数据库中获取各专利的原始信息，并以该原始信息中基本信息、专利作者和专利申请单位作为实体，通过实体与实体的属性信息，构建各专利及其作者的实体节点，并根据实体节点间的关系，得到包含全部实体节点以及实体节点间关系的知识图谱库；

步骤2、获取检索信息，判断该检索信息是否为基本信息，若是，则在该知识图谱库中检索该检索信息对应的所有相似度大于预设值的所有专利，作为检索结果，否则判断该检索信息是否为属性信息，若是，则通过图状关系描述该属性信息，生成检索子图，根据该检索子图在该知识图谱库中进行子图匹配，获得匹配结果集合，并将其中相似性值大于预设值的专利作为检索结果，否则结束检索。



2.如权利要求1所述的基于知识图谱的专利智能检索方法，其特征在于，该实体节点间的关系包括：专利间的相似度和专利间的引述关系。



3.如权利要求2所述的基于知识图谱的专利智能检索方法，其特征在于，该相似度的计算方法为：

步骤11、对任意两个专利p和p’，分别获取其属性集合S和S′；

步骤12、对于任意s∈S和s′∈S′，如果s＝＝s’且s是IPC分类号或者主分类号，则进入步骤14，否则进入步骤13；

步骤13、将专利p和p’的相似度置为0；

步骤14、获取该分类领域中的关键字集合κ，利用该关键字集合分别对专利p和p′的全文进行分词，并计算词频，从而分别获得分词向量K＝{k1，k2，.，kn}和K′＝{k′1，k′2，k′m}。

步骤15、利用相似性算法计算K和K′之间的相似度，作为专利p和p’之间的相似度。

5.如权利要求3所述的基于知识图谱的专利智能检索方法，其特征在于，该相似性算法为文本相似度计算算法。

4.如权利要求1所述的基于知识图谱的专利智能检索方法，其特征在于，该检索信息的属性信息包括：关键词、发明人和所属技术领域。



6.一种基于知识图谱的专利智能检索系统，其特征在于，包括：

模块1、从数据库中获取各专利的原始信息，并以该原始信息中基本信息、专利作者和专利申请单位作为实体，通过实体与实体的属性信息，构建各专利及其作者的实体节点，并根据实体节点间的关系，得到包含全部实体节点以及实体节点间关系的知识图谱库；

模块2、获取检索信息，判断该检索信息是否为基本信息，若是，则在该知识图谱库中检索该检索信息对应的所有相似度大于预设值的所有专利，作为检索结果，否则判断该检索信息是否为属性信息，若是，则通过图状关系描述该属性信息，生成检索子图，根据该检索子图在该知识图谱库中进行子图匹配，获得匹配结果集合，并将其中相似性值大于预设值的专利作为检索结果，否则结束检索。



7.如权利要求6所述的基于知识图谱的专利智能检索系统，其特征在于，该实体节点间的关系包括：专利间的相似度和专利间的引述关系。



8.如权利要求7所述的基于知识图谱的专利智能检索系统，其特征在于，该相似度的计算系统为：

模块11、对任意两个专利p和p’，分别获取其属性集合s和s′；

模块12、对于任意s∈S和s′∈S′，如果s＝＝s’且s是IPC分类号或者主分类号，则进入模块14，否则进入模块13；

模块13、将专利p和p’的相似度置为0；

模块14、获取该分类领域中的关键字集合κ，利用该关键字集合分别对专利p和p′的全文进行分词，并计算词频，从而分别获得分词向量K＝{k1，k2，.，kn}和K′＝{k′1，k′2，k′m}。

模块15、利用相似性算法计算K和K′之间的相似度，作为专利p和p’之间的相似度。

10.如权利要求8所述的基于知识图谱的专利智能检索系统，其特征在于，该相似性算法为文本相似度计算算法。

9.如权利要求6所述的基于知识图谱的专利智能检索系统，其特征在于，该检索信息的属性信息包括：关键词、发明人和所属技术领域。

说明书

技术领域

本发明涉及信息技术、人工智能和知识产权领域，并特别涉及一种基于知识图谱的专利智能检索方法及系统。

截至2018年为止，我国在专利申请数量上已经连续8年排名全球第一。在这样的情况下，如何在大量的专利数据中获取有效的专利信息，是进行进一步知识创新的重要基础。目前专利检索方法采用的仍然是以关键字匹配、全文检索核心的检索方式。这种检索方法容易出现检索内容匹配量大，匹配精度不高、用户需要进行大量二次检索的问题，使得用户无法在短时间内获取精确的专利数据。近年来，伴随着图数据技术的广泛研究，基于知识图谱进行对垂直行业的知识信息进行整理并进行检索、推送发现的方法已经得到了一定的应用。利用知识图谱在进行数据发现时，会考量除了关键字之外的其他因素，因此可以提供更为准确的检索结果。基于上述考虑，本申请设计的专利拟采用知识图谱的方法构建专利智能检索方法。

本申请设计的专利质量评价方法的主要技术背景如下：

1)图数据库系统已经成为主要的数据库系统之一，为知识图谱的构建和检索提供了坚实的数据存储基础。

知识图谱是一种基于元素之间关系的网状结构体系，为了实现对知识图谱数据的存储、检索，必须采用图来对其进行存储。而图数据的匹配和检索一直都是难点。近年来，伴随着研究的相关深入，以Neo4j为代表的大批图数据库系统进入到了商业化应用的阶段，为图数据的存储、匹配、检索提供了良好的支持。也为知识图谱的顺利应用提供了坚实的应用基础。本申请所采用的知识图谱的存储和构建就是基于图数据而展开的。

2)机器学习大规模应用，具备构建自动构建知识图谱的技术基础。

知识图谱的构建涉及到大量的数据的自动抽取以实现对节点实体间关系的获取。同时，由于知识图谱中不同关系间的权值对与知识图谱的准确性有至关重要的作用，而这个权值需要通过知识图谱的使用过程进行自动化的调整，而机器学习近年来的广泛应用为上述知识图谱的自动调整提供了重要技术支撑。

综上，本申请知识图谱提出了一种专利智能检索的方法。

本申请基于知识图谱提出一种专利智能检索的方法。本申请所涉及的主要发明内容包括：

1)专利知识图谱的构建方法。该方法基于构成专利的不同要素构建专利的图描述方式，并依据该数据描述方式构建专利的知识图谱。同时给出了专利知识图谱的自动构建过程；

2)利用用户输入构建知识图谱查询结构的方法，即将用于输入的检索要素构建为知识图谱库可以理解的查询描述；

3)基于专利知识图谱的专利检索方法。

具体看来说，本发明提出一种基于知识图谱的专利智能检索方法，其中包括：

所述的基于知识图谱的专利智能检索方法，其中该实体节点间的关系包括：专利间的相似度和专利间的引述关系。

所述的基于知识图谱的专利智能检索方法，其中该相似度的计算方法为：

步骤11、对任意两个专利p和p’，分别获取其属性集合s和S′；

步骤12、对于任意s∈S和s′∈S′，如果s＝＝s’且s是IPC分类号或者主分类号，则进入步骤14，否则进入步骤13；

步骤13、将专利p和p’的相似度置为0；

步骤14、获取该分类领域中的关键字集合利用该关键字集合分别对专利p和p′的全文进行分词，并计算词频，从而分别获得分词向量K＝{k1，k2，.，kn}和 K′＝{k′1，k′2，k′m}。

步骤15、利用相似性算法计算K和K′之间的相似度，作为专利p和p’之间的相似度。

所述的基于知识图谱的专利智能检索方法，其中该检索信息的属性信息包括：关键词、发明人和所属技术领域。

所述的基于知识图谱的专利智能检索方法，其中该相似性算法为文本相似度计算算法。

本发明还提出了一种基于知识图谱的专利智能检索系统，其中包括：

所述的基于知识图谱的专利智能检索系统，其中该实体节点间的关系包括：专利间的相似度和专利间的引述关系。

所述的基于知识图谱的专利智能检索系统，其中该相似度的计算系统为：

模块11、对任意两个专利p和p’，分别获取其属性集合s和s′；

模块12、对于任意s∈S和s′∈S′，如果s＝＝s’且s是IPC分类号或者主分类号，则进入模块14，否则进入模块13；

模块13、将专利p和p’的相似度置为0；

模块14、获取该分类领域中的关键字集合κ，利用该关键字集合分别对专利p和p′的全文进行分词，并计算词频，从而分别获得分词向量K＝{κ1，κ2，.κn}和 K′＝{k′1，k′2，k′m}。

模块15、利用相似性算法计算K和K′之间的相似度，作为专利p和p’之间的相似度。

所述的基于知识图谱的专利智能检索系统，其中该检索信息的属性信息包括：关键词、发明人和所属技术领域。

所述的基于知识图谱的专利智能检索系统，其中该相似性算法为文本相似度计算算法。

由以上方案可知，本发明的优点在于：通过知识图谱的方式有效的刻画了专利之间的相关性，并借助图匹配的方法实现相关专利内容之间检索，降低了基于关键字等传统检索方法的搜索空间，并进而利用相似性计算给出相关专利之间的相似度。

图1为本发明总体框架图；

图2专利知识图谱基本构成图；

图3构建专利知识图谱的流程图；

图4专利检索子图。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书图作详细说明如下。

总体框架。专利智能检索的总体框架如图1所示，分为3个步骤，包括：

专利知识图谱构建步骤，专利知识图谱构建利用专利相关信息构建专利与属性以及专利间的相互关系。专利知识图谱的构建方法参见步骤2。

专利检索子图生成步骤，生成专利检索子图的过程是根据用户的输入，通过图状关系描述方法，生成专利检索的关系描述子图，用于在知识图谱数据库中进行检索。

知识图谱检索步骤，检索知识图谱是根据专利检索子图在知识图谱中完成管理检索，并输出检索结果。检索知识图谱的过程参见步骤3。

专利知识图谱的构建。

2-1知识图谱的组成与构建流程：

专利知识图谱是一个关系网络，描述专利与专利属性之间以及专利之间的关系。专利知识图谱的基本描述方式如图2所示。专利知识图谱中圆形标识实体，方形标识实体的属性。专利的知识图谱中，实体包括以下几种类型：专利、专利作者和专利申请单位。对与每个实体，都具备一系列属性，用于描述该实体的一系列内在属性。对于上述三个实体，考虑的属性分别如下：

专利属性：申请号、授权号、有效期、关键字、摘要、主分类号、公开号、公开日、IPC分类号；

专利作者的属性：作者姓名、作者单位、作者地址；

专利申请单位的属性：单位名称、单位性质、单位地址。

通过实体与属性信息可以构建某个专利及其作者的实体节点。在构建完节点之后，进一步构建专利与作者、专利与专利之间的关系。专利与作者之间的关系标识专利的作者，专利与专利之间的关系包括两类：1)相似，标识专利与专利之间的相似性数值，专利的相似性计算方法参考2-2；2)专利间的引述关系，例如前置专利，标识专利A是否是专利B的前置专利，包括以专利A 为基础提出的优先权或以专利A为母案提出的分案。

构建整个专利知识图谱库的流程如图3所示。

2-2专利相似性计算

专利相似性计算为计算任意两个专利之间的相似程度，专利相似性计算以文本相似性计算为核心。可以采用任意一种文本相似性计算的方法进行计算，文本相似性计算的方法超出本申请覆盖范围，不再详述。但文本相似性算法是以文本关键字作为特征向量进行计算的，因此，如果不进行区分，对任意两个专利进行相似性计算，都会有一个相似值。但显然，对不同领域的专利来说，其不存在相似性计算的必要。因此，对专利的相似性计算必须进行过滤。综上，专利相似性计算的过程如下：

步骤1)，对任意两个专利p和p’，分别获取其属性集合s和s′；

步骤2)，对于任意s∈S和s′∈S′，S’是专利p’对应的属性集合。因为是两个专利p和p’，所以采用了两个不同的符号对应他们不同的属性集合，如果s＝＝s’且s是IPC分类号或者主分类号，则进入步骤4)，否则进入步骤3)；

步骤3)，将专利p和p’的相似度置为0；

步骤4)，获取该分类领域中键字集合κ，利用该关键字集合分别对专利p和 p′的全文进行分词，并计算词频，从而分别获得分词向量K＝{k1，k2，.，kn}和 K′＝{k′1，k′2，k′m}。

步骤5)，利用相似性算法计算K和K′之间的相似性，即为专利p和p’之间的相似性。

专利检索过程。专利检索的总体流程如下所示：

步骤1)用户输入检索信息I

步骤2)，如果I是单个关键字，结束

步骤3)，如果I是专利，则获取专利I对应的所有相似度大于v的其他所有专利，并返回结果，其中v称作相似性阀值，初始值为70％，可以由用户进行调节；

步骤4)，如果I是一组描述专利属性集合，则属性集合需要满足其中keyword是摘要或者关键字中的关键词，Author 是作者，domain是所属技术领域。那么对于属性集合，构建专利检索子图g，对于构建专利子图，可采用图数据库系统的构建子图的描述语言。例如Neo4j 数据库，它有Cypher语言(类似SQL语言)有标准去描述一个查询子图。这里仅仅给出子图示例就是给出子图的构建模式，而具体的子图描述对不同的数据库来说不一样，本发明的方法适用于多种数据库。专利检索子图的样式如图 4所示(图4所表示的含义为：检索目标为具有属性1，2，3，且作者为A的所有专利X)；

步骤5)，根据查询子图g在知识图库中进行子图匹配，获得匹配结果集合 Ro；

步骤6)，对于任意r∈o，获取其所有满足相似性值大于v的所有专利集合Rr，相似度计算可采用文本的相似性计算，即对通过子图匹配的专利搜索结果进行文本相似性计算，以进一步过滤。

步骤7)，返回检索结果集合R＝∪Rr(r∈Ro)。

在上述过程中，步骤5～6的作用是将属性集合的子集作为进一步的搜索目标，并集合相似性进行过滤，可以获得更为广泛的结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种基于知识图谱的专利智能检索系统，其中包括：

所述的基于知识图谱的专利智能检索系统，其中该实体节点间的关系包括：专利间的相似度和专利间的引述关系。

所述的基于知识图谱的专利智能检索系统，其中该相似度的计算系统为：

模块11、对任意两个专利p和p’，分别获取其属性集合s和S′；

模块12、对于任意s∈S和s＇∈S＇，如果s＝＝s’且s是IPC分类号或者主分类号，则进入模块14，否则进入模块13；

模块13、将专利p和p’的相似度置为0；

模块15、利用相似性算法计算K和K′之间的相似度，作为专利p和p’之间的相似度。