数据治理中申请人一致性匹配方法、系统及存储介质

阅读: 评论:0

著录项
  • CN202211476956.X
  • 20221123
  • CN115757754A
  • 20230307
  • 企知道网络技术有限公司
  • 蔡子哲;蔡青山;石明霞
  • G06F16/335
  • G06F16/335 G06F16/33 G06F16/31 G06F40/284

  • 广东省深圳市南山区西丽街道西丽社区留仙大道创智云城1标段1栋D座2201
  • 广东(44)
  • 北京维正专利代理有限公司
  • 徐俊
摘要
本申请公开了一种数据治理中申请人一致性匹配方法、系统及存储介质,其涉及文本处理技术领域,该方法包括如下步骤:提取目标专利文件中目标申请人的关联信息;分析目标申请人的申请人类型;在专利信息数据库中提取多个候选申请人标签;计算目标申请人和多个候选申请人标签之间的匹配相似度;若所有匹配相似度中存在高于相似度阈值的匹配相似度,则将最高的匹配相似度所对应的候选申请人标签作为最优申请人标签;建立目标专利文件和最优申请人标签之间的索引映射,并将目标专利文件存储至专利信息数据库。本申请具有将新专利文件高效录入专利信息数据库的效果。
权利要求

1.一种数据治理中申请人一致性匹配方法,其特征在于,包括如下步骤:

获取目标专利文件;

提取所述目标专利文件中目标申请人的关联信息;

分析所述目标申请人的申请人类型;

结合所述申请人类型和所述关联信息在预设的专利信息数据库中提取多个候选申请人标签;

计算所述目标申请人和多个所述候选申请人标签之间的匹配相似度;

若所有所述匹配相似度均低于预设的相似度阈值,则基于所述目标申请人在所述专利信息数据库中新建目标申请人标签;

建立所述目标专利文件和所述目标申请人标签之间的索引映射,并将所述目标专利文件存储至所述专利信息数据库;

若所有所述匹配相似度中存在高于所述相似度阈值的匹配相似度,则将最高的所述匹配相似度所对应的所述候选申请人标签作为最优申请人标签;

建立所述目标专利文件和所述最优申请人标签之间的索引映射,并将所述目标专利文件存储至所述专利信息数据库。

2.根据权利要求1所述的数据治理中申请人一致性匹配方法,其特征在于,所述目标申请人的关联信息包括所述目标申请人对应的发明人信息、申请地址信息、同族专利信息、专利分类信息中的至少一项。

3.根据权利要求1所述的数据治理中申请人一致性匹配方法,其特征在于,所述分析所述目标申请人的申请人类型包括如下步骤:

获取所述目标申请人的申请人名称文本;

分词处理所述申请人名称文本,得到分词文本集合;

基于预设的企业名称数据集构建无限自动机;

将所述分词文本集合代入所述无限自动机,得到识别结果;

根据所述识别结果判断所述目标申请人的申请人类型。

4.根据权利要求3所述的数据治理中申请人一致性匹配方法,其特征在于,所述基于预设的企业名称数据集构建无限自动机包括如下步骤:

根据企业名称范式将预设的企业名称数据集中所有企业名称分类为多个分词数据集;

以各个所述分词数据集为整体创建状态结点;

基于所有所述状态结点构建无限自动机。

5.根据权利要求4所述的数据治理中申请人一致性匹配方法,其特征在于,所述分词数据集包括地区分词数据集、自定义分词数据集、行业分词数据集和企业属性分词数据集。

6.根据权利要求3所述的数据治理中申请人一致性匹配方法,其特征在于,所述识别结果包括识别成功结果和识别失败结果,所述根据所述识别结果判断所述目标申请人的申请人类型包括如下步骤:

判断所述识别结果为所述识别成功结果或所述识别失败结果;

若所述识别结果为所述识别成功结果,则判定所述目标申请人的申请人类型为企业名称类型;

若所述识别结果为所述识别失败结果,则判定所述申请人类型为个人名称类型。

7.根据权利要求1所述的数据治理中申请人一致性匹配方法,其特征在于,所述结合所述申请人类型和所述关联信息在预设的专利信息数据库中提取多个候选申请人标签包括如下步骤:

根据所述申请人类型在预设的专利信息数据库中进行筛选,得到多个初筛专利信息;

将所述关联信息作为索引对象从多个所述初筛专利信息中检索出匹配的多个候选专利信息;

遍历所有所述候选专利信息,并逐一提取所述候选专利信息所匹配对应的候选申请人标签。

8.根据权利要求1所述的数据治理中申请人一致性匹配方法,其特征在于,所述计算所述目标申请人和多个所述候选申请人标签之间的匹配相似度包括如下步骤:

将所述目标申请人代入预设的向量计算模型,计算得到所述目标申请人的第一特征向量;

将所有所述候选申请人标签代入所述向量计算模型,计算得到各个所述候选申请人标签的第二特征向量;

计算所述第一特征向量与多个所述第二特征向量之间的余弦相似度,并将所述余弦相似度作为所述目标申请人和多个所述候选申请人标签之间的匹配相似度。

9.一种数据治理中申请人一致性匹配系统,其特征在于,包括处理器和存储器,所述处理器在运行所述存储器存储的计算机指令时,执行如权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。

说明书
技术领域

本申请涉及文本处理技术领域,尤其是涉及一种数据治理中申请人一致性匹配方法、系统及存储介质。

随着申请专利的个人或企业越来越多,专利数据量也变得越来越庞大,因此,一些专利行业企业为了能够为客户提供更方便的服务,通常会提供专利检索平台供用户用来查询专利数据。

目前,专利检索平台都具有一个庞大的专利检索数据库,在专利检索数据库中,每个不同的申请人具有不同的申请人标识,同一申请人所参与申请的所有专利文档均与该申请人的申请人标识匹配映射,既方便用户在检索时可以根据申请人进行检索,也节省了专利检索数据库的资源。当新专利文档需要录入专利检索数据库时,需要根据新专利文档中所提取出的目标申请人,遍历检索专利检索数据库中已存在的申请人标签,若存在完全匹配的申请人标签,则会建立目标申请人与匹配的申请人标签之间的匹配映射,并基于匹配映射将新专利文档存储至专利检索数据库中。

针对上述中的相关技术,发明人认为存在有以下缺陷:由于专利检索数据库中的数据量较为庞大,每次录入新专利文档时,均需要通过遍历检索的方式匹配申请人,整个录入过程会消耗较多的时间和算力。

为了改善新专利文档录入专利检索数据库时需要消耗较多的时间和算力的缺陷,本申请提供一种数据治理中申请人一致性匹配方法、系统及存储介质。

第一方面,本申请提供一种数据治理中申请人一致性匹配方法,包括如下步骤:

获取目标专利文件;

提取所述目标专利文件中目标申请人的关联信息;

分析所述目标申请人的申请人类型;

结合所述申请人类型和所述关联信息在预设的专利信息数据库中提取多个候选申请人标签;

计算所述目标申请人和多个所述候选申请人标签之间的匹配相似度;

若所有所述匹配相似度均低于预设的相似度阈值,则基于所述目标申请人在所述专利信息数据库中新建目标申请人标签;

建立所述目标专利文件和所述目标申请人标签之间的索引映射,并将所述目标专利文件存储至所述专利信息数据库;

若所有所述匹配相似度中存在高于所述相似度阈值的匹配相似度,则将最高的所述匹配相似度所对应的所述候选申请人标签作为最优申请人标签;

建立所述目标专利文件和所述最优申请人标签之间的索引映射,并将所述目标专利文件存储至所述专利信息数据库。

通过采用上述技术方案,获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

可选的,所述目标申请人的关联信息包括所述目标申请人对应的发明人信息、申请地址信息、同族专利信息、专利分类信息中的至少一项。

可选的,所述分析所述目标申请人的申请人类型包括如下步骤:

获取所述目标申请人的申请人名称文本;

分词处理所述申请人名称文本,得到分词文本集合;

基于预设的企业名称数据集构建无限自动机;

将所述分词文本集合代入所述无限自动机,得到识别结果;

根据所述识别结果判断所述目标申请人的申请人类型。

通过采用上述技术方案,将申请人名称文本按照文本词性进行分词处理,分词处理后所得到的分词文本集合包含所有不同词性的分词,通过构建的无限自动机可以对分词文本集合进行识别,即使集合中分词的顺序是基于申请人名称文本原始的文本顺序,无不影响无限自动机的判断结果。无限自动机是基于企业名称数据集构建,所以无限自动机可以识别企业名称所分词的分词文本集合,因此根据无限自动机的识别结果可以判断目标申请人的申请人类型。

可选的,所述基于预设的企业名称数据集构建无限自动机包括如下步骤:

根据企业名称范式将预设的企业名称数据集中所有企业名称分类为多个分词数据集;

以各个所述分词数据集为整体创建状态结点;

基于所有所述状态结点构建无限自动机。

通过采用上述技术方案,根据企业名称范式作为分词规则对企业名称数据集中的所有企业名称进行分词处理得到分词数据集,在基于各个分词数据集构建出作为无限自动机基础元素的状态结点,建立状态结点之间的结点传输关系后即可构建出用于识别企业名称的无限自动机。

可选的,所述分词数据集包括地区分词数据集、自定义分词数据集、行业分词数据集和企业属性分词数据集。

可选的,所述识别结果包括识别成功结果和识别失败结果,所述根据所述识别结果判断所述目标申请人的申请人类型包括如下步骤:

判断所述识别结果为所述识别成功结果或所述识别失败结果;

若所述识别结果为所述识别成功结果,则判定所述目标申请人的申请人类型为企业名称类型;

若所述识别结果为所述识别失败结果,则判定所述申请人类型为个人名称类型。

通过采用上述技术方案,由于无限自动机是基于企业名称数据集所构建,因此无限自动机可以识别企业名称的分词组合,而无法识别个人名称的分词组合,若识别结果为识别成功结果,则说明所识别的申请人名称文本为企业名称;若识别结果为识别失败结果,则说明所识别的申请人名称文本为个人名称。

可选的,所述结合所述申请人类型和所述关联信息在预设的专利信息数据库中提取多个候选申请人标签包括如下步骤:

根据所述申请人类型在预设的专利信息数据库中进行筛选,得到多个初筛专利信息;

将所述关联信息作为索引对象从多个所述初筛专利信息中检索出匹配的多个候选专利信息;

遍历所有所述候选专利信息,并逐一提取所述候选专利信息所匹配对应的候选申请人标签。

通过采用上述技术方案,先根据申请人类型对专利信息数据库中的专利信息进行初步筛选,得到初筛专利信息,再根据关联信息在初筛专利信息中进行进一步检索筛选,得到关联信息匹配的候选专利信息,最终提取候选专利信息对应的申请人标签,并进行去重处理,有效减少了后续申请人匹配计算过程中的计算量和计算时间。

可选的,所述计算所述目标申请人和多个所述候选申请人标签之间的匹配相似度包括如下步骤:

将所述目标申请人代入预设的向量计算模型,计算得到所述目标申请人的第一特征向量;

将所有所述候选申请人标签代入所述向量计算模型,计算得到各个所述候选申请人标签的第二特征向量;

计算所述第一特征向量与多个所述第二特征向量之间的余弦相似度,并将所述余弦相似度作为所述目标申请人和多个所述候选申请人标签之间的匹配相似度。

通过采用上述技术方案,通过向量计算模型分别计算出目标申请人和候选申请人标签的词向量,再计算两个词向量之间的余弦相似度作为匹配相似度,余弦相似度越高,说明两个特征向量越相似,进一步说明两个特征向量分别对应的目标申请人和候选申请人标签越匹配。

第二方面,本申请还提供一种数据治理中申请人一致性匹配系统,包括处理器和存储器,所述处理器在运行所述存储器存储的计算机指令时,执行如第一方面中所述的方法。

通过采用上述技术方案,获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

第三方面,本申请还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如第一方面中所述的方法。

通过采用上述技术方案,获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

综上所述,本申请包括以下有益技术效果:

获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

图1是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

图2是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

图3是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

图4是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

图5是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

图6是本申请实施例的数据治理中申请人一致性匹配方法其中一种实施方式的流程示意图。

以下结合附图1至6对本申请作进一步详细说明。

本申请实施例公开了一种数据治理中申请人一致性匹配方法。

参照图1,数据治理中申请人一致性匹配方法包括如下步骤:

S101.获取目标专利文件。

其中,定时从公开专利文件的官方数据库中查询新申请的专利文件,抓取新申请的专利文件作为目标专利文件。

S102.提取目标专利文件中目标申请人的关联信息。

其中,专利文件具有统一的信息格式,根据预设的信息类别关键词可以定位专利文件中对应的信息类,再提取信息类对应的分隔符之后的字符串作为目标申请人的关联信息,信息类别关键词包括发明人、申请人地址、同族专利编号、专利分类号。目标申请人的关联信息包括目标申请人对应的发明人信息、申请地址信息、同族专利信息、专利分类信息中的至少一项。

举例说明,假设专利文件中存在文本信息“专利分类号:G06F”,其中“专利分类号”为专利文件中的一种信息类,“:”为分隔符,“G06F”则为分隔符后的字符串。根据“专利分类号”这一信息类别关键词定位到文本信息中“专利分类号”这一信息类,提取“专利分类号”这一信息类对应分隔符之后的“G06F”字符串作为关联信息中的专利分类信息。

S103.分析目标申请人的申请人类型。

其中,通过构建无限自动机分析目标申请人的申请人类型。

S104.结合申请人类型和关联信息在预设的专利信息数据库中提取多个候选申请人标签。

其中,先通过申请人类型将专利信息数据库中的专利信息进行初步筛选,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,最后提取候选专利信息所匹配对应的申请人标签作为候选申请人标签。

S105.计算目标申请人和多个候选申请人标签之间的匹配相似度。

其中,可以先计算得到目标申请人和候选申请人标签的词向量特征,再进一步计算出目标申请人和候选申请人标签词向量特征之间的余弦相似度,将余弦相似度作为目标申请人和候选申请人标签之间的匹配相似度。

S106.若所有匹配相似度均低于预设的相似度阈值,则基于目标申请人在专利信息数据库中新建目标申请人标签。

其中,预设的相似度阈值通常为80%,将计算得到的所有匹配相似度逐一与相似度阈值进行比对,若所有匹配相似度均低于预设的相似度阈值,则说明目标专利文件的申请人为专利信息数据库中不存在的新申请人,因此需要在专利信息数据库中基于目标申请人新建目标申请人标签。

S107.建立目标专利文件和目标申请人标签之间的索引映射,并将目标专利文件存储至专利信息数据库。

其中,建立目标专利文件和目标申请人标签之间的索引映射后,通过检索查询目标申请人标签所对应的目标申请人,便可检索到目标申请人标签所映射的所有专利文件,即目标申请人所申请的所有专利文件。

S108.若所有匹配相似度中存在高于相似度阈值的匹配相似度,则将最高的匹配相似度所对应的候选申请人标签作为最优申请人标签。

其中,若所有匹配相似度中存在高于相似度阈值的匹配相似度,则说明目标专利文件的申请人在专利信息数据库中已存在对应的申请人标签,而已存在的对应申请人标签即为匹配相似度最高的最优申请人标签。

S109.建立目标专利文件和最优申请人标签之间的索引映射,并将目标专利文件存储至专利信息数据库。

本申请实施例其中一种实施方式的实施原理为:

获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

在本申请实施例的其中一种实施方式中,参照图2,步骤S103具体包括如下步骤:

S201.获取目标申请人的申请人名称文本。

其中,定位目标专利文件中的申请人信息类,再提取申请人信息类对应的文本信息作为申请人名称文本。

S202.分词处理申请人名称文本,得到分词文本集合。

其中,根据申请人名称文本中的文本词性对申请人文本进行分词处理,并将分词后的所有分词文本汇集为分词文本集合。举例说明,假设申请人名称文本为“A市B化工有限公司”,其中“A市”组合词的文本词性为地区,“B”的文本词性为自定义名称,“化工”的文本词性为行业领域,“有限公司”的文本词性为公司类型,因此“A市B化工有限公司”经过分词处理后可以得到[A市,B,化工,有限公司]这一分词文本集合。假设申请人名称文本为姓名,则分词处理后可以得到[姓,名]这一分词文本集合。

S203.基于预设的企业名称数据集构建无限自动机。

其中,预设的企业名称数据集中预先存储有大量的企业名称,可以根据企业名称范式将企业名称数据集中所有企业名称分类为多个分词数据集,再基于多个分词数据集构建出无限自动机。

S204.将分词文本集合代入无限自动机,得到识别结果。

其中,无限自动机(Infinite Automaton)是一种识别装置的抽象概念,它能准确的识别正规数据集。通过预设的企业名称数据集定义无限自动机的结点和路径组合,再使用无限自动机识别分词文本集合,若无限自动机能成功识别分词文本集合,则说明分词文本集合具有企业名称数据集的共性特征;反之,则说明分词文本集合不具有企业名称数据集的共性特征。

S205.根据识别结果判断目标申请人的申请人类型。

其中,申请人类型企业名称类型和个人名称类型,若无限自动机能成功识别分词文本集合,则判定申请人类型为企业名称类型;若无限自动机能未能识别分词文本集合,则判定申请人类型为个人名称类型。

本申请实施例其中一种实施方式的实施原理为:

将申请人名称文本按照文本词性进行分词处理,分词处理后所得到的分词文本集合包含所有不同词性的分词,通过构建的无限自动机可以对分词文本集合进行识别,即使集合中分词的顺序是基于申请人名称文本原始的文本顺序,无不影响无限自动机的判断结果。无限自动机是基于企业名称数据集构建,所以无限自动机可以识别企业名称所分词的分词文本集合,因此根据无限自动机的识别结果可以判断目标申请人的申请人类型。

在本申请实施例的其中一种实施方式中,参照图3,步骤S203具体包括如下步骤:

S301.根据企业名称范式将预设的企业名称数据集中所有企业名称分类为多个分词数据集。

其中,企业名称范式指企业名称命名的统一规范,企业名称范式通常为地区+自定义名称+行业领域+企业属性,企业属性包括“有限公司”、“股份公司”、“事务所”等。因此可以根据企业名称范式作为分词规则对企业名称数据集中的所有企业名称进行分词处理,最终得到分词数据集,分词数据集包括地区分词数据集、自定义分词数据集、行业分词数据集和企业属性分词数据集,其中地区分词数据集包含企业名称数据集中所有企业名称的地区分词,自定义分词数据集包含企业名称数据集中所有企业名称的自定义名称分词,行业分词数据集包含企业名称数据集中所有企业名称的行业领域分词,企业属性分词数据集包含企业名称数据集中所有企业名称的企业属性分词。

S302.以各个分词数据集为整体创建状态结点。

其中,状态结点是构成无限自动机的基础元素,基于每个分词数据集均创建一个状态结点,由于在企业名称中,地区和企业属性通常位于名称中的头尾两端,因此可以将地区分词数据集对应的状态结点作为起始结点,企业属性分词数据集对应的状态结点作为终点结点。

S303.基于所有状态结点构建无限自动机。

其中,以地区分词数据集对应的状态结点作为起始结点,企业属性分词数据集对应的状态结点作为终点结点,并将自定义分词数据集和行业分词数据集对应的状态结点作为中间结点,建立起始结点、中间结点和终点结点之间的结点传输关系,从而构建出用于识别企业名称的无限自动机。

本申请实施例其中一种实施方式的实施原理为:

根据企业名称范式作为分词规则对企业名称数据集中的所有企业名称进行分词处理得到分词数据集,在基于各个分词数据集构建出作为无限自动机基础元素的状态结点,建立状态结点之间的结点传输关系后即可构建出用于识别企业名称的无限自动机。

在本申请实施例的其中一种实施方式中,识别结果包括识别成功结果和识别失败结果,参照图4,步骤S205具体包括如下步骤:

S401.判断识别结果为识别成功结果或识别失败结果,若识别结果为识别成功结果,则执行步骤S402;若识别结果为识别失败结果,则执行步骤S403。

S402.判定目标申请人的申请人类型为企业名称类型。

S403.判定申请人类型为个人名称类型。

本申请实施例其中一种实施方式的实施原理为:

由于无限自动机是基于企业名称数据集所构建,因此无限自动机可以识别企业名称的分词组合,而无法识别个人名称的分词组合,若识别结果为识别成功结果,则说明所识别的申请人名称文本为企业名称;若识别结果为识别失败结果,则说明所识别的申请人名称文本为个人名称。

在本申请实施例的其中一种实施方式中,参照图5,步骤S104具体包括如下步骤:

S501.根据申请人类型在预设的专利信息数据库中进行筛选,得到多个初筛专利信息。

其中,所有存入专利信息数据库中的专利信息均在存入时根据申请人类型进行了分类,并根据不同的申请人类型标记有不同的类别标签,因此可以根据申请人类型在专利信息数据库中检索相同类别标签的专利信息,筛选出的多个专利信息即为初筛专利信息。

S502.将关联信息作为索引对象从多个初筛专利信息中检索出匹配的多个候选专利信息。

其中,关联信息包括目标申请人对应的发明人信息、申请地址信息、同族专利信息、专利分类信息中的至少一项。将关联信息中的至少一项信息作为索引对象在初筛专利信息中对应的关联信息进行检索,若检索到相同的关联信息,则相对应的初筛专利信息即为匹配成功的候选专利信息。举例说明,假设目标申请人对应的发明人信息为A,申请地址信息为B,以A和B作为索引对象检索初筛专利信息对应的发明人信息和申请地址信息,若某一初筛专利信息对应的发明人信息和申请地址信息包含A或B,则该初筛专利信息为匹配成功的候选专利信息。

S503.遍历所有候选专利信息,并逐一提取候选专利信息所匹配对应的候选申请人标签。

其中,遍历所有候选专利信息并提取候选专利信息对应的申请人标签,滤除所提取的申请人标签中的所有重复标签,将剩余标签作为候选申请人标签。

本申请实施例其中一种实施方式的实施原理为:

先根据申请人类型对专利信息数据库中的专利信息进行初步筛选,得到初筛专利信息,再根据关联信息在初筛专利信息中进行进一步检索筛选,得到关联信息匹配的候选专利信息,最终提取候选专利信息对应的申请人标签,并进行去重处理,有效减少了后续申请人匹配计算过程中的计算量和计算时间。

在本申请实施例的其中一种实施方式中,参照图6,步骤S105具体包括如下步骤:

S601.将目标申请人代入预设的向量计算模型,计算得到目标申请人的第一特征向量。

其中,预设的向量计算模型可以为word2vec模型或NNLM模型,向量计算模型可以计算文本的词向量,将目标申请人代入向量计算模型中,计算得到的词向量即为第一特征向量。

S602.将所有候选申请人标签代入向量计算模型,计算得到各个候选申请人标签的第二特征向量。

其中,将候选申请人标签代入向量计算模型中,计算得到的词向量即为第一特征向量。

S603.计算第一特征向量与多个第二特征向量之间的余弦相似度,并将余弦相似度作为目标申请人和多个候选申请人标签之间的匹配相似度。

其中,用向量空间中的两个向量夹角的余弦值作为衡量两个个体间差异大小的度量,值越接近1,就说明夹角角度越接近0°。因此可以计算第一特征向量和第二特征向量之间的余弦相似度,余弦相似度越高,说明两个特征向量越相似,进一步说明两个特征向量分别对应的目标申请人和候选申请人标签越匹配。

本申请实施例其中一种实施方式的实施原理为:

通过向量计算模型分别计算出目标申请人和候选申请人标签的词向量,再计算两个词向量之间的余弦相似度作为匹配相似度,余弦相似度越高,说明两个特征向量越相似,进一步说明两个特征向量分别对应的目标申请人和候选申请人标签越匹配。

本申请实施例还公开一种数据治理中申请人一致性匹配系统,包括处理器和存储器,处理器在运行存储器存储的计算机指令时,执行如图1至图6中所示的方法。

本实施例的实施原理为:

通过程序的调取,获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

本申请实施例还公开一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如图1至图6中所示的方法。

本实施例的实施原理为:

通过程序的调取,获取到目标专利文件后,分析目标专利文件中目标申请人的申请人类型,并提取目标申请人的关联信息,根据申请人类型可以初步筛选专利信息数据库中的专利信息,再根据关联信息从筛选后的专利信息中选取具有关联性的候选专利信息,从而有效减少后续申请人匹配计算过程中的计算量和计算时间。申请人匹配计算过程则是计算目标申请人和多个候选申请人标签之间的匹配相似度,再通过预设的相似度阈值判断专利信息数据库中是否存在与目标申请人匹配的申请人标签,若不存在,则需要新建申请人标签;若存在,则建立目标专利文件与匹配的申请人标签之间的索引映射关系。相较于对专利信息数据库进行遍历检索,经过两层筛选后再进行申请人匹配计算将节省大量的计算时间和算力,并且通过匹配相似度进行申请人匹配计算也具有更高的匹配精准度。

以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

本文发布于:2023-04-12 20:26:30,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/85569.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图