一种用于专利数据中申请人公司名称消歧的方法

阅读: 评论:0

著录项
  • CN202110245682.2
  • 20210305
  • CN112926328A
  • 20210608
  • 西安循数信息科技有限公司
  • 孙笑明;熊旺;王雅兰;马浩智
  • G06F40/295
  • G06F40/295 G06K9/62 G06F40/157

  • 陕西省西安市雁塔区雁翔路99号西安交大博源科技广场C座414
  • 陕西(61)
  • 西安铭泽知识产权代理事务所(普通合伙)
  • 张举
摘要
本发明提供了一种用于专利数据中申请人公司名称消歧的方法,属于数据处理领域,包括:拆分申请人数据的申请人名称,获取申请人公司名集合;将所获取的申请人公司名集合进行遍历,去除公司名中的地名、附加前缀与后缀;按照公司专利数量进行倒序排序,根据排序结果对步骤2处理后的公司名集合使用莱文斯坦距离比较字符串对的相似程度,以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合;将字符串比较结果进行整理,根据已知数据集对参数阈值进行调整,计算出能够筛选出有母子公司关系的公司集合的阈值;用户比对计算结果,判断计算结果是否符合其需求。该方法消歧效率大幅度提升,精准度更高,更具科学性。
权利要求

1.一种用于专利数据中申请人公司名称消歧的方法,其特征在于,包括以下步骤:

步骤1、导入或选择专利数据;根据导入或者选择的专利数据,拆分申请人数据的申请人名称,将申请人名称数据用分隔符号进行切割,获取申请人公司名集合;

步骤2、将所获取的申请人公司名集合进行遍历,去除公司名中的地名、附加前缀与后缀,将去除的地名、附加前缀与后缀数据保留在数据库中的字典表中,根据实际要求进行调整;

步骤3、按照公司专利数量进行倒序排序,根据排序结果对步骤2处理后的公司名集合使用莱文斯坦距离比较字符串对的相似程度,以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合;

步骤4、将字符串比较结果进行整理,根据已知数据集对参数阈值进行调整,计算出能够筛选出有母子公司关系的公司集合的阈值;通过这种方式重复计算同时结合专家经验调整阈值,得到最终的阈值,依照阈值提取相似程度大于阈值的公司名对组成集合进行保存;

步骤5、用户比对计算结果,判断计算结果是否符合其需求;如果符合,则提取专利数据中涉及到该公司名集合的数据并替换其数据中申请人公司名,如果不符合,则不进行替换。

2.根据权利要求1所述的用于专利数据中申请人公司名称消歧的方法,其特征在于,所述步骤3使用莱文斯坦距离比较字符串对的相似程度具体操作为:

以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合,将字符串A变成B、或者将B变成A,通过插入或者删除一个字符所需要做的最少次数变换,因此其相似比例可以计算为:

(比较的字符串长度之和-莱文斯坦距离)/比较的字符串长度之和=0.8;相似程度在阈值以上的公司名加入相似公司名集合同时在公司名集合中去除该公司名;如此迭代执行,直至计算完所有公司名。

说明书
技术领域

本发明属于数据处理领域,具体涉及一种用于专利数据中申请人公司名称消歧的方法。

申请人公司名称歧义问题即母子公司关系不确定问题,实际上是对于同一条专利数据而言,申请人公司名称中包含两个或两个以上名称相近的公司时,专利权产生及归属变得相对复杂。为了简化并明确这一母子公司关系,强化对申请人之间的实际合作关系的广泛利用,需要对申请人公司名称进行高效消歧。同时在专利大数据分析之前,要对申请人中公司名称进行消歧清洗,即对母子公司名称进行科学、自动高效区分,以保证后续专利大数据利用过程中以公司为基础的合作网络、知识网络构建及其指标计算的准确度。

然而,现有同一公司的专利数据中申请人公司名称消歧还没有针对性的技术。其原因主要在于母子公司之间关系的不稳定性,尤其是考虑公司战略行为对其带来的影响时。因此,在实际开发活动中,数据使用者一般会综合参考公司的投资者关系、上市公司数据库中的企业组织变动信息以及NBER等数据库中所提供的相关信息进行手动清洗。虽然这种消歧方法在一定程度上可以保证申请人公司名称的消歧质量,且对于小型的数据样本而言,消歧的时间成本可控。但随着专利数据量的不断增加,此种做法出错误的概率和复杂程度均会显著提高,消歧效率过低的问题就会迅速开始显现。当数据量级为专利大数据时,此种做法的可行性已不存在。因此,需要设计高性能的消歧方法来解决该问题由于中国专利数据中中国企业的组织关系变动频繁、公司子母关系层级问题尤为复杂,所以根据中国企业特点开发相关技术具有很强的必要性。基于此,本申请提出一种用于专利数据中申请人公司名称消歧的方法。

为了克服上述现有技术存在的不足,本发明提供了一种用于专利数据中申请人公司名称消歧的方法。

为了实现上述目的,本发明提供如下技术方案:

一种用于专利数据中申请人公司名称消歧的方法,包括以下步骤:

步骤1、导入或选择专利数据;根据导入或者选择的专利数据,拆分申请人数据的申请人名称,将申请人名称数据用分隔符号进行切割,获取申请人公司名集合;

步骤2、将所获取的申请人公司名集合进行遍历,去除公司名中的地名、附加前缀与后缀,将去除的地名、附加前缀与后缀数据保留在数据库中的字典表中,根据实际要求进行调整;

步骤3、按照公司专利数量进行倒序排序,根据排序结果对步骤2处理后的公司名集合使用莱文斯坦距离比较字符串对的相似程度,以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合;

步骤4、将字符串比较结果进行整理,根据已知数据集对参数阈值进行调整,计算出能够筛选出有母子公司关系的公司集合的阈值;通过这种方式重复计算同时结合专家经验调整阈值,得到最终的阈值,依照阈值提取相似程度大于阈值的公司名对组成集合进行保存;

步骤5、用户比对计算结果,判断计算结果是否符合其需求;如果符合,则提取专利数据中涉及到该公司名集合的数据并替换其数据中申请人公司名,如果不符合,则不进行替换。

优选地,所述步骤3使用莱文斯坦距离比较字符串对的相似程度具体操作为:

以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合,将字符串A变成B、或者将B变成A,通过插入或者删除一个字符所需要做的最少次数变换,因此其相似比例可以计算为:

(比较的字符串长度之和-莱文斯坦距离)/比较的字符串长度之和=0.8;相似程度在阈值以上的公司名加入相似公司名集合同时在公司名集合中去除该公司名;如此迭代执行,直至计算完所有公司名。

本发明提供的用于专利数据中申请人公司名称消歧的方法具有以下有益效果:

本发明根据中国专利数据中申请人公司名称特点设计,主要应用于中国专利大数据清洗;主要根据相似度计算母子公司的相似度值,将相似度值与给定置信区间的阈值进行比较,进而根据比较结果判断母子公司关系;与现有手工消歧效果相比,消歧效率大幅度提升,精准度更高,更具科学性;与现有国外消歧技术相比,在应用范围上进一步拓展,对中国专利大数据中申请人公司母子关系区分提供了重要思路和方法。

为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1的用于专利数据中申请人公司名称消歧的方法的流程图。

为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

实施例1

该方法主要用于中国专利大数据中申请人公司名称的消歧。在企业的发展和战略执行过程中,会出现许多子公司,这些子公司所申请的专利虽然来自于其研发活动,但在法律上也同时隶属于母公司,且母公司是第一申请人。这样,在未知公司具体注册信息以及投资者关系情况下,如何根据专利数据中申请人公司名称来区分公司的母子关系尤为重要,如京东方科技有限公司与北京京东方信息有限公司的母子关系问题。该问题解决将有助于发明人的流动性识别、申请人之间关系网络构建及其指标计算等。

本发明提供了一种用于专利数据中申请人公司名称消歧的方法,具体如图1所示,包括以下步骤:

步骤1、导入或选择专利数据,根据导入或者选择的专利数据,拆分申请人数据的申请人名称(一般为公司名),将申请人名称数据用分隔符号进行切割(根据不同专利数据的数据格式有不同的切割方式,比如中国专利数据中申请人名是以分号做切割),获取申请人公司名集合;

步骤1中的数据源有两部分一部分是用户导入的专利数据,一部分是用户选择专利数据库中的数据,比如按时间或者公司名模糊查询到的数据;

步骤2、将所获取的申请人公司名集合进行遍历,去除公司名中的地名、附加前缀与后缀,将去除的地名、附加前缀与后缀数据保留在数据库中的字典表中,根据实际要求进行调整;

步骤3、按照公司专利数量进行倒序排序,根据排序结果对步骤2处理后的公司名集合使用莱文斯坦距离比较字符串对的相似程度,以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合;

步骤4、将字符串比较结果进行整理,根据已知数据集对参数阈值进行调整,计算出能够筛选出有母子公司关系的公司集合的阈值;通过这种方式重复计算同时结合专家经验调整阈值,得到最终的阈值,依照阈值提取相似程度大于阈值的公司名对组成集合进行保存;将字符串比较结果进行整理,根据已知数据集对参数阈值;其中,已知数据集是指收集的数据集,参数阈值是指公司名的相似程度值设定在多少能够识别母子公司;根据专家头脑风暴以及训练数据集计算阈值;

比如计算数据集中京东方公司的公司名集合的相似程度然后比较京东方查询的公司关系集合,可以计算在什么阈值下能够较好的筛选出有母子公司关系的公司集合,通过这种方式重复计算同时结合专家经验调整阈值,使分类结果能够稳定,得到最终的阈值;然后依照阈值提取相似程度大于阈值的公司名对组成集合进行保存;

步骤5、用户比对计算结果,判断计算结果是否符合其需求;如果符合,则提取专利数据中涉及到该公司名集合的数据并替换其数据中申请人公司名,如果不符合,则不进行替换。

具体的,本实施例中步骤3使用莱文斯坦距离比较字符串对的相似程度具体操作为:

以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合,将字符串A变成B、或者将B变成A,通过插入或者删除一个字符所需要做的最少次数变换,如将‘京东’变为‘京东方’,可以在‘京东’后面加一个‘方’字,因此其相似比例可以计算为:

(比较的字符串长度之和-莱文斯坦距离)/比较的字符串长度之和=0.8;相似程度在阈值以上的公司名加入相似公司名集合同时在公司名集合中去除该公司名;如此迭代执行,直至计算完所有公司名。莱文斯坦距离是比较成熟的比较字符串相似程度的指标,经实际效果检验,其相较于其他字符串比较算法简单、高效,因此此处使用莱文斯坦距离进行字符串相似程度比较。

在该方法中会根据公司名进行相应的调整,如公司名为大学或者研究所时由于有些大学名或研究所会直接以地名命名如北京大学、上海光学研究所,因此方法会对这些数据进行分类数量,在识别到包含有大学、研究所等字段时不会进行前缀后缀、地名的处理。

另外在该方法中是以专利数量较多的公司作为初始比较字符串,如果出现子公司专利数量比母公司专利数量多的情形时,按照该方法仍可以计算公司关系,因为该方法已经提前去除前缀、后缀、地名等影响字段,如果母子公司名相似程度较高,则不会影响计算结果。

公司名相似程度阈值的计算是根据已有公司关系集训练而来。需提前搜索了大量存在母子公司关系的数据,然后使用该方法进行半监督学习操作获取最终的阈值。

下面通过一个具体的实施例进一步说明本实施例提供的消岐算法,实施步骤如下:

S1、构建训练集,如图类似:

S2、根据训练集计算去除公司名中前缀、后缀后公司名的相似度,并结合专家头脑风暴法确定相似度设定为什么值能够较好的区分公司之间是否存在母子公司关系。

S3、用户导入专利数据后,根据导入或者选择的专利数据获取申请人公司名集合,并去除公司名中的地名、附加前缀与后缀。如北京京东方有限公司,需去除北京,有限公司,去除后的公司名为京东方;此处去除的地名、前缀与后缀均保留在数据库中的字典表中,可根据实际要求进行调整;根据实际需求分析,用户导入的专利数据多是在其他专利数据库中根据包含有公司名文本进行搜索获取的,其中可能既有母公司又包含子公司,如搜索京东方会出现京东方集团有限公司、合肥京东方有限公司、北京京东方有限公司,按照一般情形,公司主体专利会有母公司持有因此母公司的专利数量会较多;

S4、按照公司专利数量进行倒序排序,根据排序结果对步骤3处理后的公司名集合使用莱文斯坦距离比较字符串对的相似程度,以排序在前的公司名作为标准比较字符串遍历比较后续公司名集合,

S5、如果计算结果大于设定阈值,则保存结果。

以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。

本文发布于:2023-04-12 23:37:24,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/85658.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图