专利文献中的技术问题抽取方法及相关设备

阅读: 评论:0

著录项
  • CN202211242396.1
  • 20221011
  • CN115640375A
  • 20230124
  • 智慧芽信息科技(苏州)有限公司
  • 方艳;王超超;王为磊;屠昶旸;张济徽
  • G06F16/31
  • G06F16/31 G06F40/30 G06F16/35 G06F16/33 G06F40/295 G06N3/04

  • 江苏省苏州市苏州工业园区金鸡湖大道88号人工智能产业园G3-701、G3-801、G3-901、G3-1001单元
  • 江苏(32)
  • 北京布瑞知识产权代理有限公司
  • 秦卫中
摘要
本申请提供一种专利文献中的技术问题抽取方法及相关设备,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。
权利要求

1.一种专利文献中的技术问题抽取方法,其特征在于,包括:

获取目标专利文献的专利内容部分和背景技术部分;

从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。

2.根据权利要求1所述的方法,其特征在于,所述从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,包括:

采用所述技术问题抽取模型从所述专利内容部分抽取得到第一语句抽取结果;

根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题。

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题,包括:

判断所述第一语句抽取结果中是否存在所述技术问题对应的语句,得到第一判断结果;

响应于确定所述第一判断结果为存在所述技术问题对应的语句,根据所述第一语句抽取结果生成所述技术问题抽取结果;

响应于确定所述第一判断结果为不存在所述技术问题对应的语句,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,根据所述第二语句抽取结果生成所述技术问题抽取结果。

5.根据权利要求3所述的方法,其特征在于,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,包括:

采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果;

判断所述第三语句抽取结果中是否存在所述技术问题对应的语句,得到第二判断结果;

响应于确定所述第二判断结果为存在所述技术问题对应的语句,将所述第三语句抽取结果作为所述第二语句抽取结果;

响应于确定所述第二判断结果为不存在所述技术问题对应的语句,对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果。

6.根据权利要求5所述的方法,其特征在于,所述采用所述背景技术抽取模型抽取所述背景技术部分中第二问题特征语句,并对所述第二问题特征语句进行匹配处理,得到第三语句抽取结果,包括:

获取所述背景技术部分中的第二分隔符,并根据所述第二分隔符抽取所述背景技术部分中的多个第二语句;

将所述第二分隔符替换为起始标记和分隔标记;

根据所述起始标记和所述分隔标记采用所述背景技术抽取模型对所述第二语句进行编码,得到与所述第二语句一一对应的句向量;

采用挤压函数对所述句向量进行打分,得到打分结果;

将所述打分结果大于预定分数的第二语句作为所述第二问题特征语句;

根据所述背景技术部分中序列号或预先设置的关键词或基于所述关键词构建的第一正则表达式对所述第二问题特征语句进行匹配,得到第三语句抽取结果。

7.根据权利要求6所述的方法,其特征在于,所述对所述背景技术部分中的语句进行正则匹配,得到所述第二语句抽取结果,包括:

获取所述背景技术部分对应的特征词语;

根据所述特征词语组合构建第二正则表达式;

根据所述第二正则表达式对所述多个第二语句进行匹配,得到所述第二语句抽取结果。

8.根据权利要求3所述的方法,其特征在于,所述根据所述第一语句抽取结果生成所述技术问题抽取结果包括:

采用预先训练得到的实体识别模型对所述第一语句抽取结果进行实体抽取,得到所述技术问题对应的第一单元词;

根据第一单元词中在所述第一语句抽取结果中的位置生成所述技术问题对应的第一短语;

将所述第一语句抽取结果、所述第一单元词和所述第一短语合并作为所述技术问题抽取结果。

10.根据权利要求8或9所述的方法,其特征在于,所述实体识别模型的训练过程包括:

获取所述目标专利文献对应的训练集;

根据双向编码模型和概率图模型构建初始实体识别模型,其中,所述初始实体识别模型包括双向编码层和概率图层;

将所述双向编码层的第一学习率设置为第一预设值;

将所述概率图层的第二学习率设置为第二预设值,其中,所述第一预设值的数量级小于所述第二预设值的数量级;

根据所述第一学习率、所述第二学习率和所述训练集对所述初始实体识别模型进行训练,将训练完成后的初始实体识别模型作为所述实体识别模型。

9.根据权利要求3所述的方法,其特征在于,所述根据所述第二语句抽取结果生成所述技术问题抽取结果包括:

采用预先训练得到的实体识别模型对所述第二语句抽取结果进行实体抽取,得到所述技术问题对应的第二单元词;

根据第二单元词中在所述第二语句抽取结果中的位置生成所述技术问题对应的第二短语;

将所述第二语句抽取结果、所述第二单元词和所述第二短语合并作为所述技术问题抽取结果。

4.根据权利要求2所述的方法,其特征在于,所述技术问题抽取模型包括神经网络模型;

采用所述技术问题抽取模型从所述专利内容部分抽取第一特征语句,得到第一语句抽取结果,包括:

获取所述专利内容部分中的第一分隔符,并根据所述第一分隔符顺序抽取所述专利内容部分中的多个第一语句;

将所述多个第一语句中预定数量的第一语句作为所述神经网络模型的输入;

采用所述神经网络模型对所述多个第一语句进行分类,得到分类结果,其中,所述分类结果包括:第一问题特征语句和非第一问题特征语句,所述第一问题特征语句为抽取所述技术问题所需要的语句;

将所述第一问题特征语句作为所述第一语句抽取结果。

11.一种专利文献中的技术问题抽取装置,其特征在于,包括:

获取模块,被配置为获取目标专利文献的专利内容部分和背景技术部分;

抽取模块,被配置为从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。

12.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至10任意一项所述的方法。

13.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至10任一所述方法。

说明书
技术领域

本申请涉及文本数据分析技术领域,尤其涉及一种专利文献中的技术问题抽取方法及相关设备。

近年来,随着专利文献量的日益递增,对专利文献进行深加工的需求已经越来越迫切。专利文献的主体内容主要包括技术领域、背景技术、发明内容和发明内容、附图说明以及具体实施方式等部分。对专利主体内容进行精细化的解构能有效的帮助用户从海量的专利文献数据中寻目标技术方案。专利文献中的技术问题是描述该专利所在的领域目前存在的未解决的问题、缺陷和不足,专利文献就是针对这些不足之处所做的改进。

通常,对于技术问题的抽取,一般采用基于规则或基于机器学习的方法在整个专利文献中抽取完成。但是,专利文献中的不同部分具有不同的语义特征,所以在基于单个抽取方法对整个专利文献中的技术问题进行抽取时,单个抽取方法对专利文献中的不同部分有不同的方法适应性,造成了抽取技术问题结果的低效率和不准确。

有鉴于此,本申请的目的在于提出一种专利文献中的技术问题抽取方法及相关设备,用以解决或部分解决上述技术问题。

基于上述目的,本申请的第一方面提供了一种专利文献中的技术问题抽取方法,包括:

获取目标专利文献的专利内容部分和背景技术部分;

从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。

本申请的第二方面提供了一种专利文献中的技术问题抽取装置,包括:

获取模块,被配置为获取目标专利文献的专利内容部分和背景技术部分;

抽取模块,被配置为从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。

本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。

本申请的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。

从上面所述可以看出,本申请提供的专利文献中的技术问题抽取方法及相关设备,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。

为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a为背景技术部分中的技术问题的示意图;

图1b为专利内容部分中的技术问题的示意图;

图2a为本申请实施例的专利文献中的技术问题抽取方法的流程示意图;

图2b为步骤202的步骤展开示意图;

图2c为本申请实施例的实体识别模型的训练流程图;

图3为本申请另一个实施例的专利文献中的技术问题抽取方法的流程示意图;

图4a为本申请实施例的专利文献中的技术问题抽取装置的结构示意图;

图4b为本申请实施例的抽取模块的结构示意图;

图5为本申请实施例的电子设备的结构示意图。

为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。

需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

如背景技术所述,专利文献中的技术问题是描述该专利所在的领域目前存在的未解决的问题、缺陷和不足,专利文献就是针对这些不足之处所做的改进。专利技术问题一般出现在专利说明书的“背景技术”和/或“发明内容”的开头部分,并且,也会出现在专利说明书的上述部分中不到专利技术问题的情况。对专利的技术问题进行分析,能够帮助研发人员更清晰的了解一个领域存在的问题和不足,提高了专利分析工作的效率,减少了研发人员调研的工作量,从而推动创新的进程。

技术问题一般存在于“背景技术”或“发明内容”中,根据对技术问题数据分析,在“发明内容”中的技术问题往往表述更为精确、简练。因此,优先从“发明内容”部分抽取,若“发明内容”部分没有抽取到技术问题,再从“背景技术”部分抽取技术问题。根据对专利文献的数据统计,有80%的技术问题存在于“背景技术”中,如图1a所示,专利A技术问题存在于“背景技术”中。另外有20%的专利,其技术问题存在于“发明内容”中。如图1b所示,专利B技术问题存在于“发明内容”中。

对技术问题的抽取,不仅仅只是抽取描述问题的句子,往往还需要短语,词等不同粒度的表述以适应不同的应用场景。其中语句级别的技术问题是最全面完整的描述,短语级别的技术问题是更简练的问题描述,而词级别的技术问题适合对批量专利进行问题聚类分析。因此,技术问题的抽取首先需要在专利文献中定位到专利问题描述句,再从语句里抽取问题短语和问题词。从而形成从粗到细的完整技术问题抽取结果。

目前,还没有一套完整的,抽取不同粒度技术问题的方法和系统,最常见的抽取系统是直接抽取句子或词,忽略的短语级别的技术问题抽取。而抽取句子和词级别的技术问题,最常见的抽取方法包括基于规则的抽取方法以及基于传统机器学习的抽取方法,这两类方法抽取的效果比较差,早已不能满足精度需求。

基于规则的抽取方法:主要通过制定关联规则、情感词典、主题词词典进行抽取,或者利用句法规则进行抽取加文本过滤的方式。该方法需要耗费大量的时间来制定规则和词典,不仅耗时耗力,而且存在效率低、工作周期长以及人工成本高的缺点。

基于传统机器学习的抽取方法:该方法主要通过传统的机器学习分类算法和信息抽取方法来抽取技术问题,包括最大熵模型,条件随机场、支持向量机等算法。但是这类方法需要人工进行复杂的特征工程,特征选择的好坏直接决定了模型的效果。该方法不适合数据量大的专利信息抽取任务,并且抽取的准确率也不高。

因此,传统的技术问题抽取方法往往只关注技术问题句子或技术问题词,目前缺少一套从粗到细(从技术问题句,到技术问题短语,再到技术问题词),完整的提取技术问题的系统。并且,传统的方法抽取精度和成本都存在很大的缺陷。

如图2a所示,本实施例的方法包括:

步骤201,获取目标专利文献的专利内容部分和背景技术部分。

在该步骤中,目标专利文献指的是针对技术问题所做的改进文献。本实施例优选的目标专利文献可以是包括技术问题的,针对技术问题所述的改进文献。专利内容部分指的是表示具体如何解决技术问题的部分,本实施例优选的专利内容部分可以是目标专利文献中,表示具体如何解决技术问题的部分。背景技术部分指的是表示专利技术方案背景的部分,本实施例优选的背景技术部分可以是目标专利文献中,表示专利技术方案背景的部分。例如,目标专利文献可以是发明专利或发明专利的说明书部分,专利内容部分可以是说明书部分中标注有“发明内容”或“发明内容”标签的段落,背景技术部分可以是说明书部分中标注有“背景技术”标签的段落。这样,为后续技术问题的提取提供数据基础。

步骤202,从所述专利内容部分或所述背景技术部分中抽取技术问题,得到技术问题抽取结果,其中,采用预先构建的技术问题抽取模型从所述专利内容部分抽取所述技术问题,所述技术问题抽取模型为根据所述专利内容部分的语义特点构建得到的。

在该步骤中,技术问题抽取模型指的是能够从文本数据中抽取技术问题的模型,本实施例优选的技术问题抽取模型可以是能够从专利内容部分或背景技术部分对应的文本数据中抽取技术问题的模型。例如,技术问题抽取模型可以是基于神经网络构建的模型,也可以是结合目标专利文献中文本数据特点构建的模型,还可以是结合目标专利文献中文本数据特点构建的神经网络模型。

通过上述方案,目标专利文献的专利内容部分和背景技术部分中出现的关于技术问题的表述具有不同的语义特点,其中,专利内容部分包括发明内容和发明内容。根据专利内容部分中的句子具有固定表述的语义特点,预先构建技术问题抽取模型,采用该技术问题抽取模型从专利内容部分抽取技术问题,避免了直接采用技术问题抽取模型从背景技术部分抽取技术问题,从而消除了专利内容部分和背景技术部分之间的段落差异对技术问题抽取模型的影响,进而提高了技术问题抽取的有效性和精确性。

在一些实施例中,如图2b所示,步骤202具体包括:

步骤2021,采用所述技术问题抽取模型从所述专利内容部分抽取得到第一语句抽取结果。

步骤2022,根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题。

在上述方案中,第一语句抽取结果指的是抽取技术问题所需要的语句,本实施例优选的第一语句抽取结果可以是通过技术问题抽取模型获取到的,抽取技术问题所需要的语句。

通过上述方案,为后续是否从背景技术部分抽取所述技术问题提供判断基础。

在一些实施例中,所述根据所述第一语句抽取结果是否存在所述技术问题对应的语句确定是否从所述背景技术部分抽取所述技术问题,包括:

步骤20221,判断所述第一语句抽取结果中是否存在所述技术问题对应的语句,得到第一判断结果。

步骤20222,响应于确定所述第一判断结果为存在所述技术问题对应的语句,根据所述第一语句抽取结果生成所述技术问题抽取结果。

步骤20223,响应于确定所述第一判断结果为不存在所述技术问题对应的语句,采用背景技术抽取模型从所述背景技术部分抽取技术问题,得到第二语句抽取结果,根据所述第二语句抽取结果生成所述技术问题抽取结果。

在上述方案中,第一判断结果指的是第一语句抽取结果中是否存在技术问题对应的语句,本实施例优选的第一判断结果可以是抽取技术问题所需要的语句是否是技术问题对应的语句。第二语句抽取结果指的是背景技术部分中技术问题对应的语句,本实施例优选的第二语句抽取结果可以是通过背景技术抽取模型获取的,背景技术部分中技术问题对应的语句。

本文发布于:2023-03-13 01:37:04,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68755.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图