专利附图标记说明输出方法及用于其的装置、系统

阅读: 评论:0

著录项
  • CN202180028853.4
  • 20210414
  • CN115427944A
  • 20221202
  • 韦尔特智力株式会社
  • 张荣珍;尹政镐;朴奎学
  • G06F16/583
  • G06F16/583 G06F40/103 G06F40/166 G06F9/451 G06V10/10

  • 韩国首尔
  • 韩国(KR)
  • 20200414 KR10-2020-0045054;20200414 KR10-2020-0045051
  • 北京同立钧成知识产权代理有限公司
  • 延美花;臧建明
  • 20221014
摘要
根据本发明的一个实施例的专利附图标记识别方法可包括通过学习多个专利附图样本构建附图标记位置识别模型及附图标记识别模型的步骤;接收作为附图标记识别对象的专利附图的步骤;利用所述附图标记位置识别模型识别包含于所述专利附图的附图标记的位置的步骤;从所述专利附图将识别到的所述位置的附图标记截取成图像切块的步骤;以及利用所述附图标记识别模型识别包含于所述图像切块的附图标记的步骤。
权利要求

1.一种专利附图标记识别方法,其中,包括:

通过学习多个专利附图样本构建附图标记位置识别模型及附图标记识别模型的步骤;

接收作为附图标记识别对象的专利附图的步骤;

利用所述附图标记位置识别模型识别包含于所述专利附图的附图标记的位置的步骤;

从所述专利附图将识别到的所述位置的附图标记截取成图像切块的步骤;以及

利用所述附图标记识别模型识别包含于所述图像切块的附图标记的步骤。

2.根据权利要求1所述的专利附图标记识别方法,其中,构建所述附图标记位置识别模型的步骤包括:

利用全卷积网络(Fully Convolutional Network,FCN)识别包含于所述多个专利附图样本的附图标记的位置的步骤;

从识别到的所述附图标记的位置提取共同的特征的步骤;以及

根据提取的所述共同的特征构建所述附图标记位置识别模型的步骤。

3.根据权利要求2所述的专利附图标记识别方法,其中,构建所述附图标记识别模型的步骤包括:

利用所述附图位置识别模型识别包含于所述多个专利附图样本的附图标记的位置的步骤;

从所述多个专利附图样本将识别到的所述位置的附图标记截取成图像切块的步骤;

利用卷积递归神经网络(Convolution Recurrent Neural Network,C-RNN)识别包含于截取的各所述图像切块的附图标记的步骤;

从识别到的所述附图标记提取共同的特征的步骤;以及

根据提取的所述共同的特征构建所述附图标记识别模型的步骤。

4.根据权利要求3所述的专利附图标记识别方法,其中,识别所述附图标别的步骤包括:

以预设的数的单位汇集图像切块生成一个图像的步骤;以及

利用所述卷积递归神经网络识别包含于所述一个图像的多个附图标记的步骤。

5.根据权利要求1所述的输出关于专利附图标记的附图标记说明的方法,其中,包括:

从对应于所述专利附图的专利说明书提取与识别到的所述附图标记对应的附图标记说明的步骤;

识别所述专利附图的大小及包含于所述专利附图内的所述附图标记的位置以获取所述附图标记在所述专利附图内的相对位置坐标的步骤;

生成大小与所述专利附图相同的图像的步骤;以及

将所述图像重叠(overlap)在所述专利附图上之后固定于所述专利附图的步骤;

对所述附图标记说明分配与获取到的所述相对位置坐标对应的位置的相对位置坐标的步骤;

在所述图像上分配于所述附图标记说明的相对位置坐标显示所述附图标记说明的步骤;以及

输出显示由所述附图标记说明的图像的步骤。

6.根据权利要求5所述的专利附图标记识别方法,其中,提取所述附图标记说明的步骤包括:

基于文本挖掘技术利用多个专利说明书样本确立附图标记说明提取规则的步骤;以及

基于确立的所述附图标记说明提取规则在所述专利说明书提取所述附图标记说明的步骤。

7.根据权利要求6所述的专利附图标记识别方法,其中,确立所述附图标记说明提取规则的步骤包括:

按申请国家对所述多个专利说明书样本进行分类的步骤;

按分类的所述申请国家提取共同的特征的步骤;以及

根据提取的所述特征确立所述附图标记说明提取规则的步骤。

8.根据权利要求7所述的专利附图标记识别方法,其中:

提取所述共同的特征的步骤为根据以所述附图标记为基准的所述附图标记说明的相对位置、适用于所述附图标记说明的书写格式及申请年度中至少一个提取所述共同的特征的步骤。

9.根据权利要求8所述的专利附图标记识别方法,其中,所述附图标记说明提取规则是基于以所述附图标记为基准的所述附图标记说明的相对位置确立的情况下,提取所述附图标记说明的步骤包括:

从所述专利说明书搜索被识别到的所述附图标记的步骤;

根据所述附图标记说明提取规则预计以搜索到的所述附图标记为基准的所述附图标记说明的相对位置的步骤;以及

提取预计的所述位置的文字作为所述附图标记说明的步骤。

10.根据权利要求9所述的专利附图标记识别方法,其中,还包括:

提取到多个所述附图标记说明的情况下,从所述专利说明书搜索提取到多个的所述附图标记说明的步骤;以及

将搜索出的量最多的附图标记说明确定为最终附图标记说明的步骤。

11.根据权利要求6所述的专利附图标记识别方法,其中,还包括:

为了提高所述附图标记说明的提取准确度而完善提取到的所述附图标记说明的步骤。

12.根据权利要求11所述的专利附图标记识别方法,其中,还包括:

从所述专利说明书搜索根据确立的所述附图标记说明提取规则利用所述多个专利说明书样本提取的附图标记说明的步骤;

将未从所述专利说明书搜索到的附图标记说明分类为发生错误的附图标记说明的步骤;

从分类的所述附图标记说明提取共同的特征以确立错误提取规则的步骤;以及

基于确立的所述错误提取规则判断从所述专利说明书提取的附图标记说明是否有误的步骤。

13.根据权利要求12所述的专利附图标记识别方法,其中:

根据所述共同的特征的步骤为提取数字或字母是否被提取成所述字母或所述数字、所述附图标记说明中是否包含预设的词类及所述附图标记说明中是否含有符号中至少一个提取所述共同的特征的步骤。

14.根据权利要求12所述的专利附图标记识别方法,其中,判断出提取到的所述附图标记说明有误的情况下,完善提取到的所述附图标记说明的步骤包括:

删除提取到的所述附图标记说明中的所述错误或用其他文字代替的步骤。

15.根据权利要求12所述的专利附图标记识别方法,其中,还包括:

学习确立的所述附图标记说明提取规则及确立的所述错误提取规则以构建附图标记说明提取模型的步骤。

18.根据权利要求5所述的专利附图标记识别方法,其中:

将识别到的所述附图标记及识别到的所述附图标记说明相互匹配存储到数据库以构建专利附图检索数据库的步骤。

16.根据权利要求1所述的专利附图标记识别方法,其中,包括:

从对应于所述专利附图的专利说明书搜索识别到的所述附图标记的步骤;

从所述专利说明书搜索出识别到的所述附图标记的情况下,将识别到的附图标记确定为最终附图标记的步骤;以及

未从所述专利说明书搜索出识别到的所述附图标记的情况下,将所述专利说明书内的与识别到的所述附图标记的形状相似度为预设的比率以上的文字确定为所述最终附图标记的步骤。

17.根据权利要求1所述的专利附图标记识别方法,其中,还包括:

从对应于所述专利附图的专利说明书识别附图标记的步骤;

判断通过所述专利附图识别到的附图标记中是否有从所述专利说明书识别到的附图标记匹配的附图标记的步骤;

有匹配的附图标记的情况下,将从所述专利说明书识别到的附图标记确定为最终附图标记的步骤;以及

没有匹配的附图标记的情况下,将通过所述专利附图识别到的附图标记中与从所述专利说明书识别到的附图标记的形状相似度为预设的比率以上的附图标记确定为所述最终附图标记的步骤。

19.一种网络服务器,其识别专利附图标记,其中,包括:

通信单元,其使用至少一个通信协议执行通信;

存储器单元,其存储数据;以及

处理器,其控制所述通信单元及所述存储器单元,

所述处理器用于:

通过学习多个专利附图样本构建附图标记位置识别模型及附图标记识别模型,

接收作为附图标记识别对象的专利附图,

利用所述附图标记位置识别模型识别包含于所述专利附图的附图标记的位置,

从所述专利附图将识别到的所述位置的附图标记截取成图像切块,

利用所述附图标记识别模型识别包含于所述图像切块的附图标记。

20.一种专利附图标记识别及附图标记说明输出方法,其中,包括:

接收专利附图的步骤;

识别包含于所述专利附图的附图标记的位置的步骤;

识别所识别到的所述附图标记的位置的附图标记的步骤;

获取所述附图标记在所述专利附图内的相对位置坐标的步骤;

生成大小与所述专利附图相同的图像的步骤;

在所述专利附图上重叠(overlap)所述图像后固定于所述专利附图的步骤;

将对应于获取到的所述相对位置坐标的位置的坐标作为关于所述图像的相对位置坐标分配于与所述附图标记对应的附图标记说明的步骤;

在所述图像上分配于所述附图标记说明的相对位置坐标显示所述附图标记说明的步骤;以及

输出显示有所述附图标记说明的图像的步骤。

说明书
技术领域

专利附图标记说明输出方法及用于其的装置、系统。

论文、专利文献之类的知识信息内容通常由大量的页面构成。这种内容包括附图、数学式及对其进行说明的文本,尤其因为书写格式的限制而经常出现附图和与其相关的文本位于不同页面的情况。因此存在内容阅读者为了理解关于附图或数学式的说明而前后交替地多次查看页面,为了获取知识信息而需要付出超出必要的时间及努力的问题。

近来为了解决这些问题,提供了一种利用光学文字识别技术(Optical CharacterReco gnition,OCR)精确识别知识信息内容上的文字及/或数字以提高对内容内部所需信息的访问速度的方法。然而该方法也只是提供单纯的基于文字的搜索功能,因此难以迅速获取与附图相关的信息。

尽管如此,目前还没有利用内容的书写格式结构信息提取附图与内容的关联信息,以附图为中心的内容分析方法,从而目前还没有能够迅速获取知识信息的方案。

技术问题

为此,本发明要解决的技术问题是提供一种用于以附图信息为中心有效地分析知识信息内容的方案。

具体来讲,本发明要解决的技术问题是提供一种通过对附图标记的光学文字读取及/或机器学习识别与附图标记联动的文字(尤其,附图标记说明)的方法及装置。

并且/或者,本发明要解决的另一技术问题是提供一种不仅根据附图标记搜索文字(尤其,附图标记说明),而且根据文字搜索附图的方法。

具体来讲,本发明要解决的另一技术问题是根据与附图标记联动的文字(尤其,附图标记说明)过滤包含所述附图标记的所有附图以提供以附图为中心的内容分析方法。

并且/或者,本发明要解决的又一技术问题是在附图上标有附图标记的区域配置与之匹配的附图标记说明以便向用户提供直观的附图相关信息。

具体来讲,本发明要解决的又一技术问题是提供一种随附图的状态变更适应性地将附图标记说明配置/移动到适当的区域的方案。

本发明要解决的技术问题不限于以上所述的技术问题,本发明技术领域所属的普通技术人员可通过以下记载明确理解未记载的其他技术问题。

技术方案

根据本发明的一个实施例的专利附图标记识别方法可包括:通过学习多个专利附图样本构建附图标记位置识别模型及附图标记识别模型的步骤;接收作为附图标记识别对象的专利附图的步骤;利用所述附图标记位置识别模型识别包含于所述专利附图的附图标记的位置的步骤;从所述专利附图将识别到的所述位置的附图标记截取成图像切块的步骤;以及利用所述附图标记识别模型识别包含于所述图像切块的附图标记的步骤。

技术效果

根据本发明的一个实施例,用附图标记说明代替显示于附图的标记进行显示,因此具有从用户立场上能够通过附图更轻易、直观地获取发明信息的优点。尤其,能够根据附图标记说明过滤所有相关附图,因此能够通过对过滤的附图的集中分析实现对知识信息内容的以附图为中心的分析。

并且,根据本发明的另一实施例,根据附图标记说明,不仅能够视觉识别包含该附图标记说明的附图,还能够识别文章及段落。因此用户能够在大量的文本上以附图标记说明为介质迅速切入所需的信息。

并且,根据本发明的又一实施例,在附图放大、缩小、移动、放大之类的状态变更的情况下仍旧将附图标记说明配置在状态发生变更的附图内的可读性高的区域,因此在各种分析环境下仍可提供通过附图分析知识信息内容的便利性。

发明的效果不限于上述效果,本发明技术领域的普通技术人员可通过以下记载明确理解未提到的其他效果。

图1为例示根据本发明的一个实施例的专利附图提供实施例的附图。

图2为关于根据本发明的一个实施例的附图标记识别方法的流程图。

图3为例示根据本发明的一个实施例的附图标记识别模型构建方法的附图。

图4为关于根据本发明的一个实施例的附图标记说明提取方法的流程图。

图5为例示根据本发明的一个实施例的附图标记说明提取实施例的附图。

图6为例示根据本发明的一个实施例的输出对应于附图标记的附图标记说明的方法的流程图。

图7为例示根据本发明的一个实施例的利用SVG(Scalable Vector Graphics,可伸缩矢量图形)图像的附图标记说明输出方法的流程图。

图8为例示根据本发明的一个实施例的利用SVG图像的附图标记说明输出方法的附图。

图9为例示根据本发明的一个实施例的利用SVG图像的附图标记说明输出方法的附图。

图10为例示根据本发明的一个实施例的专利文献的附图。

图11为例示根据本发明的一个实施例的附图标记及附图标记说明相互联动的附图界面的附图。

图12为例示根据本发明的一个实施例的附图标记及附图标记说明相互联动的附图界面的附图。

图13例示根据本发明的一个实施例的关键字设置界面。

图14为例示根据本发明的一个实施例的以附图标记说明为介质的类别间联动实施例的附图。

图15为例示根据本发明的一个实施例的以附图标记说明为介质的类别间联动实施例的附图。

图16为例示根据本发明的一个实施例的专利信息检索系统的附图。

图17为根据本发明的一个实施例的网络服务器的框图。

可对以下说明的技术施加各种变更,可具有多种实施例,在附图中例示特定实施例并在说明书中进行具体说明。但应理解其目的并非将以下说明的技术限定于特定的实施方式,而是包括包含于以下说明的技术的思想及技术范围的所有变更、等同物及替代物。

第一、第二、A、B等术语可用于说明各种构成要素,但相应构成要素不得受限于所述术语,其使用目的在于使得一个构成要素区分于其他构成要素。例如,在不脱离以下说明的技术的权利范围的前提下,可以将第一构成要素命名为第二构成要素,类似地,也可以将第二构成要素命名为第一构成要素。术语“及/或”表示多个相关记载的项目的组合或多个相关记载的项目中的任意项目。例如,‘A及/或B’可被解释为‘A或B中至少一个’的意思。并且,‘/’可被解释为‘及’或‘或’。

本申请中使用的术语中单数型表述在文中无明确的其他解释的情况下,应理解为还包括复数型表述。应理解“包括”等术语表示存在所记载的特征、个数、步骤、动作、构成要素、部件或其组合,而并非预先排除一个或多个其他特征、个数、步骤、动作、构成要素、部件或其组合的存在或附加可能性。

在对附图进行详细说明之前,先要明确的是本说明书中对构成部的区分只是按照构成部所负责的主要功能区分的。即,以下要说明的两个以上的构成部可合为一个构成部或一个构成部按照更细分的功能分化成两个意思。并且,以下要说明的各个构成部除了自身负责的主要功能意外还可以进一步实施执行其他构成部负责的功能中一部分或全部功能,但显然还可以是各个构成部负责的主要功能中部分功能由其他构成部专门负责执行。

并且,在执行方法或工作方法时,文中没有对构成所述方法的各过程明确限定特定顺序的前提下,可按照不同于明示的顺序的顺序执行。即,各个过程可按照明示的顺序执行,也可以实质上同时执行,也可以按照相反的顺序执行。

图1为例示根据本发明的一个实施例的专利附图提供实施例附图。

更详细来讲,图1(a)为例示一般的专利附图提供实施例的附图,图1(b)为根据本发明的一个实施例用附图标记说明替代附图标记的专利附图提供实施例。

论文、专利文献之类的知识信息内容使用大量附图作为用于向用户更容易、直观地说明信息的手段。用户可通过同时了解附图及对该附图的说明更容易、高效地了解知识信息内容的详细内容。然而,知识信息内容通常由大量的页面构成,因此用户为了同时了解附图及对附图的说明需要交替来回地翻读页面。因此,成为用户容易、高效地了解知识信息内容的详细内容的极大妨碍要素。

尤其,是知识信息内容中专利文献附图的情况下,通常如图1(a)对各构成要素添加附图标记进行说明,这种附图标记是发明人为了便于对附图进行说明而任意添加的,因此具有没有规律性且每个专利文献极具有极大差异的特点。因此,用户为了了解附图内容(尤其,关于各附图标记的说明),同时了解附图和附图说明极为重要。然而,这不仅给用户造成不便,而且还具有增加时间及费用消耗的问题。

为此,在本说明书中提出一种如图1(b)直接用对应于各附图标记的附图标记说明替代提供附图标记以便用户能够通过附图更容易、高效地了解发明的专利附图提供技术。

这种专利附图提供技术可大致分为以下三种技术。

1.附图标记识别技术

2.附图标记说明提取技术

3.用提取的附图标记说明替代所识别到的附图标记的技术

关于上述1至3的技术,可根据实施例汇总为一个技术依次执行,或各自作为独立的技术独立执行/调用。以下参见各附图对所述1至3的技术进行详细说明。

以应用于提供专利文献检索服务的网页的情况为基准对本说明书提出的专利附图提供技术进行说明。因此可以解释为以下记载的实施例由管理/运行专利文献检索网站的网络服务器执行。但不限于此,本说明书的实施例还可以应用于提供专利文献检索服务的程序、应用等,该情况下可以将网站替代为程序或应用,将网络服务器替代为程序服务器或应用服务器进行说明。

另外,在本说明书中将专利文献作为知识信息内容的例子进行说明,但不限于此,理所当然地,还可扩张应用到论文、图书等各种知识信息内容。

图2为根据本发明的一个实施例的附图标记识别方法的流程图。

参见图2,首先,网络服务器可通过学习多个专利附图样本构建附图标记位置识别模型和附图标记识别模型(S201)。附图标记位置识别模型和附图标记识别模型均可基于深度学习技术构建得到。

更详细来讲,网络服务器可基于深度学习技术识别包含于多个专利附图样本的附图标记的位置。在此使用的深度学习技术例如可以是FCN(Fully Convolutional Network,全卷积网络)。FCN是对确认图像像素内是否存在文字有用的深度学习模型,是基于CN N(Convolutional Neural Networks,卷积神经网络)导出的变形模型。FCN的特征在于不同于现有的CNN,并非使用全连接的层(Fully Connected layer),而是只使用卷积层(即,卷积化(Convolutionalization))。由于这种特征,因此FCN不同于CNN,图像的位置信息不会消失,能够非常有利于用于识别包含在图像内的客体(尤其,文字)的位置信息。

网络服务器能够使用这种FCN识别包含于多个专利附图样本的附图标记的位置,能够从识别到的附图标记的位置提取共同的特征。例如,网络服务器提取的附图标记位置的共同的特征可以是不位于附图中央的特征、不位于附图外廓的特征、附图标记之间不相互叠加配置的特征等。此外,网络服务器还可以通过学习附图标记的位置以各种方式提取共同的特征作为学习结果,不限于以上列出的特征。网络服务器可基于这样提取的共同的特征构建附图标记位置识别模型。附图标记位置识别模型可接收专利附图,可根据提取的所述共同的特征识别出包含于该专利附图的附图标记的位置并输出。

换而言之,网络服务器可通过学习包含于多个专利附图样本的附图标记的位置提取共同的特征,基于提取的共同的特征构建附图标记位置识别模型。

构建了附图标记位置识别模型的网络服务器可使用附图标记位置识别模型构建附图标记识别模型,后续参见图3对此进行更详细的说明。

图3为例示根据本发明的一个实施例的附图标记识别模型构建方法的附图。

为了构建附图标记识别模型,网络服务器可首先利用预先构建的附图位置识别模型识别包含于(多个)专利附图样本301的附图标记(10~14、16、18)的位置。网络服务器可从(多个)专利附图样本301将这样识别到的位置的附图标记(10~14、16、18)截取为图像切块302进行收集。网络服务器可利用图像文字识别技术(例如,深度学习技术(尤其,C-RNN)及/或OCR(Optical character recognition,光学字符识别)等)识别所收集的各图像切块302中包含的附图标记(10~14、16、18)。

如上将附图标记(10~14、16、18)切块成小图像进行识别的原因在于与在整个专利附图301识别附图标记(10~14、16、18)相比,从只包含附图标记的图像切块302内识别附图标记(10~14、16、18)的情况下识别率及识别准确度极高,而且识别速度也非常快。经实际按照本方法将附图标记切块成小图像执行识别模拟,识别准确度为99.43%,附图标记识别时间为每附图达到0.02秒以内,达到了还能够实时识别各附图的附图标记的水平。

网络服务器能够从这样识别到的附图标记(10~14、16、18)提取共同的特征构建附图标记识别模型。网络服务器可导出共同的特征,例如附图标记为数字、英文或其组合构成的特征、附图标记具有五个字以内的长度的特征等,但不限于此。

网络服务器可基于这样提取的共同的特征构建附图标记识别模型。附图标记识别模型可基于提取的共同的特征识别包含于各图像切块的附图标记并输出。

换而言之,网络服务器可学习包含于图像切块的附图标记提取共同的特征,基于提取的共同的特征构建附图标记识别模型。

这样构建的附图标记位置识别模型及附图标记识别模型用于从用户选择/输入的专利附图识别附图标记。

再次参见图2,之后网络服务器可接收所输入/选择的作为附图标记识别对象的专利附图(S202)。更详细来讲,网络服务器可从作为客户端设备的用户装置接收所选择/输入的特定专利附图(或特定专利附图)。

之后,网络服务器可利用在S201步骤构建的附图标记位置识别模型识别包含于所输入/选择的专利附图中的附图标记的位置(S203),从专利附图截取所识别的位置的附图标记获取包含附图标记的图像切块(S204)。网络服务器可利用在S201步骤构建的附图标记识别模型识别包含于这样获取的图像切块的附图标记(S205)。在此,根据实施例,网络服务器可以以预设数量(例如,200个)为单位汇集图像切块生成为一个图像,利用图像文字识别技术(例如,深度学习技术(尤其,C-RNN)及/或OCR(Opticalc haracter recognition)等)识别包含于所生成的图像的多个图像切块中包含的多个附图标记。此外,关于S203至S205步骤的具体说明实质上与在图3所述说明相同,因此省略重复说明。

根据图2及图3提出的实施例,网络服务器首先获知附图标记的位置后选择性地仅识别特定位置的附图标记,因此相比于针对整个附图识别附图标记的现有技术,不仅显著缩短识别时间(即,提高识别速度),而且还能够显著提高附图标记的识别准确度。

图4为根据本发明的一个实施例的附图标记说明提取方法的流程图。

根据本发明的一个实施例,网络服务器能够从专利说明书提取附图标记说明。专利文献的类别可大致分为专利说明书和附图,附图标记说明可从其中的专利说明书提取得到。后续将参见图10对专利文献的构成进行细说明。尤其,网络服务器可从专利说明书提取对应于根据图2及图3提出的实施例识别到的附图标记的附图标记说明。

为此,网络服务器首先可确立用于提取附图标记说明的规则(S401)。附图标记说明提取规则可通过各种实施例/方式确立,在本说明书中考虑到专利文献根据申请国家各有不同的专利文献格式,因此基于文本挖掘技术提出如下所述的确立实施例。

网络服务器可以首先按申请国家对多个专利说明书样本进行分类,可按分类的申请国家提取共同的特征。作为共同的特征,可根据以附图标记为基准的附图标记说明的相对位置、附图标记说明或附图标记采用的书写格式、申请年度中至少一个。

例如,是韩国的情况下作为共同的特征可提取附图标记说明位于附图标记之前的特征、附图标记包含于两括号内撰写的特征等,是美国的情况下作为共同的特征可提取附图标记说明位于附图标记前的特征、附图标记采用粗体书写格式的特征、不像韩国用两括号区分附图标记的特征等。根据申请国家,有专利说明书中有另行记载附图标记及附图标记说明的‘符号说明’类别的情况,这也可以作为共同的特征提取出来,‘符号说明’类别可用于后续提取附图标记说明。经过学习各种专利说明书样本,网络服务器还可按申请国家提取各种共同的特征。

网络服务器可根据这样提取的共同的特征确立附图标记说明提取规则(或模型)后,利用其从专利说明书提取附图标记说明(S402)。

更详细来讲,如果附图标记说明提取规则是附图标记说明相对于附图标记的相对位置确立的情况下(或附图标记说明提取规则中包含附图标记说明的相对位置规则的情况下),网络服务器可搜索包含于专利说明书的附图标记。进一步地,网络服务器可根据确立的相对位置规则预计对应于搜索到的附图标记的附图标记说明的位置,并提取预计的位置的文字作为附图标记说明。

例如,已确立了附图标记说明位于附图标记前的规则的情况下,网络服务器可从具有如下记载的专利说明书搜索附图标记16后提取记载在附图标记16前的文字‘螺栓’作为针对附图标记16的附图标记说明。

-螺栓(16)

如以上例子所示,附图标记说明由一个单词构成的情况下提取附图标记说明出错的可能性低,而相当于由多个单词成的复合词的情况下可能不清楚应提取至哪个单词作为附图标记说明。为了解决这种不清楚,本说明书提出如图5的实施例。

图5为例示根据本发明的一个实施例的附图标记说明提取实施例的附图。

在用针对附图标记的相对位置提取附图标记说明的本发明中,本附图例示的‘有机发光显示器10’之类的复合词的情况下,可能会发生不清楚附图标记说明应提取至什么范围的问题。例如,根据附图标记说明位于附图标记前的规则提取附图标记说明的情况下,从图5的例示中作为附图标记说明可提取到‘显示器(①)’、‘发光显示器(②)’、‘有机发光显示器(③)’等。

因此,本说明书提出一种为了解决这种不清楚/模糊而用于在提取到多个附图标记说明的情况下从中选择准确的附图标记说明的实施例。

作为一个实施例,网络服务器可在提取到多个附图标记说明的情况下,从专利说明书搜索提取到的多个附图标记说明后将搜索到的量最多的附图标记说明确定为最终的附图标记说明进行提取。以本附图为例,网络服务器经过在专利说明书分别搜索显示器、发光显示器及有机发光显示器,有机发光显示器搜索到三次、发光显示器搜索出0次、显示器搜索到一次的情况下,可提取有机发光显示器作为最终的附图标记说明。

在此,关于网络服务器作为附图标记说明候补提取的单词的个数,可根据到目前为止累积的附图标记说明数据限定为预设个数。更详细来讲,网络服务器可将附图标记及附图标记说明识别结果数据库化构建专利附图检索数据库。该情况下,网络服务器可根据数据库中到目前为止累积的附图标记说明数据统计作为附图标记说明提取的复合词的单词个数,将统计学上提取比率/概率低的单词个数设为限定个数。例如,经分析到目前为止累积的附图标记说明数据,五个单词以上的复合词作为附图标记说明被提取出来的概率为0.0001%的情况下,网络服务器可以将可作为附图标记说明被提取到的单词个数限为最多四个。该情况下,网络服务器按照附图标记说明提取规则提取附图标记说明的情况下,可提取最多四个单词作为附图标记说明。

虽然本流程图中并未图示,但网络服务器为了进一步提高附图标记说明的提取准确度,可确立用于判断提取到的附图标记说明是否有误的错误提取规则,可更正/完善所发现的错误。

更详细来讲,网络服务器可基于确立的附图标记说明提取规则从(多个)专利说明书样本提取附图标记说明,可从专利说明书搜索提取到的附图标记说明。经搜索,专利说明书中存在未搜索到的附图标记说明的情况下,网络服务器可将该附图标记说明分类为存在错误的附图标记说明。网络服务器可从这种出错的附图标记说明提取共同的特征(即,学习)以确定错误提取规则(或模型)。网络服务器可将这样确立的错误提取规则用于判断从专利说明书提取的附图标记说明是否有误。

作为共同的特征的例子,由数字0被误提取成字母o、O、D的特征、数字9被误提取成数字0的特征、‘~的’之类的形容词、连词、副词等非名词的词的特征、提取到符号!、@、

本文发布于:2023-03-13 02:18:55,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68856.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图