表格类内容识别方法及装置与流程

阅读: 评论:0



1.本公开涉及计算机技术领域,尤其涉及一种表格类内容识别方法及装置。


背景技术:



2.光学字符识别(optical character recognition,ocr)技术已广泛应用于将图像中代表文字的像素点转换为可编辑的文字,更进一步,在特定的场景中,通过对文字在图片上位置关系的解析,还可将图片中的文字以特殊的形式组合起来,比如办公场景(印刷体识别、手写文字识别、表格识别),交通场景(驾驶证识别、车牌识别、车辆合格证识别),卡证场景(身份证识别、银行卡识别、户口本识别、营业执照识别)等等。
3.在销售场景中,供货方会提供关于商品详细信息的供货单,如商品名称、数量、单价等等,这样的货物单据往往以手写表格的形式呈现,经过实践发现目前手写表格的识别技术存在一些弊端:对于表格单元格的识别不够准确,如多单元格被识别为单元格,且单元格的识别易受到图片阴影、折痕的影响;对表格中文字的识别不够准确,目前大部分表格识别的功能是基于印刷体表格图片进行训练的,故而对表格中的手写字体的识别准确率不能达到生产要求。
4.公开于本技术背景技术部分的信息仅仅旨在加深对本技术的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。


技术实现要素:



5.本公开实施例提供一种表格类内容识别方法及装置。能够分别确定与关键字同列的字段,与字段同行的内容,以及与关键字同行的其他关键字,从而对各个字段的内容及标题进行查询,获得更准确的查询结果,减少了由于填写字迹歪斜,导致查询错误的可能性,提升了查询准确率。
6.本公开实施例的第一方面,提供一种表格类内容识别方法,包括:
7.检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;
8.根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;
9.根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;
10.根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;
11.根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。
12.根据本公开的实施例,根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果,包括:
13.对于任一关键字的查询范围,确定所述关键字的各个字段的文本框与所述查询范
围的重叠区域,与所述文本框之间的第一面积比例;
14.在所述各个字段的文本框中,确定所述第一面积比例大于或等于第一阈值的目标文本框;
15.将所述目标文本框中的字段确定为字段查询结果。
16.根据本公开的实施例,根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果,包括:
17.根据所述图像尺寸,获取图像宽度;
18.获取所述字段的文本框的尺寸信息;
19.根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框;
20.根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果。
21.根据本公开的实施例,根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框,包括:
22.根据所述字段的文本框的尺寸信息,获得查询框的高度;
23.根据所述图像宽度,获得查询框的宽度;
24.根据所述查询框的高度和宽度,获得在高度方向与所述字段的文本框重合的查询框。
25.根据本公开的实施例,根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果,包括:
26.确定与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比;
27.确定所述第二面积比大于或等于第二阈值的目标内容文本框;
28.将所述目标内容文本框中的文本内容确定为所述内容查询结果。
29.根据本公开的实施例,根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果,包括:
30.确定与所述关键字的文本框高度相同,宽度等于图像宽度的第二查询框;
31.确定与所述关键字同行的各个单元格中文本内容的文本框与所述第二查询框之间的重叠区域,与各所述关键字同行的各个单元格中文本内容的文本框之间的第三面积比;
32.确定所述第三面积比大于或等于第三阈值的目标关键字文本框;
33.将所述目标关键字文本框中的文本内容,确定为所述查询结果。
34.根据本公开的实施例,所述方法还包括:
35.将所述查询结果中的预设符号确定为错误信息;
36.删除存在错误信息的文本框中的文本内容;
37.根据所述错误信息,生成提示信息。
38.本公开实施例的第二方面,提供一种表格类内容识别装置,包括:
39.位置模块,用于检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;
40.范围模块,用于根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;
41.字段模块,用于根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;
42.内容模块,用于根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;
43.结果模块,用于根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。
44.根据本公开的实施例,所述字段模块进一步用于:
45.对于任一关键字的查询范围,确定所述关键字的各个字段的文本框与所述查询范围的重叠区域,与所述文本框之间的第一面积比例;
46.在所述各个字段的文本框中,确定所述第一面积比例大于或等于第一阈值的目标文本框;
47.将所述目标文本框中的字段确定为字段查询结果。
48.根据本公开的实施例,所述内容模块进一步用于:
49.根据所述图像尺寸,获取图像宽度;
50.获取所述字段的文本框的尺寸信息;
51.根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框;
52.根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果。
53.根据本公开的实施例,所述内容模块进一步用于:
54.根据所述字段的文本框的尺寸信息,获得查询框的高度;
55.根据所述图像宽度,获得查询框的宽度;
56.根据所述查询框的高度和宽度,获得在高度方向与所述字段的文本框重合的查询框。
57.根据本公开的实施例,所述内容模块进一步用于:
58.确定与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比;
59.确定所述第二面积比大于或等于第二阈值的目标内容文本框;
60.将所述目标内容文本框中的文本内容确定为所述内容查询结果。
61.根据本公开的实施例,所述结果模块进一步用于:
62.确定与所述关键字的文本框高度相同,宽度等于图像宽度的第二查询框;
63.确定与所述关键字同行的各个单元格中文本内容的文本框与所述第二查询框之间的重叠区域,与各所述关键字同行的各个单元格中文本内容的文本框之间的第三面积比;
64.确定所述第三面积比大于或等于第三阈值的目标关键字文本框;
65.将所述目标关键字文本框中的文本内容,确定为所述查询结果。
66.根据本公开的实施例,所述装置还包括,提示模块,用于:
67.将所述查询结果中的预设符号确定为错误信息;
68.删除存在错误信息的文本框中的文本内容;
69.根据所述错误信息,生成提示信息。
70.本公开实施例的第三方面,提供一种表格类内容识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
71.本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述方法。
附图说明
72.图1示例性地示出本公开实施例的表格类内容识别方法的流程示意图;
73.图2示例性地示出本公开实施例的表格类内容识别方法的案例示意图;
74.图3示例性地示出本公开实施例的表格类内容识别装置的框图;
75.图4是根据一示例性实施例示出的一种表格类内容识别设备的框图。
具体实施方式
76.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
77.本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
78.应当理解,在本公开的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
79.应当理解,在本公开中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
80.应当理解,在本公开中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
81.应当理解,在本公开中,“与a对应的b”、“与a相对应的b”、“a与b相对应”或者“b与a相对应”,表示b与a相关联,根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。a与b的匹配,是a与b的相似度大于或等于预设的阈值。
82.取决于语境,如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
83.下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
84.图1示例性地示出本公开实施例的表格类内容识别方法的流程示意图,如图1所示,所述方法包括:
85.步骤s101,检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;
86.步骤s102,根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;
87.步骤s103,根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;
88.步骤s104,根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;
89.步骤s105,根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。
90.根据本公开的实施例,根据本公开的实施例,待检测图像可以是包括表格的图像,该表格可以是企业生产经营中的表格,例如,销售表格,库存表格、财务表格等,本公开对表格的类型不做限制。该表格中的文本内容可以是手写的,即,工整程度低于打印体。待检测图像可以是对表格进行拍照或扫描获得的图像。本公开对待检测图像的获取方式不做限制。
91.根据本公开的实施例,可在步骤s101中,检测待处理图像中的表格中的文本框的位置。所述文本框可以是包围文本内容的矩形框,例如,最小矩形框等。待处理图像中可包括表格,表格可包括多个单元格,单元格中可包括文本内容,文本框可包围所述文本内容,且文本框可小于单元格。
92.根据本公开的实施例,可通过深度学习神经网络、像素检测等多种方法检测文本内容,并获得对文本内容进行框选的最小矩形框,作为所述文本框,本公开对文本框的获得方式不做限制。
93.根据本公开的实施例,在步骤s102中,可根据文本框位置,确定所述表格中的多个字段的查询范围。所述表格中可包括多个字段,例如,在销售表格中,所述字段可包括商品名称、商品规格、商品数量、销售单价等。每个字段可具有对应的关键字,例如,商品名称字段的关键字可包括“商品名称”、“商品名”、“编号”等;商品规格字段的关键字可包括“规格”、“型号”、“颜”、“尺寸”等;商品数量字段的关键字可包括“数量”、“商品数量”等;销售单价字段的关键字可包括“单价”、“销售单价”、“商品单价”、“金额”、“价格”等。上述关键字可位于每个字段对应的列的第一行。本公开对关键字的具体内容及位置不做限制。
94.根据本公开的实施例,可确定每个字段的查询范围,即,每个字段的具体内容在表格中的位置,例如,在商品名称字段对应的列中,除了关键字所在的第一行外,其他行的内容可以是各个商品的具体名称,例如,上衣、裤子、鞋等,这些具体名称所在的列的位置即为每个商品名称字段的查询范围,即,如果需要查询商品名称字段下有哪些具体内容,则需要
在这些行所在的位置中进行查询。
95.根据本公开的实施例,可将某个字段的对应地列汇总,关键字的文本框之下,该列的结束位置之上的区间内的图像块作为所述查询范围。并可在该查询范围内,查询关键字的多个字段,例如,该关键字下的多个具体内容,例如,在商品名称关键字下,具体内容可包括上衣、裤子、鞋等,这些具体内容可作为商品名称关键字的多个字段。
96.根据本公开的实施例,步骤s103可包括:对于任一关键字的查询范围,确定所述关键字的各个字段的文本框与所述查询范围的重叠区域,与所述文本框之间的第一面积比例;在所述各个字段的文本框中,确定所述第一面积比例大于或等于第一阈值的目标文本框;将所述目标文本框中的字段确定为字段查询结果。
97.根据本公开的实施例,所述查询范围的长度为关键字的文本框之下,关键字所在列的结束位置之上的范围的长度,所述查询范围的宽度为关键字的文本框的宽度。即,关键字的文本框正下方的区域。可确定查询范围与关键字的各个字段的文本框之间的重叠区域,与各字段的文本框之间的第一面积比例,即,重叠区域与字段文本框之间的面积比。如果某字段的文本框的第一面积比例大于或等于第一阈值,例如,0.8,则说明该字段位于关键字的正下方,或位于接近关键字的正下方的位置,则可说明该字段属于该关键字对应的具体内容。在这种情况下,可将该字段确定为对于上述关键字的字段查询结果。否则,则该字段不属于该关键字对应的具体内容。例如,上衣字段位于商品名称关键字的正下方,则上衣为商品名称关键字的字段查询结果之一。可多次执行上述处理步骤,可获得每个字段的字段查询结果。
98.根据本公开的实施例,在步骤s104中,可针对每个字段的字段查询结果,获得每个字段的内容查询结果。在示例中,针对每个字段,可获得该字段对应的其他具体内容。例如,商品名称关键字下的字段可包括上衣,与上衣字段同行的其他内容,可以是上衣字段的其他具体内容,例如,上衣的单价(例如,50元),上衣的数量(例如,500件)等。
99.根据本公开的实施例,可针对各个字段,查询与之同行的其他内容,作为内容查询结果。步骤s104可包括:根据所述图像尺寸,获取图像宽度;获取所述字段的文本框的尺寸信息;根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框;根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果。
100.根据本公开的实施例,可获取图像宽度,从而可基于宽度方向,即,行方向的所有的所述其他具体内容。
101.根据本公开的实施例,还可获取字段的文本框的尺寸信息,例如,文本框的高度信息。从而可基于文本框的高度信息和图像宽度,获得查询框。
102.根据本公开的实施例,根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框,包括:根据所述字段的文本框的尺寸信息,获得查询框的高度;根据所述图像宽度,获得查询框的宽度;根据所述查询框的高度和宽度,获得在高度方向与所述字段的文本框重合的查询框。
103.在示例中,查询框的高度与字段的文本框的高度一致,查询框的宽度与图像宽度一致,即,查询框可框选与字段的文本框的高度一致的范围内的一整行中的所有内容。
104.根据本公开的实施例,根据与所述字段相同行的各个单元格中文本内容的文本
框,与所述查询框之间的关系,确定所述内容查询结果,包括:确定与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比;确定所述第二面积比大于或等于第二阈值的目标内容文本框;将所述目标内容文本框中的文本内容确定为所述内容查询结果。
105.根据本公开的实施例,可通过字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比,来确定各个单元格中文本内容是否与所述字段同行,亦可确定各个单元格中的文本内容是否是所述字段的具体内容。
106.根据本公开的实施例,如果第二面积比大于或等于第二阈值,例如,0.6,则可确定同行的各个单元格中的文本内容为所述字段的具体内容。则可将这些内容作为内容查询结果,例如,上衣字段的内容查询结果为,50元,500件等。
107.根据本公开的实施例,在步骤s105中,可根据关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。步骤s105可包括:确定与所述关键字的文本框高度相同,宽度等于图像宽度的第二查询框;确定与所述关键字同行的各个单元格中文本内容的文本框与所述第二查询框之间的重叠区域,与各所述关键字同行的各个单元格中文本内容的文本框之间的第三面积比;确定所述第三面积比大于或等于第三阈值的目标关键字文本框;将所述目标关键字文本框中的文本内容,确定为所述查询结果。
108.根据本公开的实施例,可确定所述关键字同行的第二查询框,第二查询框的确定方式与上述查询框类似,可与关键字的文本框高度相同,宽度等于图像宽度,可框选关键字的文本框的高度范围内,一整行的文本内容。
109.根据本公开的实施例,可利用与上述字段的查询框类似的方式,确定关键字同行的各单元格中的文本内容的文本框与第二查询框的重叠区域,与文本内容的文本框的第三面积比,如果第三面积比大于或等于第三阈值,则该文本框与关键字的文本框同行,则可查询该文本框中的具体内容,否则,则可不对文本框进行查询。经过此查询步骤,可确定与上述内容查询结果对应的标题,例如,与50元对应的标题为单价,与500件对应的标题为数量等。这些标题可以是其他关键字。因此,在查询过程中,只需一次查询,即可确定某个字段下,与所有关键字对应的内容,例如,关键字为商品名称,字段(内容)为上衣,关键字为单价,字段(内容)为50元,关键字为数量,字段(内容)为500件。可迭代执行上述步骤,获得所有字段的查询结果,例如,还可获得字段为裤子的查询结果,例如,关键字为商品名称,字段(内容)为裤子,关键字为单价,字段(内容)为30元,关键字为数量,字段(内容)为300件
……
可将所有字段的查询结果确定为表格的查询结果。
110.根据本公开的实施例,所述方法还包括:将所述查询结果中的预设符号确定为错误信息;删除存在错误信息的文本框中的文本内容;根据所述错误信息,生成提示信息。
111.在示例中,查询结果中的预设符号可被确定为错误信息,例如,“,”、“。”、“!”等。可删除错误信息,并将删除错误信息后的查询结果作为最终的查询结果。并且,还可利用错误信息生成提示信息,例如,错误信息出现的位置,错误信息的具体内容等,从而可改进查询算法,使得查询结果更准确。
112.根据本公开,能够分别确定与关键字同列的字段,与字段同行的内容,以及与关键字同行的其他关键字,从而对各个字段的内容及标题进行查询,获得更准确的查询结果,减
少了由于填写字迹歪斜,导致查询错误的可能性,提升了查询准确率。
113.图2示例性地示出本公开实施例的表格类内容识别方法的案例示意图,如图2所示,图中可包括一张表格,表格的多个单元格内可包括文本内容。可首先获取表格中各单元格内的文本内容的文本框,即,将各个文本内容进行框选的最小矩形框。
114.根据本公开的实施例,可针对货号关键字,确定查询范围,即,货号的文本框以下,该列的结束位置以上的区间内的查询范围,并根据第一面积比例,确定与货号关键字同列的字段,例如,1002,206,4016,3116等。
115.根据本公开的实施例,对于字段1002,可确定查询框,从而基于第二面积比,确定与之同行的内容,例如,黑,√,30,30,900。
116.根据本公开的实施例,可对于货号关键字,确定第二查询框,从而基于第三面积比,确定与之同行的标题,例如,颜,110,115,120,125,件数,单价,金额。
117.根据本公开的实施例,综合以上查询内容,可获得字段1002的查询结果为,货号:1002,颜:黑,110:√,件数:30,单价:30,金额900。类似地,可对货号关键字下的其他字段迭代执行上述处理,可获得整个表格的查询结果。
118.图3示例性地示出本公开实施例的表格类内容识别装置的框图,如图3所示,所述装置包括:
119.位置模块,用于检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;
120.范围模块,用于根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;
121.字段模块,用于根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;
122.内容模块,用于根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;
123.结果模块,用于根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。
124.根据本公开的实施例,所述字段模块进一步用于:
125.对于任一关键字的查询范围,确定所述关键字的各个字段的文本框与所述查询范围的重叠区域,与所述文本框之间的第一面积比例;
126.在所述各个字段的文本框中,确定所述第一面积比例大于或等于第一阈值的目标文本框;
127.将所述目标文本框中的字段确定为字段查询结果。
128.根据本公开的实施例,所述内容模块进一步用于:
129.根据所述图像尺寸,获取图像宽度;
130.获取所述字段的文本框的尺寸信息;
131.根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框;
132.根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果。
133.根据本公开的实施例,所述内容模块进一步用于:
134.根据所述字段的文本框的尺寸信息,获得查询框的高度;
135.根据所述图像宽度,获得查询框的宽度;
136.根据所述查询框的高度和宽度,获得在高度方向与所述字段的文本框重合的查询框。
137.根据本公开的实施例,所述内容模块进一步用于:
138.确定与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比;
139.确定所述第二面积比大于或等于第二阈值的目标内容文本框;
140.将所述目标内容文本框中的文本内容确定为所述内容查询结果。
141.根据本公开的实施例,所述结果模块进一步用于:
142.确定与所述关键字的文本框高度相同,宽度等于图像宽度的第二查询框;
143.确定与所述关键字同行的各个单元格中文本内容的文本框与所述第二查询框之间的重叠区域,与各所述关键字同行的各个单元格中文本内容的文本框之间的第三面积比;
144.确定所述第三面积比大于或等于第三阈值的目标关键字文本框;
145.将所述目标关键字文本框中的文本内容,确定为所述查询结果。
146.根据本公开的实施例,所述装置还包括,提示模块,用于:
147.将所述查询结果中的预设符号确定为错误信息;
148.删除存在错误信息的文本框中的文本内容;
149.根据所述错误信息,生成提示信息。
150.图4是根据一示例性实施例示出的一种表格类内容识别设备的框图。例如,所述设备1600可以被提供为一终端或服务器。设备1600包括处理组件1602,以及由存储器1603所代表的存储器资源,用于存储可由处理组件1602的执行的指令,例如应用程序。存储器1603中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1602被配置为执行指令,以执行上述方法。
151.设备1600还可以包括一个电源组件1606被配置为执行设备1600的电源管理,一个有线或无线网络接口1605被配置为将设备1600连接到网络,和一个输入输出(i/o)接口1608。设备1600可以操作基于存储在存储器1603的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
152.本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
153.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算
机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
154.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
155.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
156.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
157.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
158.也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
159.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也
可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
160.注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
161.本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
162.最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

技术特征:


1.一种表格类文本内容识别方法,其特征在于,包括:检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。2.根据权利要求1所述的方法,其特征在于,根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果,包括:对于任一关键字的查询范围,确定所述关键字的各个字段的文本框与所述查询范围的重叠区域,与所述文本框之间的第一面积比例;在所述各个字段的文本框中,确定所述第一面积比例大于或等于第一阈值的目标文本框;将所述目标文本框中的字段确定为字段查询结果。3.根据权利要求1所述的方法,其特征在于,根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果,包括:根据所述图像尺寸,获取图像宽度;获取所述字段的文本框的尺寸信息;根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框;根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果。4.根据权利要求3所述的方法,其特征在于,根据所述字段的文本框的尺寸信息,和所述图像宽度,获得查询框,包括:根据所述字段的文本框的尺寸信息,获得查询框的高度;根据所述图像宽度,获得查询框的宽度;根据所述查询框的高度和宽度,获得在高度方向与所述字段的文本框重合的查询框。5.根据权利要求3所述的方法,其特征在于,根据与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框之间的关系,确定所述内容查询结果,包括:确定与所述字段相同行的各个单元格中文本内容的文本框,与所述查询框的重叠区域,与各个单元格中文本内容的文本框之间的第二面积比;确定所述第二面积比大于或等于第二阈值的目标内容文本框;将所述目标内容文本框中的文本内容确定为所述内容查询结果。6.根据权利要求1所述的方法,其特征在于,根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果,包括:确定与所述关键字的文本框高度相同,宽度等于图像宽度的第二查询框;确定与所述关键字同行的各个单元格中文本内容的文本框与所述第二查询框之间的重叠区域,与各所述关键字同行的各个单元格中文本内容的文本框之间的第三面积比;确定所述第三面积比大于或等于第三阈值的目标关键字文本框;
将所述目标关键字文本框中的文本内容,确定为所述查询结果。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述查询结果中的预设符号确定为错误信息;删除存在错误信息的文本框中的文本内容;根据所述错误信息,生成提示信息。8.一种表格类内容识别装置,其特征在于,包括:位置模块,用于检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;范围模块,用于根据所述文本框位置,确定所述表格中的多个关键字的查询范围,所述查询范围中包括所述关键字的多个字段;字段模块,用于根据所述查询范围,对所述关键字的字段进行查询,获得字段查询结果;内容模块,用于根据所述图像尺寸,对所述字段的内容信息进行查询,获得内容查询结果;结果模块,用于根据所述关键字、字段查询结果和所述内容查询结果,获得所述表格的查询结果。9.一种表格类内容识别设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至7中任意一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。

技术总结


本公开提供一种表格类内容识别方法及装置。所述方法包括:检测待处理图像中的表格中的文本框位置;根据文本框位置,确定表格中的多个关键字的查询范围;根据查询范围,对关键字的字段进行查询,获得字段查询结果;根据图像尺寸,对字段的内容信息进行查询,获得内容查询结果;根据关键字、字段查询结果和内容查询结果,获得表格的查询结果。根据本公开,能够分别确定与关键字同列的字段,与字段同行的内容,以及与关键字同行的其他关键字,从而对各个字段的内容及标题进行查询,获得更准确的查询结果,减少了由于填写字迹歪斜,导致查询错误的可能性,提升了查询准确率。提升了查询准确率。提升了查询准确率。


技术研发人员:

闫恺 杜向阳

受保护的技术使用者:

深圳擎盾信息科技有限公司

技术研发日:

2022.09.27

技术公布日:

2022/12/23

本文发布于:2022-12-25 00:31:33,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/44849.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   字段   内容   文本框
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图