一种粗精双模型进出口货物申请表OCR识别方法

阅读: 评论:0

著录项
  • CN202210087400.5
  • 20220125
  • CN114565748A
  • 20220531
  • 中通服咨询设计研究院有限公司;江苏省通信服务有限公司
  • 燕松;战培志;虞太华;杨倪智;孙锡强;张恺;彭凤强
  • G06V10/22
  • G06V10/22 G06V10/26 G06V10/75 G06V10/82 G06K9/62 G06N3/04 G06N3/08

  • 江苏省南京市建邺区楠溪江东街58号
  • 江苏(32)
  • 江苏圣典律师事务所
  • 黄振华
摘要
本发明公开了一种粗精双模型进出口货物申请表OCR识别方法,包括以下步骤:步骤1,粗模型表头内容匹配定位识别,通过Tesseract?OCR算法对表头内容进行识别并与制表数据库中的模板信息进行快速匹配,得到整张申请表的行列数和关键字段信息;步骤2,表格内容图像预处理,通过中值滤波和图像锐化操作过滤图像的噪点信息,同时结合阈值分割去除红印章信息;步骤3,表格cell内容识别以及识别后处理,利用改进的TE?Efficient算法和CRNN轻量检测网络结构对表格cell小目标特征提取与识别。构建索引并匹配完成对整个申请表内容的精准识别,同步写入数据库中,完成对数据的识别存档。该识别方法快捷高效,可以有效提高办公效率。
权利要求

1.一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,包括以下步骤:

步骤1,采用粗模型对表头内容匹配定位识别;

步骤2,对表格内容进行图像预处理;

步骤3,采用精细模型对表格内容块cell内容进行识别;

步骤4,得到进出口货物申请表OCR识别结果,并进行后续处理。

2.根据权利要求1所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤1中所述的采用粗模型对表头内容匹配定位识别方法包括:根据进出口货物申请表的表头部分训练一个表头内容识别模型,快速匹配制表数据库中的模板信息;识别模型采用Tesseract-OCR算法,通过匹配得到整张进出口货物申请表的基本内容信息,包括行列数以及相应字段内容信息。

3.根据权利要2所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤2中所述的对表格内容进行图像预处理方法包括:基于霍夫直线检测对进出口货物申请表的表内容外包络切片区域进行旋转纠正,通过中值滤波和图像锐化操作过滤图像的噪点信息,并结合阈值分割方法去除红印章信息。

4.根据权利要3所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤3中所述的采用精模型对表格内容块cell内容进行识别方法包括:对经过步骤2中所述图像预处理的表格图像,构建精细模型对每个表格内容块cell小目标内容进行识别;所述精细模型采用改进的TE-Efficient及CRNN轻量检测网络结构,该模型基于Efficient网络结构,采用模型复合缩放方法统一缩放网络深度、宽度和分辨率,加上PAN与TE-CODE模块增加对表格内容块cell小目标特征提取与识别性能,结合CRNN模型对每个表格内容块cell的内容进行最终识别,得到文字内容位置与结果。

5.根据权利要4所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤4中所述的后续处理方法包括:对步骤3中识别得到的文字内容位置与结果,结合步骤1中识别得到的申请表字段内容信息,同步写入数据库中,完成对进出口货物申请表数据的识别存档。

6.根据权利要求5所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤1包括:

步骤1-1,对输入的进出口货物申请表图像进行霍夫直线检测,得到表格内容的外包络线;

步骤1-2,选取外包络线的上半部分或左半部分作为进出口货物申请表的表头部分;

步骤1-3,采用用Tensseract-OCR算法对进出口货物申请表的表头内容进行识别;

步骤1-4,与后台表数据库中的模板信息进行匹配得到整张申请表的行列数以及相应字段内容信息。

7.根据权利要求6所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤2包括:

步骤2-1,基于霍夫直线检测对进出口货物申请表的表内容外包络切片区域进行旋转纠正;

步骤2-2,对进出口货物申请表进行图像中值滤波和锐化操作,去除部分噪点信息;

步骤3-3,对处理后的图像进行RGB通道分离,对R通道图像结合阈值分割去除红印章信息,得到预处理后的表格图像。

8.根据权利要求7所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤2-1中所述旋转纠正方法包括:

通过旋转角度对区域图像校正到水平方向,旋转角度计算方法如下:

其中,(x1,y1)和(x2,y2)分别为通过霍夫直线检测到表格内容外包络切片区域的顶点坐标。

9.根据权利要求8所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤3中,基于改进的TE-Efficient及CRNN轻量检测网络结构构建对精细化网络对表格内容块cell小目标内容进行识别;其中,网络检测部分核心网络采用Efficientnet,在其1/32,1/16,1/8层基于PAN+TE-CODE模块构建输出检测头,对所述三个输出检测头采用不同的权重分配,越低层有效信息越多,分配的权重越大,通过上述网络检测结构增加对小目标物体的检测,最终将整个图像分割成一个个独立的待识别表格内容块cell单元,后续结合已有的CRNN模型,对其切分的网格图像块分别进行识别,得到最终的整张图像识别结果。

10.根据权利要求9所述的一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,步骤4包括:对步骤3中识别得到的文字内容位置与结果,结合步骤1中识别得到的申请表字段内容信息,构建索引并匹配,最终完成对整个进出口货物申请表内容的精准识别,并同步写入数据库中,完成对数据的识别存档。

说明书
技术领域

本发明涉及一种表格ORC识别方法,特别是一种粗精双模型进出口货物申请表OCR识别方法。

在进出口公司日常办公中,进出口货物申请表是进出仓库管理的重要凭证,也是后台管理人员等经常需要处理的一类数据,尤其是扫描后的申请表文件信息丢失严重,往往这类任务繁重、强度大、前期的录入员在高强度重复工作状态下极易疲劳出错,而且基础数据采集效率低下导致综合统计数据滞后,导致公司的其他业务信息管理系统(如ERP、CRM)所发挥的性能大打折扣,从而影响企业正确决策。常见的方法就是增加录单人手、增加计算机设备,但这些都导致办公成本增加。随着深度学习技术的发展,光学字符识别(Optical Character Recognition,OCR)技术的出现有效的解决了这类问题,比如将PDF文档中的表格转换成Excel表格的可以先识别PDF文档中的表格所含的文本块的边界位置坐标,根据文本块的边界位置坐标来对PDF文档中表格进行行划分和列划分,得到多个划分区域,确定各个文本块所属的划分区域,将划分好区域的文本块写入对应的Excel表格中,从而实现不依赖于PDF文档中的表格的边框线,将没有边框线或边框线不完整的PDF文档中的表格转换成Excel表格的目的。该方案的不足在于,表格框线的检测是传统基于规则的表格分割方法,在识别表格所含的文本块的边界位置坐标时,表格外部不能存在其它文本,否则会将外部文本错误地识别为表格中的文本,而在实际应用的版式文档中,表格之外往往存在众多的逻辑区块(如插图、标题、正文),很多表格从视觉上与正文文本段的区分特征并不明显,且表格风格变化多样,采用规则的方法很难识别表格与其它逻辑区块的分界线,容易将表格外的逻辑区块误认为表格内的一部分,难以将实际表格作为一个整体定位出来,识别效果不能满足实际需求。故对于进出口货物申请表的OCR识别急需要一种新的识别方法。

本发明所要解决的技术问题是针对现有技术的不足,提供一种粗精双模型进出口货物申请表OCR识别方法。

为了解决上述技术问题,本发明公开了一种粗精双模型进出口货物申请表OCR识别方法,包括以下步骤:

步骤1,采用粗模型对表头内容匹配定位识别;

步骤2,对表格内容进行图像预处理;

步骤3,采用精细模型对表格内容块cell内容进行识别;

步骤4,得到进出口货物申请表OCR识别结果,并进行后续处理。

本发明步骤1中所述的采用粗模型对表头内容匹配定位识别方法包括:根据进出口货物申请表的表头部分训练一个表头内容识别模型,快速匹配制表数据库中的模板信息;识别模型采用Tesseract-OCR算法,通过匹配得到整张进出口货物申请表的基本内容信息,包括行列数以及相应字段内容信息。

本发明步骤2中所述的对表格内容进行图像预处理方法包括:基于霍夫直线检测对进出口货物申请表的表内容外包络切片区域进行旋转纠正,通过中值滤波和图像锐化操作过滤图像的噪点信息,并结合阈值分割方法去除红印章信息。

本发明步骤3中所述的采用精模型对表格内容块cell内容进行识别方法包括:对经过步骤2中所述图像预处理的表格图像,构建精细模型对每个表格内容块cell小目标内容进行识别;所述精细模型采用改进的TE-Efficient及CRNN轻量检测网络结构,该模型基于Efficient网络结构,采用模型复合缩放方法统一缩放网络深度、宽度和分辨率,加上PAN与TE-CODE模块增加对表格内容块cell小目标特征提取与识别性能,结合CRNN模型对每个表格内容块cell的内容进行最终识别,得到文字内容位置与结果。

本发明步骤4中所述的后续处理方法包括:对步骤3中识别得到的文字内容位置与结果,结合步骤1中识别得到的申请表字段内容信息,同步写入数据库中,完成对进出口货物申请表数据的识别存档。

本发明中步骤1包括:

步骤1-1,对输入的进出口货物申请表图像进行霍夫直线检测,得到表格内容的外包络线;

步骤1-2,选取外包络线的上半部分或左半部分作为进出口货物申请表的表头部分;

步骤1-3,采用用Tensseract-OCR算法对进出口货物申请表的表头内容进行识别;

步骤1-4,与后台表数据库中的模板信息进行匹配得到整张申请表的行列数以及相应字段内容信息。

本发明中步骤2包括:

步骤2-1,基于霍夫直线检测对进出口货物申请表的表内容外包络切片区域进行旋转纠正;

步骤2-2,对进出口货物申请表进行图像中值滤波和锐化操作,去除部分噪点信息;

步骤3-3,对处理后的图像进行RGB通道分离,对R通道图像结合阈值分割去除红印章信息,得到预处理后的表格图像。

本发明步骤2-1中所述旋转纠正方法包括:

通过旋转角度对区域图像校正到水平方向,旋转角度计算方法如下:

其中,(x1,y1)和(x2,y2)分别为通过霍夫直线检测到表格内容外包络切片区域的顶点坐标。

本发明步骤3中,基于改进的TE-Efficient及CRNN轻量检测网络结构构建对精细化网络对表格内容块cell小目标内容进行识别;其中,网络检测部分核心网络采用Efficientnet,在其1/32,1/16,1/8层基于PAN+TE-CODE模块构建输出检测头,对所述三个输出检测头采用不同的权重分配,越低层有效信息越多,分配的权重越大,通过上述网络检测结构增加对小目标物体的检测,最终将整个图像分割成一个个独立的待识别表格内容块cell单元,后续结合已有的CRNN模型,对其切分的网格图像块分别进行识别,得到最终的整张图像识别结果。

本发明步骤4包括:对步骤3中识别得到的文字内容位置与结果,结合步骤1中识别得到的申请表字段内容信息,构建索引并匹配,最终完成对整个进出口货物申请表内容的精准识别,并同步写入数据库中,完成对数据的识别存档。

有益效果:该方法可以有效解决进出口货物申请表识别任务,大大提高财务人员工作效率。

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明总体流程框架示意图。

图2为本发明粗模型匹配识别定位示意图。

图3为本发明所述的图像预处理示意图。

图4为本发明中精细识别网络结构示意图。

图5为本发明中PAN网络结构示意图。

图6为本发明中TE-code网络结构示意图。

如图1所示,本实施示例提供一种粗精双模型进出口货物申请表OCR识别方法,包括:粗模型表头内容匹配定位识别,表格内容图像预处理,表格cell内容识别以及识别后处理。

如图2所示,基于粗模型表头内容匹配定位识别采用的是开源的TesseractOCR开源库(Tesseract是一个OCR库,Tesseract是目前公认最优秀、最精确的开源OCR系统,除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何Unicode字符。),在对表头识别匹配前,首先构建一个不同进出货物申请制表库,主要包含表头和行列以及主要字段等信息,然后根据申请表的表头部分基于Tessact-OCR模型训练一个表头内容识别模型,可以快速匹配制表数据库中的模板信息。对于输入的申请表图像先进行霍夫直线检测,得到表格内容的外包络线,取外包络线的上半部分或者左半部分作为申请表的表头部分,通过对表头识别,然后与后台表数据库中的模板信息进行匹配得到整张申请表的行列数以及相应字段内容等信息。

而图像预处理模块,如图3所示,基于霍夫直线检测对表内容外包络切片区域进行旋转纠正,具体可以通过如下公式计算的旋转角度对区域图像校正到水平方向,实际情况可以对两组顶点计算取均值。

其中,(x1,y1)和(x2,y2)分别为通过霍夫直线检测到表格内容外包络切片区域的顶点坐标,通过上式计算得到旋转角度。然后对其进行图像中值滤波和锐化操作,去除部分噪点信息,同时对处理后的图像进行RGB通道分离,对R通道图像结合阈值分割去除红印章等信息,得到预处理后的图像样本。

如图4所示,对经过预处理的表格图像,构建精细模型对每个表格cell小目标内容进行识别。其精细模型采用的是改进的TE-Efficient+CRNN轻量检测网络结构(其中,TE-Efficient是本专利提出的新的检测网络结构,基于Efficient结构结合表格内容检测的特点进行的针对性改进模型,CRNN是一个通用的识别网络),针对需要识别表格内容区域字号较小,难以提取有效特征的原因,如图4所示,网络检测部分核心网络采用的是Efficientnet(参见论文EfficientNet:Rethinking Model Scaling for ConvolutionalNeural Networks),在其1/32,1/16,1/8层基于PAN+TE-code(其中,PAN可以理解为对称金字塔结构,TE-CODE属于改进的注意力机制模块)模块构建输出检测头,对三个输出头Head采用不同的权重分配,越低层有效信息越多,分配的权重越大,其中如图5所示的对称图像金字塔结构,可以有效增加对图像语义信息的提取,而图6所示的网络结构TE-code集成了transformer的multi-head结构,其中transoformer结构来自于论文《Attention is AllYou Need》,为了适应表格cell内容部分识别,在对其进行切分和位置编码(Embeddingpatches)时,其中切分优选6*10,8*16大小,位置编码为了更好拟合表格内容分布,构建一个对应的邻接矩阵用来标记相邻切分块之间的联系,初始化时为随机值,然后再接入Transformer的Encoder模块,即多头注意力机制(multi-head Attention),每个子层之间配合多层感知机(MLP),采用残差连接,最后得到输出头部分。该结构可以提高对表格内容关联性的提取,有效增加对小目标信息的检测和识别。通过上述结构增加对小目标物体的检测,最终将整个图像分割成一个个独立的待识别cell单元,后续结合《An End-to-EndTrainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition》的CRNN模型,对其每个cell单元进行内容识别,得到最终的整张图像识别结果。

所述的识别后处理指的是,对识别的文字内容位置与结果,结合粗识别得到的申请表字段信息,同步写入数据库中,完成对数据的识别存档。

本发明提供了一种粗精双模型进出口货物申请表OCR识别方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

本文发布于:2023-04-13 01:29:01,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/86183.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图