2020年第1期
压缩木耳76方案与应用
信息技术与信息化
胡潇晗* 杨 立 HU Xiao-han YANG Li
摘 要 本文通过深度学习实现了银行卡号的定位与识别功能,通过对数据集的采集与标注,来为深度学习模型 提供训练样本。其中,定位功能使用了文本定位EAST 模型,并在此基础上扩充并实现了Advanced EAST 模型;识别功能采用了CNN (VGG 网络架构)与RNN 的结合来实现此模型,并以CTC 作为损失函数来优化。最后对两个主要功能进行了封装设计,实现了与用户交互使用的功能。 关键词 深度学习;TensorFlow ;Keras
带通滤波器
doi:10.3969/j.issn.1672-9528.2020.01.023
* 运城学院数学与信息技术学院 山西运城 044000[基金项目] 大学生创新创业项目(DC2019034)
0 引言
人类对外界信息的认识及感知,最基本的就来自于视觉,因此对视觉信息的搜集与处理,一直是人类认识世界、认识规律的重要手段。人工智能技术,通过对视觉信息的采集,对图形图像信息做科学的筛选、比对并分析,然后经过深度学习算法、理解和思考之后,将真实的现实内容呈现在计算机中。随着人工智能、深度学习技术的发展,人工智能技术在视觉领域方面的应用日益突出,得到了广泛的关注和研究。本文使用基于深度学习的视觉识别技术,拓展现有的光学识别技术(OCR)来完成一个识别银行卡号的系统,此系统包括数据集处理、银行卡号定位检测、银行卡号识别三部分。 1 系统设
计与实现1.1 整体方案设计
系统整体设计如图1所示。工作原理为:当用户上传有关银行卡的图片后,经过一些选项进行调整,并按下开始识别的按钮。系统便开始先对银行卡号进行定位,若定位成功,则进行下一步识别处理;若定位失败,则提示用户进行手动定位。最后识别的卡号以文本的方式显示在屏幕上,从而进
行后续操作。
图1 系统整体设计框图
1.2 系统数据分析与处理引线器
此系统(从互联网上)收集了两套不同的数据分别用于定位与识别的训练。用于实现定位功能的数据集采用了ICDAR 2015格式进行标注,标注效果如图2所示。人参切片机
在用于识别功能的数据集中,为了解决因数据量过小而产生模型欠拟合的问题,而对每张训练数据制作了数据增强。在通过缩放、仿射、旋转、模糊等变换后,数据集的容量在原有的基础上进行了扩充,并且提高了模型的泛化能力。数据增强的效果如图3所示。
图2 采用ICDAR 2015 act 格式进行定位区域标注图3 采用ICDAR 2015 gt 格式进行定位区域标注
1.3 系统功能设计1.3.1 银行卡号定位
该功能利用多层卷积神经网络提取图像特征,再利用此特征进行如下任务:像素点分类与像素框回归。最后将两个任务结合,使用非极大值抑制NMS 来得到最终检测结果。1.3.1.1 GroundTruth 生成
对于像素点分类,实质上是一个图像分割的任务。训练时,分类任务的GroundTruth 使用定位的文字所在区域表示,文字区域表示为1,非文字区域表示为0。为使边界像素点可
机器人拳击以得到更好的分类效果,在文字的检测区添加了收缩,如图4所示,绿的区域框收缩为黄框。
对于像素框的回归,首先要确定的是表示形式[1]。目前,