(19)中华人民共和国国家知识产权局
(12)发明专利申请
耐高温防爆玻璃
(10)申请公布号 (43)申请公布日 (21)申请号 201910837914.6
(22)申请日 2019.09.05
(71)申请人 湖南神通智能股份有限公司
地址 410000 湖南省长沙市开福区陡岭路
152号景致雅苑5栋601房
(72)发明人 陈大凯 宋伟 刘光磊 尹正杰
玉米面条加工机械
(74)专利代理机构 长沙市和协专利代理事务所
(普通合伙) 43115
代理人 王培苓
(51)Int.Cl.
G06K 9/00(2006.01)
G06K 9/20(2006.01)
G06K 9/62(2006.01)
G06K 9/46(2006.01)
G06T 7/70(2017.01)开发运维一体化
G06N 3/04(2006.01)G09B 5/06(2006.01)
(54)发明名称一种基于人工智能的单手手指点读文字识别方法和系统(57)摘要本发明提供一种基于人 工智能的单手手指点读文字识别方法,属于智能点读技术领域。所述的手指点读文字识别方法包括以下步骤:(1)通过摄像头采集图像;(2)对图像进行处理;(3)使用手指特征识别神经网络获得初步指尖点坐标;(4)手指特征识别网络经过两次输入定位出精准的指尖坐标,并截取指尖前方矩形区域;(5)文字识别库对矩形区域文字进行识别,获得文字中心坐标点;(6)对文字中心坐标点和指尖点坐标的距离进行比较,输出文字信息;(7)对文字信息进行语音朗读。本发明通过OpenCV视觉算法予以辅助,减轻硬件方面压力,具有良好的市场推广前景,通过手指神经网络精准定位指尖,实现 手指精确点读。权利要求书2页 说明书6页 附图3页CN 110443231 A 2019.11.12
C N 110443231
A
1.一种基于人工智能的单手手指点读文字识别方法,其特征在于,包括以下步骤:
(1)通过摄像头实时采集手指图文图像;
(2)对摄像头采集的单帧高清晰图像进行图像预处理;
(3)使用预先训练好的手指特征识别神经网络,在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标;截取手指指尖点坐标前方的区域输出给文字识别库;
(4)文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;
(5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
(6)对文字信息进行语音朗读。
2.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
3.根据权利要求1所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述步骤(2)中图像处理采用OpenCV算法库对图像进行处理,包括以下步骤:S1、对图像进行开运算;
S2、对图像进行双边滤波,保存边缘图像特征;
S3、使用图像金字塔进行向下采样。
4.根据权利要求3所述的基于人工智能的单手手指点读文字识别方法,其特征在于,所述手指特征识别神经网络的训练包括以下步骤:
S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指指尖点所在的坐标点为关键点;
S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y);
S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数。
5.根据权利要求4所述的基于人工智能的单手手指点读文字识别系统,其特征在于,对所述手指特征点卷积神经网络进行测试,包括以下步骤:
S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络;
S2、通过网格计算获得预测的手指特征的关键点;
S3、进行一次前向传播;
S4、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖坐标。
S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
6.根据权利要求1所述的基于人工智能的单手手指点读文字识别系统,其特征在于,所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。
7.一种基于人工智能的单手手指点读文字识别的系统,其特征在于,包括摄像头、图像处理模块、手指识别模块、文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模块连接,图像处理模块与手指识别模块连接,手指识别模块、文字识别模块、语音模块与中央处理模块连接;
所述摄像头用于实施摄取手指图文图像;
所述图像处理模块用于对所述图像进行处理;
所述手指识别模块对处理的图像进行识别,并定位出手指初步指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标;最后截取精准的手指指尖点坐标前方的矩形区域输出给文字识别模块;
所述文字识别模块识别矩形区域内的文字,并且得到文字中心坐标点;
所述中央处理模块对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息,将文字信息和播放文字信息的指令传输给语音模块进行语音播报。
一种基于人工智能的单手手指点读文字识别方法和系统
技术领域
蚝排[0001]本发明属于智能点读技术领域,具体涉及一种基于人工智能的单手手指点读文字识别方法。
背景技术
[0002]现有的儿童早教机器大多是基于绘本图像的特征来识别绘本。这种早教点读相对不够灵活,无法激起小孩的学习兴趣。对于外文读物和技术文献,很多外语基础不好但从事外贸业务或者国外学术研究人员无法直接阅读,而需要查字典或借其他的翻译工具,耗时耗力又不方便。
[0003]公告号为CN109325464A的中国专利,公开了一种基于人工智能的文字识别方法,发明了利用纯深度学习算法来实现手指点读。实现了快速的文本识别和查单词的流程,整个流程耗时不超过300ms,极大地提高了人们阅读外文的效率。
[0004]但是,该项目虽然从原理上可以实现手指点读识别文本和英文和其他语种,然而该专利在实现上需要构建并训练手指定位神经网络、文本角度神经网络、文本检测神经网络、OCR识别神经网络。因此在算法实现上存在着一定难度。对于系统硬件也有着一定的要求。并且该项目并没有在对手指指尖坐标点进行精准定位,无法在文本上实现精确点读。[0005]山东音为爱智能科技有限公司在201810326362.8公开了一种基于人工智能的儿童绘本辅助阅读方法,其内容包括:逐页拍摄书页图像,制作书页图像模板,保存书页图像特征;通过摄像头拍摄书页图像,提取书页图像的纹理特征,与模板进行匹配,判断书页页码;根据书页页码载入当前页面上的点读资源,点读资源包括绘本中的人物形象及其对应的音频故事和问答资源;检测动态手势的关键图像帧,抛弃模糊不清晰的手势图像帧;通过摄像头拍摄视频帧图像,检测儿童手指指向的点读资源处,则播放对应人物的故事;进入语音问答环节,根据当前页的内容匹配知识库中的问题,主动与儿童会话。上述方法可提供绘本的点读和问答,提高儿童学习兴趣和效率,能够在教学条件不足的场合,辅助儿童自行进行绘本阅读。
[0006]但是,该项目虽然从理论上可以实现辅助儿童自行进行绘本阅读,但是,通过遍历图像的像素点来进行非肤区域的排除,算法耗费时间长,并且具有一定的误判性,不能高效准确的进行手指肤区域的判别。其次结合视频连续帧进行处理,计算相邻两帧的像素值差,根据阈值判断视频帧图像中移动物体的位置区域。在实际运用过程中。实时性不够和硬件成本过高。使其不具有良好的推广性。
发明内容
[0007]本发明通过提供一种基于人工智能的单手手指点读文字识别方法,以解决现有的人工智能点读识别的算法复杂,对硬件要求过高,手指点读不够精准的问题。
[0008]为实现上述目的,本发明的技术解决方案是:
[0009]一种基于人工智能的单手手指点读文字识别方法,包括以下步骤:
[0010]一种基于人工智能的单手手指点读文字识别方法,包括以下步骤:
[0011](1)通过摄像头实时采集手指图文图像;
[0012](2)对摄像头采集的单帧高清晰图像进行图像预处理;
[0013](3)使用预先训练好的手指特征识别神经网络,在预处理的图像中对手指特征区域进行定位并获得手指指尖坐标;截取手指指尖点坐标前方的区域输出给文字识别库;[0014](4)文字识别库对矩形区域中的文字进行识别,并且得到文字中心坐标点;[0015](5)对文字中心坐标点和指尖点坐标的距离进行比较,计算得出距离指尖最近的文字,输出文字信息;
[0016](6)对文字信息进行语音朗读。
[0017]优选地,所述步骤(3)进一步包括在预处理的图像中对手指特征区域进行定位获得初步手指指尖点坐标,再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
[0018]优选地,所述步骤(2)中图像处理为使用OpenCV算法库对图像进行处理,包括以下步骤:
[0019]S1、对图像进行开运算;
[0020]S2、对图像进行双边滤波,保存边缘图像特征;
[0021]S3、使用图像金字塔进行向下采样。
[0022]优选地,所述手指特征识别神经网络的训练包括以下步骤:
[0023]S1、通过拍照获取大量训练数据,通过图像定位技术获取得到手指区域,人工标记手指关键点所在的坐标点,手指关键点包括指尖点、手指左右两侧点、手指关节点;[0024]S2、人工标记手指关键点所在位置的笛卡尔坐标,并根据图像的原始长宽进行归一化存储,即在一个长宽为(w,h)的矩形图像,手指关键点坐标为(a,b),则归一化坐标为(a/w,b/h);
[0025]S3、搭建一个深度卷积神经网络,包括卷积层、池化层、全卷积层,使得网络输入为三通道RGB图像,输出为二维坐标(x,y)。
[0026]S4、利用该卷积神经网络求解点坐标回归问题,通过损失函数求解其梯度,可求得反向传播的残差;
[0027]S5、通过步骤S1大量标记的样本训练该深度卷积神经网络的权重参数,在该卷积神经网络经过一定迭代到达稳定后,可以获得多层的卷积核参数。
四球机[0028]优选地,所述获得手指指尖点坐标的方法包括以下步骤:
[0029]S1、将步骤(2)处理后的图像输入到训练好的卷积神经网络;
[0030]S2、通过网格计算获得预测的手指特征的关键点;
[0031]S3、进行一次前向传播;
[0032]S4、输入预测好的手指特征的关键点,去归一化得到输出初步手指指尖坐标。[0033]S5、再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络,输出得到更为精准的手指指尖坐标。
HSCSB
[0034]优选地,所述文字识别库为采用OCR文字识别库tesseract-ocr来进行文字识别。[0035]一种基于人工智能的单手手指点读文字识别的系统,包括摄像头、图像处理模块、手指识别模块、OCR文字识别模块、中央处理模块以及语音模块,所述摄像头与图像处理模