语音信号重建方法、装置、电子设备及存储介质

阅读: 评论:0



1.本发明涉及激光探测技术领域,尤其涉及一种语音信号重建方法、装置、电子设备及存储介质。


背景技术:



2.随着科学技术的发展,基于散斑的激光探测技术在远程信号探测与重建方面得到了广泛应用。
3.在基于散斑的激光探测技术中,提取微小振动信号(如语音信号)采用的算法有传统算法相关法和光流法等,以及基于神经网络的深度学习算法。但是,传统算法比较耗时并且抗噪能力差,现有的深度学习算法的神经网络模型的参数量较大,训练时间长,模型处理散斑图像的速度难以跟上高速摄像机采集散斑图像的帧率,从而无法实现实时重建语音信号。并且由于现有模型难以摆脱服务器,导致无法实现在手持设备或移动设备上重建语音信号。


技术实现要素:



4.针对现有技术存在的问题,本发明提供一种语音信号重建方法、装置、电子设备及存储介质。
5.第一方面,本发明提供一种语音信号重建方法,包括:
6.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
7.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
8.对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
9.可选地,根据本发明提供的一种语音信号重建方法,对所述散斑振动位移信号进行语音增强处理,包括:
10.确定与所述目标振动介质相对应的目标语音增强算法;
11.基于所述目标语音增强算法,对所述散斑振动位移信号进行语音增强处理。
12.可选地,根据本发明提供的一种语音信号重建方法,所述神经网络模型是基于shufflenet神经网络和cnn神经网络构建的。
13.可选地,根据本发明提供的一种语音信号重建方法,所述神经网络模型是基于多个级联的shufflenet神经网络构建的。
14.第二方面,本发明还提供一种语音信号重建方法,包括:
15.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
16.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑
振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
17.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
18.第三方面,本发明还提供一种语音信号重建装置,包括:
19.第一获取模块,用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
20.第二获取模块,用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
21.语音增强模块,用于对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
22.第四方面,本发明还提供一种语音信号重建装置,包括:
23.第三获取模块,用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
24.第四获取模块,用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
25.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
26.第五方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述语音信号重建方法,或实现如第二方面所述语音信号重建方法。
27.第六方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述语音信号重建方法,或实现如第二方面所述语音信号重建方法。
28.第七方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述语音信号重建方法,或实现如第二方面所述语音信号重建方法。
29.本发明提供的语音信号重建方法、装置、电子设备及存储介质,通过获取由一组连续帧散斑图像构成的散斑图像序列,并将散斑图像序列输入至shufflenet神经网络模型,获取散斑振动位移信号,再对散斑振动位移信号进行语音增强处理,并将语音增强处理之后的散斑振动位移信号作为重建的语音信号;本发明通过基于shufflenet神经网络模型获取散斑振动位移信号,并对获取的散斑振动位移信号进行语音增强处理,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
附图说明
30.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
31.图1是本发明提供的语音信号重建方法的流程示意图之一;
32.图2是本发明提供的原正弦音频信号的时域图;
33.图3是本发明提供的原正弦音频信号的频域图;
34.图4是本发明提供的振动介质为树叶的语音信号的时域图;
35.图5是本发明提供的振动介质为树叶的语音信号的频域图;
36.图6是本发明提供的振动介质为塑料水杯的语音信号的时域图;
37.图7是本发明提供的振动介质为塑料水杯的语音信号的频域图;
38.图8是本发明提供的振动介质为纸盒的语音信号的时域图;
39.图9是本发明提供的振动介质为纸盒的语音信号的频域图;
40.图10是本发明提供的语音信号重建方法的流程示意图之二;
41.图11是本发明提供的语音信号重建装置的结构示意图之一;
42.图12是本发明提供的语音信号重建装置的结构示意图之二;
43.图13是本发明提供的电子设备的实体结构示意图。
具体实施方式
44.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.为了便于更加清晰地理解本发明各实施例,首先对一些相关的背景知识进行如下介绍。
46.随着科学技术的发展,各个行业对于可以远程测量有了更高的要求。尤其是各种振动信号,以及远程恢复语音信号等。
47.由于现实工业中的各种限制,需要远程对信号进行探测与恢复,由于远程,导致信号往往变得更加的微小,则需要远程探测微小信号的技术。目前在远程探测微小信号方面应用较为广泛的是激光探测技术。
48.激光探测技术主要包括传统的激光探测技术以及基于散斑的激光探测技术。传统的激光探测技术一般需要激光多普勒探测仪等仪器来辅助探测,但这些仪器的造价普遍较高,经济性不强,并且仪器的体积较大,不易携带且隐蔽性不好。基于散斑的激光探测技术所需的设备简单,隐蔽性、灵敏度以及抗干扰性都较好,因此该技术受到广泛应用。
49.有公开文献提供了一种基于激光多普勒测振仪的图像振动测量系统,包括:振动测试平台、激光多普勒测振仪(laser doppler vibrometer,ldv)、频闪光源、控制器、至少2个相机以及电子设备。通过上述图像振动测量系统,能够同时得到具有高时间分辨率特性和高空间分辨率特性的三维振动测量结果;该系统直接使用激光多普勒测振仪来对微小振动进行检测,所用的设备复杂,且价格较高,对应用环境的限制较高,隐蔽性较差。
50.有公开文献提供了一种基于声音传感器的生产设备预测性维修方法,其通过获取正常状态下各生产设备运转时的音频数据,并对各音频数据进行滤波后得到其对应的标准音频波形文件;通过各标准音频波形文件构建对应的原始音频生成模型,并根据各原始音
频生成模型获取各标准音频波形文件对应的预测音频文件;实时采集各生产设备运转时的音频数据,并对其进行滤波后得到实时音频波形文件;获取各实时音频波形文件与其对应的预测音频文件的差异度;当各差异度未在对应的预设标准范围内时发出对应的维修预警信息,解决了目前制造工厂中由于设备在不可预见的情况下出现的一些故障所导致的维修不及时,质量、产能和交期不可控的问题,但对声音传感器以及声源之间的距离有限制,无法恢复远距离的声音信号。
51.有公开文献提供了一种基于多模光纤散斑图谱的振动位移测量系统,包括:激光光源、单模导引光纤、多模传感光纤、图像传感器、数据处理模块以及夹持所述多模传感光纤的振动位移传感模块。本发明将归一化光强内积因子作为检测参量,并通过数据处理模块将其还原为外界的振动位移量,实现了通过检测光信号变化即可测量振动位移量的效果,该测量系统不仅具有较高的检测灵敏度,而且对环境参量的抗干扰能力较强,同时具有实现方法简单、计算量小、测量精度高的特点,但是该测量系统需要用到复杂精密的器件设备,处理过程较为繁琐,对多模光纤的要求较高。
52.下面结合图1-图13描述本发明提供的语音信号重建方法、装置、电子设备及存储介质。
53.图1是本发明提供的语音信号重建方法的流程示意图之一,如图1所示,该方法包括:
54.步骤100,获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的。
55.具体地,从散斑中提取位移信号使用的光学系统,其原理是将激光投射到声源附近的物体(目标振动介质)上,反射出的光在空间中形成一个三维的、椭圆形状的散斑场。当物体产生声致振动时,散斑场会发生整体的移动。因此,可以使用高速摄像机采集一组连续帧散斑图像,从而获取到散斑图像序列,以记录下散斑的运动情况。
56.步骤110,将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的。
57.具体地,可以将获取到的散斑图像序列输入至神经网络模型,获取由神经网络模型输出的散斑振动位移信号,该散斑振动位移信号可以表征连续散斑之间的相对位移。
58.可选地,可以基于shufflenet神经网络构建神经网络模型。
59.可以理解的是,深度cnn(convolutional neural network,卷积神经网络)网络如resnet和densenet,虽然已经极大地提高了图像分类的准确度,但是除了准确度外,计算复杂度也是神经网络要考虑的重要指标,过复杂的网络会降低网络运行速度。同样的,如果使用神经网络来进行散斑振动位移信号的提取,将图像分类的最后一层替换成回归函数,既可以进行连续散斑序列之间位移的训练和预测,在一些深度的cnn网络中也可以极大地提高散斑振动位移信号预测的准确度,但是也会大大影响算法的运行速度,使得效率降低。并且神经网络越复杂,对所需要的服务器或gpu(graphics processing unit,图形处理器)性能要求更高,无法实现便携化和实时性地对散斑振动位移信号进行检测,故业界亟需一种实时性较好并且可搭载在移动手持设备上的散斑振动信号检测方法。
60.shufflenet神经网络是一种轻量级的cnn网络,其可以大大减少模型中的参数量,在速度以及准确度之间可以做到较好的平衡,通过基于shufflenet神经网络构建的神经网
络模型获取散斑振动位移信号,在基于shufflenet的轻量级cnn算法设计下,不仅可以提高语音信号重建效率,增强抗干扰能力,而且不受服务器的限制,可以实现在移动手持端实现散斑振动位移信号的检测。
61.步骤120,对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
62.具体地,在本发明实施例中,在获取到散斑振动位移信号之后,可以先对散斑振动位移信号进行语音增强处理,然后将语音增强处理后的散斑振动位移信号作为重建的语音信号。
63.可以理解的是,语音信号会引发声源周围物体的振动,通过激光器照射声源周围物体会产生二次散斑,声源周围物体的振动会引发散斑的微小移动,故可以通过高速摄像机采集连续散斑序列,之后获取连续散斑序列中的散斑振动位移信号来重建语音信号。
64.可以理解的是,在将激光投射到目标振动介质上后形成散斑,通过获取连续散斑序列提取的散斑振动位移信号会存在增强以及衰弱现象,会严重影响语音信号重建的准确度。
65.因此,在本发明实施例中,通过对获取到的散斑振动位移信号先进行语音增强处理,然后再将语音增强处理后的散斑振动位移信号作为重建的语音信号,可以提高重建的语音信号的准确度。
66.为了使整个语音信号重建设备更小型化,减小散斑振动位移信号提取算法的占有资源比例,本发明实施例通过利用shufflenet神经网络模型从连续的散斑序列中提取散斑振动位移信号,再基于散斑振动位移信号重建语音信号,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率,增强抗干扰能力,而且不受服务器的限制,可以实现在移动设备上重建语音信号。
67.本发明提供的语音信号重建方法,通过获取由一组连续帧散斑图像构成的散斑图像序列,并将散斑图像序列输入至shufflenet神经网络模型,获取散斑振动位移信号,再对散斑振动位移信号进行语音增强处理,并将语音增强处理之后的散斑振动位移信号作为重建的语音信号;本发明通过基于shufflenet神经网络模型获取散斑振动位移信号,并对获取的散斑振动位移信号进行语音增强处理,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
68.可选地,对所述散斑振动位移信号进行语音增强处理,包括:
69.确定与所述目标振动介质相对应的目标语音增强算法;
70.基于所述目标语音增强算法,对所述散斑振动位移信号进行语音增强处理。
71.具体地,在本发明实施例中,可以首先确定与目标振动介质相对应的目标语音增强算法,然后基于目标语音增强算法,对散斑振动位移信号进行语音增强处理。
72.可以理解的是,在将激光投射到不同的物体(目标振动介质)上时,不同频率下的散斑振动位移信号会产生不同程度的增强以及衰弱,会严重影响语音信号重建的准确度。
73.图2是本发明提供的原正弦音频信号的时域图,图3是本发明提供的原正弦音频信号的频域图,如图2和图3所示,将80hz-1600hz的频率渐变,振幅一直为1的正弦音频信号作为声源。可以将激光投射到该声源附近的不同振动介质上,重建出如图4-9所示的语音信
号,其中,图4是本发明提供的振动介质为树叶的语音信号的时域图;图5是本发明提供的振动介质为树叶的语音信号的频域图;图6是本发明提供的振动介质为塑料水杯的语音信号的时域图;图7是本发明提供的振动介质为塑料水杯的语音信号的频域图;图8是本发明提供的振动介质为纸盒的语音信号的时域图;图9是本发明提供的振动介质为纸盒的语音信号的频域图。
74.如图4-9所示,在三种不同的振动介质(树叶、塑料水杯和纸盒)下,可以明显发现重建出的语音信号存在不同频率下幅度衰减不同的频率响应问题。为了克服该频率响应问题,在本发明实施例中,在基于shufflenet神经网络模型提取出散斑振动位移信号之后,可以使用语音增强的方法对散斑振动位移信号进行增强,以消除或减弱这种频率响应问题。
75.可选地,在本发明实施例中,可以针对不同的振动介质,确定不同的语音增强算法,根据振动介质对重建语音使用对应的语音增强算法,可以减弱频率响应对重建语音信号准确度的影响。
76.可选地,在对散斑振动位移信号进行语音增强的过程中,可以对基于数字图像相关法(digital image correlation,dic),或称数字散斑相关法重建出的语音信号进行语音增强处理,以此来提高重建语音信号的准确度。
77.具体地,在本发明实施例中,语音信号重建过程可以包括如下步骤(1)-步骤(5):
78.步骤(1),使用频率渐变,幅度不变的正弦音频作为声源。将激光投射到声源附近的不同物体上,使用高速摄像机采集产生的连续散斑序列。
79.步骤(2),通过shufflenet神经网络模型从连续散斑序列中提取散斑振动位移信号,并基于散斑振动位移信号重建语音信号,包括重建语音信号的时域图以及频域图。
80.步骤(3),将原始正弦音频的频域图与重建语音信号的频域图进行对比,确定出不同的振动介质对应不同的语音增强算法。
81.步骤(4),针对不同的振动介质,使用与振动介质相对应的语音增强算法对重建语音的频域信号进行增强处理。
82.可选地,在频域图中,对于不同频率的语音信号,可以进行不同程度的语音增强。
83.步骤(5),对增强之后的语音频域信号进行逆傅里叶变换,获得语音时域波形,语音重建完成。
84.本发明通过对获取到的散斑振动位移信号先进行与振动介质相对应的语音增强处理,然后再基于语音增强处理后的散斑振动位移信号重建语音信号,可以克服现有光学系统所带来的频率响应缺陷,提高重建的语音信号的准确度。
85.可选地,所述神经网络模型的训练数据集的标签是基于数字图像相关法获得的。
86.具体地,在本发明实施例中,神经网络模型的训练数据集中的标签可以基于数字图像相关法获得。
87.可选地,可以利用基于数字图像相关法得到的训练数据集训练shufflenet神经网络模型。
88.可选地,在训练好shufflenet神经网络模型之后,可以将连续的散斑图像序列输入训练好的shufflenet神经网络模型中,获得散斑之间的位移信号,再进一步根据该位移信号重建远程的语音信号。
89.可选地,所述神经网络模型是基于shufflenet神经网络和cnn神经网络构建的。
90.具体地,在本发明实施例中,可以基于shufflenet神经网络和cnn神经网络构建神经网络模型,即在该神经网络模型中,可以在浅层次的卷积中基于cnn神经网络进行特征提取。
91.例如,构建的神经网络模型的第一层为cnn神经网络,中间层为shufflenet神经网络,最后一层为全连接层。
92.例如,构建的神经网络模型的前两层为cnn神经网络,中间层为shufflenet神经网络,最后两层为全连接层。
93.本发明通过将cnn神经网络与shufflenet神经网络进行结合构建神经网络模型,可以实现首先基于cnn神经网络对散斑图像进行特征提取,提取到散斑图像中更有效的信息,然后再基于shufflenet神经网络进行特征提取,由于shufflenet神经网络所需参数量相比cnn要小很多,可以在保证准确率的同时也保证了模型运行速度。
94.可选地,所述神经网络模型是基于多个级联的shufflenet神经网络构建的。
95.具体地,在本发明实施例中,可以将散斑振动信号所产生的位移分成多个shufflenet分网络,每一个分网络对应一个精度,每一个精度对应多个分类的类别。将该多个shufflenet分网络级联在一起就可以实现对散斑振动位移信号的提取,这样也可将散斑振动位移信号从一个回归问题变成一个分类问题。
96.例如,可以将2个shufflenet分网络进行级联,每一个shufflenet分网络可以代表一个量级的位移类比。第一个shufflenet分网络代表0.1(0.1~0.9)量级的位移类比,可以包括10个分类类别(0~9整数),第二个shufflenet分网络代表0.01(0.01~0.09)量级的位移类比,其也可以包括10个分类类别(0~9整数)。
97.可选地,对于shufflenet神经网络的级联个数,本发明实施例不作具体限定,可以通过实际运用中散斑振动位移的大小,以及需要的精度来确定。
98.本发明通过多个级联的shufflenet神经网络构建神经网络模型,然后再基于该神经网络模型提取散斑振动位移信号,可以进一步提高语音信号重建的准确度。
99.图10是本发明提供的语音信号重建方法的流程示意图之二,如图10所示,该方法包括:
100.步骤1000,获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的。
101.具体地,从散斑中提取位移信号所使用的光学系统,其原理是将激光投射到声源附近的物体(目标振动介质)上,反射出的光在空间中形成一个三维的、椭圆形状的散斑场。当物体产生声致振动时,散斑场会发生整体的移动。因此,可以使用高速摄像机采集一组连续帧散斑图像,从而获取到散斑图像序列,以记录下散斑的运动情况。
102.步骤1010,将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号。
103.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
104.具体地,可以将获取到的散斑图像序列输入至神经网络模型,获取由神经网络模型输出的散斑振动位移信号,该散斑振动位移信号可以表征连续散斑之间的相对位移,并可以将该散斑振动位移信号作为重建的语音信号。
105.可选地,可以基于shufflenet神经网络构建神经网络模型。
106.可选地,构建的神经网络模型的训练数据集的标签可以是基于数字图像相关法,并经过语音增强处理之后获得的。
107.可选地,在本发明实施例中,可以使用增强之后的语音信号作为shufflenet神经网络模型的训练集,使用该训练集训练出的神经网络模型可以直接重建出增强之后的语音信号,不需要再额外进行语音增强操作。
108.本发明提供的语音信号重建方法,通过获取由一组连续帧散斑图像构成的散斑图像序列,并将散斑图像序列输入至shufflenet神经网络模型,获取散斑振动位移信号,并将该散斑振动位移信号作为重建语音信号,其中shufflenet神经网络模型的训练数据集的标签是基于数字图像相关法并经过语音增强处理之后获得的;本发明通过基于shufflenet神经网络模型获取散斑振动位移信号,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
109.下面对本发明提供的语音信号重建装置进行描述,下文描述的语音信号重建装置与上文描述的语音信号重建方法可相互对应参照。
110.图11是本发明提供的语音信号重建装置的结构示意图之一,如图11所示,该装置包括:第一获取模块1110、第二获取模块1120和语音增强模块1130;其中:
111.第一获取模块1110用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
112.第二获取模块1120用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
113.语音增强模块1130用于对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
114.具体地,本发明实施例提供的语音信号重建装置,可以通过第一获取模块1110获取由一组连续帧散斑图像构成的散斑图像序列,该散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;然后将散斑图像序列输入至神经网络模型,通过第二获取模块1120获取由神经网络模型输出的散斑振动位移信号,其中神经网络模型是基于shufflenet神经网络构建的;最后通过语音增强模块1130对散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
115.本发明提供的语音信号重建装置,通过获取由一组连续帧散斑图像构成的散斑图像序列,并将散斑图像序列输入至shufflenet神经网络模型,获取散斑振动位移信号,再对散斑振动位移信号进行语音增强处理,并将语音增强处理之后的散斑振动位移信号作为重建的语音信号;本发明通过基于shufflenet神经网络模型获取散斑振动位移信号,并对获取的散斑振动位移信号进行语音增强处理,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
116.图12是本发明提供的语音信号重建装置的结构示意图之二,如图12所示,该装置包括:第三获取模块1210和第四获取模块1220;其中:
117.第三获取模块1210用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
118.第四获取模块1220用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
119.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
120.具体地,本发明实施例提供的语音信号重建装置,可以通过第三获取模块1210获取由一组连续帧散斑图像构成的散斑图像序列,该散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;然后将散斑图像序列输入至神经网络模型,通过第四获取模块1220获取由神经网络模型输出的散斑振动位移信号,并将该散斑振动位移信号作为重建的语音信号,其中,神经网络模型是基于shufflenet神经网络构建的,神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
121.本发明提供的语音信号重建装置,通过获取由一组连续帧散斑图像构成的散斑图像序列,并将散斑图像序列输入至shufflenet神经网络模型,获取散斑振动位移信号,并将该散斑振动位移信号作为重建语音信号,其中shufflenet神经网络模型的训练数据集的标签是基于数字图像相关法并经过语音增强处理之后获得的;本发明通过基于shufflenet神经网络模型获取散斑振动位移信号,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。
122.在此需要说明的是,本发明实施例提供的上述语音信号重建装置,能够实现上述语音信号重建方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
123.图13是本发明提供的电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(communications interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行上述各方法所提供的语音信号重建方法,该方法包括:
124.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
125.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
126.对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
127.或包括:
128.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
129.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
130.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型
的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
131.此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
132.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音信号重建方法,该方法包括:
133.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
134.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
135.对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
136.或包括:
137.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
138.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
139.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
140.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音信号重建方法,该方法包括:
141.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
142.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;
143.对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。
144.或包括:
145.获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;
146.将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑
振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;
147.其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。
148.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
149.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
150.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种语音信号重建方法,其特征在于,包括:获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。2.根据权利要求1所述的语音信号重建方法,其特征在于,对所述散斑振动位移信号进行语音增强处理,包括:确定与所述目标振动介质相对应的目标语音增强算法;基于所述目标语音增强算法,对所述散斑振动位移信号进行语音增强处理。3.根据权利要求1或2所述的语音信号重建方法,其特征在于,所述神经网络模型是基于shufflenet神经网络和cnn神经网络构建的。4.根据权利要求1或2所述的语音信号重建方法,其特征在于,所述神经网络模型是基于多个级联的shufflenet神经网络构建的。5.一种语音信号重建方法,其特征在于,包括:获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。6.一种语音信号重建装置,其特征在于,包括:第一获取模块,用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;第二获取模块,用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,所述神经网络模型是基于shufflenet神经网络构建的;语音增强模块,用于对所述散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。7.一种语音信号重建装置,其特征在于,包括:第三获取模块,用于获取由一组连续帧散斑图像构成的散斑图像序列,所述散斑图像是基于激光照射在声源附近的目标振动介质上所形成的散斑获得的;第四获取模块,用于将所述散斑图像序列输入至神经网络模型,获取由所述神经网络模型输出的散斑振动位移信号,并将所述散斑振动位移信号作为重建的语音信号;其中,所述神经网络模型是基于shufflenet神经网络构建的,所述神经网络模型的训练数据集的标签是基于数字图像相关法,并经过语音增强处理之后获得的。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述语音信号重建方法,或实现如权利要求5所述语音信号重建方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音信号重建方法,或实现如权利要求5所述语音信号重建方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音信号重建方法,或实现如权利要求5所述语音信号重建方法。

技术总结


本发明提供一种语音信号重建方法、装置、电子设备及存储介质,所述方法包括:获取由一组连续帧散斑图像构成的散斑图像序列;将散斑图像序列输入至神经网络模型,获取由神经网络模型输出的散斑振动位移信号,神经网络模型是基于ShuffleNet神经网络构建的;对散斑振动位移信号进行语音增强处理,并将语音增强处理后的散斑振动位移信号作为重建的语音信号。本发明通过基于ShuffleNet神经网络模型获取散斑振动位移信号,并对散斑振动位移信号进行语音增强处理,不仅可以减弱光学系统引起的频率响应问题,提高语音信号重建效率和重建准确度,增强抗干扰能力,而且不受服务器的限制,可以实现在手持设备或移动设备上重建语音信号。实现在手持设备或移动设备上重建语音信号。实现在手持设备或移动设备上重建语音信号。


技术研发人员:

郝雪营 朱大立 曾华林

受保护的技术使用者:

中国科学院信息工程研究所

技术研发日:

2022.08.01

技术公布日:

2022/11/22

本文发布于:2022-11-24 21:28:50,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/775.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:神经网络   信号   语音   位移
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图