模型训练、语音识别方法、装置、设备及可读存储介质与流程

阅读: 评论:0



1.本发明涉及语音识别技术领域,尤其涉及一种模型训练、语音识别方法、装置、设备及可读存储介质。


背景技术:



2.在语音识别领域,常见的语音识别模型包括:hmm-gmm(hidden markov model-gaussian mixture model,隐马尔科夫模型和混合高斯模型)、dnn(deep neural networks,深度神经网络)、cnn(convolutional neural networks,卷积神经网络)、tdnn(time delay neural network,时延深度神经网络)、tdnn-f(factorized time delay neural network,分解的时延深度神经网络)等。
3.但是,这些语音识别模型的识别速度都有待提升。


技术实现要素:



4.本发明实施例提供一种模型训练、语音识别方法、装置、设备及可读存储介质,以提高识别速度。
5.第一方面,本发明实施例提供了一种模型训练方法,包括:
6.获取训练数据;
7.利用所述训练数据训练目标语音识别网络,所述目标语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联;
8.其中,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层,且所述第一语音识别网络为具有时延性质的语音识别网络。
9.第二方面,本发明实施例还提供一种语音识别方法,所述方法包括:
10.获取待识别的语音信号;
11.将所述待识别的语音信号输入到语音识别网络;所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络;
12.利用所述语音识别网络的输出作为语音识别结果。
13.第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的第一方面或者第二方面的方法中的步骤。
14.第四方面,本发明实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的第一方面或者第二方面的方法中的步骤。
15.在本发明实施例中,获取训练数据,利用所述训练数据训练目标语音识别网络。其中,所述目标语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联。通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层,且所述第一语音识别网络为具有时延性质的语音识别网络。由于隐藏层采用了并联的两组相同的隐藏层结构,因此,可使得目标语音识别网络中的隐藏层的参数维度变小,从而在利用目标语音识别网络进行数据处理时,降低了计算量,因此,利用目标语音识别网络的计算速度更快,进而也提高了识别速度。
附图说明
16.图1是本发明实施例提供的模型训练方法的流程图;
17.图2是不同步长参数下的tdnn-f的结构示意图;
18.图3是多层tdnn-f的结构示意图;
19.图4是现有技术中tdnn-f网络结构示意图;
20.图5是本发明实施例改进后的tdnn-f网络结构示意图之一;
21.图6是本发明实施例改进后的tdnn-f网络结构示意图之二;
22.图7是本发明实施例提供的语音识别方法的流程图;
23.图8是本发明实施例提供的模型训练装置的结构图;
24.图9是本发明实施例提供的语音识别装置的结构图。
具体实施方式
25.本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
26.本技术实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,并不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.参见图1,图1是本发明实施例提供的模型训练方法的流程图,如图1所示,包括以下步骤:
29.步骤101、获取训练数据。
30.步骤102、利用所述训练数据训练目标语音识别网络。
31.其中,可从数据库中获取用于训练模型的语音数据,对其进行语音处理得到音频频谱特征,并将该音频特征作为所述训练数据。目标语音识别网络的输出为对应多个基本语音元素的输出概率。在训练的过程中,将目标语音识别网络的输出概率与预先通过标注数据计算得到的期望输出概率进行比较,不断更新网络权重,从而进行网络的训练。
32.其中,所述目标语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络
的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层。其中,每组隐藏层可包括至少一层隐藏层。
33.其中,所述第一语音识别网络为具有时延性质的语音识别网络。例如,所述第一语音识别网络可以是cnn、vdcnn(very deep convolutional networks,超深卷积神经网络)、tdnn-f等,或者,所述第一语音识别网络还可为带有卷积神经网络的变种复合结构,如cnn和tdnn-f的组合、cnn和lstm(long short-term memory,长短期记忆网络)的组合、tdnn-f和lstm的组合等。
34.其中,所述目标隐藏层是通过从所述第一语音识别网络的隐藏层中,选择层深符合预设要求的至少一层隐藏层得到的。所述至少两组相同的隐藏层是通过对由所述目标隐藏层形成的网络结构进行复制得到的;其中,由所述目标隐藏层形成的网络结构与所述至少两组相同的隐藏层具有相同的结构。所述至少两组相同的隐藏层是对参数进行调整后的至少两组相同的隐藏层,其中,所述参数包括至少包括步长。其中,步长的取值为整数。根据经验,步长的取值为3,6,9的任意一个取值时,语音识别网络的性能较好,因此,至少两组相同的隐藏层的步长的取值可选自于3,6,9。当有多层隐藏层时,各层隐藏层之间的步长或者至少部分隐藏层的步长可取不同的值,以提高语音识别网络的性能。
35.所述参数还包括:至少两组相同的隐藏层的隐藏层维度。其中,所述至少两组相同的隐藏层的隐藏层维度为所述目标隐藏层所包括的神经元个数与所述目标隐藏层的步长之商。所述隐藏层网络是通过将所述至少两组隐藏层进行并联得到的。所述目标语音识别网络是通过将输入层、所述隐藏层网络、标准化层、随机丢失层、激活层、输出层依次连接得到的,且所述目标语音识别网络的输入层和输出层对应与第一语音识别网络的输入层和输出层相同。其中,所述隐藏层网络的输入端与目标隐藏层中层深最小的隐藏层在所述第一语音识别网络中的输入端相同,所述隐藏层网络的输出端与目标隐藏层中层深最大的隐藏层在所述第一语音识别网络中的输出端相同。
36.以下,详细描述目标语音识别网络的构建过程。
37.具体的,所述目标语音识别网络的构建过程包括:
38.步骤1021、从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层。
39.所述第一语音识别网络可包括输入层、至少一组隐藏层以及输出层。其中,每组隐藏层可包括至少一层隐藏层。在本发明实施例中,从所述第一语音识别网络的隐藏层中,选择层深符合预设要求的至少一组隐藏层作为所述目标隐藏层。其中,层深符合预设要求指的是,层深大于某个预设层深,该预设层深可以根据经验设置。例如,假设隐藏层包括5层,那么,可根据实际需要选择第3、4、5层隐藏层作为目标隐藏层。具体选择哪些作为目标隐藏层,这与识别的任务、系统性能的限制有关。选择的目标隐藏层越多,获得的模型的准确率越高。在选择待目标隐藏层时,可考虑与声学模型的高阶特征相关的隐藏层,也即深层的隐藏层作为目标隐藏层。
40.步骤1022、利用所述目标隐藏层得到至少两组相同的隐藏层。
41.在此步骤中,对由所述目标隐藏层形成的网络结构进行复制,得到至少两组相同的隐藏层;其中,由所述目标隐藏层形成的网络结构与所述至少两组隐藏层具有相同的结构。
42.由于所述目标隐藏层可以是一层或者多层,因此,如果目标隐藏层是一层,那么,该一层目标隐藏层可形成有一个网络结构;如果目标隐藏层是多层,那么,该多层目标隐藏层以及它们之间的连接关系可形成有一个网络结构。在本发明实施例中,对所述目标隐藏层形成的网络结构进行复制,可得到至少两组相同的隐藏层。实际上,至少两组相同的隐藏层中的每个复制隐藏层也可以理解为包括由目标隐藏层形成的网络结构,但是,至少两组相同的隐藏层的参数(如步长,隐藏层维度等)可能与目标隐藏层的不同。
43.步骤1023、利用所述至少两组相同的隐藏层得到隐藏层网络。
44.在此步骤中,将所述至少两组相同的隐藏层进行并联,得到所述隐藏层网络。即,至少两组隐藏层的输入端连接在一起,输出端输出的数据或者信号进行拼接,作为隐藏层网络的输出。
45.步骤1024、至少利用所述第一语音识别网络的输入层、所述隐藏层网络、所述第一语音识别网络的输出层,得到目标语音识别网络。
46.具体的,在此步骤中,可将所述第一语音识别网络的输入层、所述隐藏层网络、所述第一语音识别网络的输出层依次连接,得到目标语音识别网络。为了增加获得的识别模型的鲁棒性,在实际应用中,还可增加标准化层、随机丢失层、激活层等。具体的,将所述第一语音识别网络的输入层、所述隐藏层网络、标准化层、随机丢失层、激活层、所述第一语音识别网络的输出层依次连接,得到所述目标语音识别网络。
47.其中,所述隐藏层网络的输入端与目标隐藏层中层深最小的隐藏层在所述第一语音识别网络中的输入端相同,所述隐藏层网络的输出端与目标隐藏层中层深最大的隐藏层在所述第一语音识别网络中的输出端相同。
48.在实际应用中,目标隐藏层有可能是第一语音识别网络中全部的隐藏层,还可能是部分隐藏层。
49.如果目标隐藏层是第一语音识别网络中全部的隐藏层,那么,隐藏层网络的输入端与输入层连接,隐藏层网络的输出端与输出层连接。为了增加获得的识别模型的鲁棒性,在实际应用中,隐藏层网络的输入端与所述第一语音识别网络的输入层连接,隐藏层网络的输出端与标准化层、随机丢失层、激活层、所述第一语音识别网络的输出层依次连接。
50.如果目标隐藏层是第一语音识别网络中部分的隐藏层,那么,目标隐藏层中层深最小的目标隐藏层的输入端即是隐藏层网络的输入端,目标隐藏层中层深最大的目标隐藏层的输出端即是隐藏层网络的输出端。例如,第一语音识别网络的隐藏层为5层,其中,3,4,5层确定为目标隐藏层。那么,第3层的输入端即是隐藏层网络的输入端,第5层的输出端即是隐藏层网络的输出端。
51.在这种情况下,第一语音识别网络中除目标隐藏层外的其他隐藏层、隐藏层网络可连接在输入层和输出层之间。例如,在一种情况下,隐藏层网络的输入端连接输入层,隐藏层网络的输出端连接第一语音识别网络其他的隐藏层的输入端,其他隐藏层中层深最高的隐藏层的输出端可与标准化层、随机丢失层、激活层、输出层依次连接;在另一种情况下,隐藏层网络的输入端连接第一语音识别网络其他的隐藏层,隐藏层网络的输出端可与标准化层、随机丢失层、激活层、输出层依次连接。
52.实际应用中,输入层的输入为训练数据,在获取了训练数据的输入信息后,输入层向隐藏层提供该输入信息。无论是隐藏层网络中的隐藏层,还是第一语音识别网络中除目
标隐藏层外的其他隐藏层,其作用相同,都是提取特征。不同之处在于当隐藏层处于不同的结构中时,它们对应的输入不同。概括而言,隐藏层的每个神经单元对输入具有不同的权重,进而从不同的角度进行特征提取。输出层用于对接隐藏层并输出模型结果,调整权重以对不同的隐藏层神经元刺激形成正确的反应,得到输出结果。
53.由于隐藏层采用了相同的两组并联隐藏层结构,因此,可使得目标语音识别网络中的隐藏层的参数维度变小,从而在利用目标语音识别网络进行数据处理时,降低了计算量,因此,利用目标语音识别网络的计算速度更快,进而也提高了识别速度。
54.对于卷积神经网络来讲,卷积层每个输出节点的值仅依赖输入层的一个区域,这个区域之外的其他输入值都不会影响输出值,该区域就是感受野。在具体应用中,为了进一步提高模型的计算速度和识别准确率,以及可对输入的不同感受野进行建模,在本发明实施例中,在上述实施例的基础上,还可对至少两组隐藏层的参数进行修改或者调整。
55.具体的,所述参数可以包括步长,进一步的还可以包括至少两组隐藏层的隐藏层维度。其中,步长的取值为整数。但是,根据经验,步长的取值为3,6,9时,语音识别网络的性能较好,因此,至少两组隐藏层的步长的取值可选自于3,6,9。当有多个隐藏层时,各个隐藏层之间的步长或者至少部分隐藏层的步长可取不同的值,以提高语音识别网络的性能。其中,所述至少两组相同的隐藏层的隐藏层维度为所述目标隐藏层所包括的神经元个数与所述目标隐藏层的步长之商。
56.由于并联的方式会增加获得的网络中隐藏层的神经元数量,所以,通过修改或者减少隐藏层维度,可使得获得隐藏层网络前后隐藏层的神经元数量基本保持一致,即模型大小保持一致。
57.以下,以第一语音识别模型为tdnn-f为例描述如何对tdnn-f进行改进,以获得改进后的tdnn-f模型。通过本发明实施例的方案,可减少模型参数量,提高模型推理速度,并提高模型对语音建模的鲁棒性。
58.神经网络模型通常由具有不同结构的子层通过各种方式连接组合而成,常用的子层结构有全连接层、卷积层、循环卷积层、注意力层等;连接方式有串联、并联、残差网络等。tdnn-f网络的相邻层连接关系由步长参数确定,不同步长参数对应的输入层的范围不同。图2示出了不同步长参数下的tdnn-f的结构。图3为多层tdnn-f的结构。
59.通常情况下,tdnn-f可包括输入层、至少一层隐藏层、输出层。在本发明实施例中,将部分隐藏层的网络结构进行复制,得到复制的隐藏层。然后,将复制的隐藏层进行并联,得到隐藏层网络。之后,还可对隐藏层网络的隐藏层维度、步长等进行修改,从而可实现对输入的不同感受野进行建模,并提高模型的识别准确率和识别速度。此外,为增加模型的鲁棒性,还可增加标准化层、随机丢失层、激活层等。
60.图4是现有技术中tdnn-f网络结构示意图,其中,每个隐藏层包括的神经元个数n=1536,步长为3。该结构可以认为是具有单一步长的tdnn-f。从图4中,选择第4,5,6层隐藏层进行复制,得到三组复制隐藏层,并将复制的隐藏层进行并联,得到隐藏层网络。其中,隐藏层网络的输入端是第4层的输入端,输出端是第6层的输出端。隐藏层网络的输出信号或者数据进行拼接即可得到隐藏层网络的输出。此外,为增加模型的鲁棒性,还增加了标准化层、随机丢失层、激活层等。第6层的输出端和输出层(softmax层)之间连接有标准化层(relu层)、随机丢失层(bn)、激活层(dropout层)。因此,得到的改进后的tdnn-f网络结构示
意图如图5所示。
61.由于改进前的tdnn-f网络结构中,神经元个数n=1536,步长为3,因此,改进后的tdnn-f网络结构中,每个复制的隐藏层的隐藏层维度为:1536/3=512;步长可分别设置为3,6,9。可选的,在多个复制的隐藏层中,其中一个的复制的隐藏层的步长和被复制的目标隐藏层的相同。
62.假设改进前的tdnn-f网络中隐藏层输入矩阵维度为m
×
k,隐藏层参数维度为k
×
n,神经网络时间复杂度为o(m
×k×
n);当并联s个隐藏层网络时,改进后的tdnn-f网络对应的隐藏层参数维度为(k/s)
×
(n/s),神经网络时间复杂度为s
×
o(m
×k×
n/s2)=o(m
×k×
n)/s。其中,m,k,n,s,s均为大于0的整数。由此可见,改进后的tdnn-f网络的时间复杂度降低。
63.如图6所示,在其中一个实施例中,tdnn-f的隐藏层维度d=512;单一步长的tdnn-f网络结构61采用4层串行连接,每层tdnn-f的步长d=3;多个步长tdnn-f网络结构(隐藏层网络)62采用7层串行连接,采用3种步长,即d=3/6/9。多个步长tdnn-f网络结构输入并联,输出进行拼帧(或称为拼接);拼帧后的结果经relu层、bn层和dropout层,最终输入到softmax层,softmax层的输出作为该模型的输出。
64.通过以上描述可以看出,利用本发明实施例的方案,可使得改进的tdnn-f模型对不同语速、不同长度发音单元进行声学模型建模,使得声学模型的准确率提高,鲁棒性更好。在模型总参数量和模型结构基本保持不变的情况下,由于神经网络计算复杂度为o(n3),因此,由于隐藏层网络中隐藏层参数维度n更小,从而可使得改进的tdnn-f网络的计算量更小,计算速度更快。
65.在实际应用中,假设实验设置为:训练数据、测试数据、发音词典以及语言模型采用aishell1开源数据集提供数据。实验环境为:采用40核intel(r)xeon(r)gold 6226cpu型号服务器。
66.模型设置除神经网络结构不同,其他解码网络保持完全一致。其中神经网络结构设置如下:
67.single4(512)-single7(1536):表示11层tdnn-f级联神经网络,对应原始神经网络结构。single4(512)-multi7(6-9-12 512):表示4层tdnn-f级联+7层multi-stream级联神经网络,为利用本发明实施例提出的multi-stream神经网络结构。
68.实验结果如下表1所示:
69.表1
[0070][0071]
其中,cer表示字误率,衡量模型识别结果准确率;rtf表示实时响应系数,衡量模型运算速度。
[0072]
通过以上实验可以看出,利用本发明实施例的方案,模型更小,模型识别准确率更
高,计算速度更快。
[0073]
参见图7,图7是本发明实施例提供的语音识别方法的流程图,如图7所示,包括以下步骤:
[0074]
步骤701、获取待识别的语音信号;
[0075]
步骤702、将所述待识别的语音信号输入到语音识别网络;所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络;
[0076]
步骤703、利用所述语音识别网络的输出作为语音识别结果;
[0077]
其中,所述语音识别网络为前述任一模型训练方法得到的目标语音识别网络。
[0078]
由于目标语音识别网络的隐藏层采用了隐藏层网络,因此,可使得目标语音识别网络中的隐藏层的参数维度变小,从而降低了计算量,因此,利用目标语音识别网络的计算速度更快,进而也提高了识别速度。因此,利用本发明实施例的方案可提高语音识别的速度和准确率。
[0079]
本发明实施例还提供了一种模型训练装置。参见图8,图8是本发明实施例提供的模型训练装置的结构图。由于模型训练装置解决问题的原理与本发明实施例中模型训练方法相似,因此该模型训练装置的实施可以参见方法的实施,重复之处不再赘述。
[0080]
如图8所示,模型训练装置800包括:
[0081]
第一获取模块801,用于获取训练数据;
[0082]
第一处理模块802,用于利用所述训练数据训练目标语音识别网络,其中,所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络。
[0083]
其中,所述目标隐藏层是通过从所述第一语音识别网络的隐藏层中,选择层深符合预设要求的至少一组隐藏层得到的。
[0084]
其中,所述至少两组相同的隐藏层是对参数进行调整后的至少两组相同的隐藏层,其中,所述参数包括至少包括步长。
[0085]
其中,所述步长的取值包括3、6、9中的任意一种取值;
[0086]
所述参数还包括:至少两组相同的隐藏层的隐藏层维度;
[0087]
其中,所述至少两组相同的隐藏层的隐藏层维度为所述目标隐藏层所包括的神经元个数与所述目标隐藏层的步长之商。
[0088]
其中,所述目标语音识别网络的输入层、所述隐藏层网络、标准化层、随机丢失层、激活层、输出层依次连接得到的,且所述目标语音识别网络的输入层和输出层对应与第一语音识别网络的输入层和输出层相同;
[0089]
其中,一组隐藏层包括至少一层隐藏层;所述隐藏层网络的输入端与所述目标隐藏层中层深最小的隐藏层在所述第一语音识别网络中的输入端相同,所述隐藏层网络的输
出端与所述目标隐藏层中层深最大的隐藏层在所述第一语音识别网络中的输出端相同。
[0090]
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0091]
本发明实施例还提供了一种语音识别装置。参见图9,图9是本发明实施例提供的语音识别装置的结构图。由于模型训练装置解决问题的原理与本发明实施例中语音识别方法相似,因此该语音识别装置的实施可以参见方法的实施,重复之处不再赘述。
[0092]
如图9所示,语音识别装置900包括:
[0093]
第一获取模块901,用于获取待识别的语音信号;第一识别模块902,用于将所述待识别的语音信号输入到语音识别网络;所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络;第二获取模块903,用于利用所述语音识别网络的输出作为语音识别结果。
[0094]
其中,所述语音识别网络为利用前述的模型训练方法得到的目标语音识别网络。
[0095]
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0096]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0097]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0098]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
[0099]
本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现包括如前所述的模型训练方法中的步骤;或者实现前所述的语音识别方法中的步骤。
[0100]
本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述模型训练方法或者语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光
盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0101]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0102]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0103]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

技术特征:


1.一种模型训练方法,其特征在于,包括:获取训练数据;利用所述训练数据训练目标语音识别网络,所述目标语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联;其中,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层,且所述第一语音识别网络为具有时延性质的语音识别网络。2.根据权利要求1所述的方法,其特征在于,所述目标隐藏层是通过从所述第一语音识别网络的隐藏层中,选择层深符合预设要求的至少一组隐藏层得到的。3.根据权利要求1所述的方法,其特征在于,所述至少两组相同的隐藏层是对参数进行调整后的至少两组相同的隐藏层,其中,所述参数至少包括步长。4.根据权利要求3所述的方法,其特征在于,所述步长的取值包括3、6、9中的任意一种取值;所述参数还包括:所述至少两组相同的隐藏层的隐藏层维度;其中,所述至少两组相同的隐藏层的隐藏层维度为所述目标隐藏层所包括的神经元个数与所述目标隐藏层的步长之商。5.根据权利要求1所述的方法,其特征在于,所述目标语音识别网络的输入层、所述隐藏层网络、标准化层、随机丢失层、激活层、输出层依次连接得到的,且所述目标语音识别网络的输入层和输出层对应与第一语音识别网络的输入层和输出层相同;其中,一组隐藏层包括至少一层隐藏层;所述隐藏层网络的输入端与所述目标隐藏层中层深最小的隐藏层在所述第一语音识别网络中的输入端相同,所述隐藏层网络的输出端与所述目标隐藏层中层深最大的隐藏层在所述第一语音识别网络中的输出端相同。6.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音信号;将所述待识别的语音信号输入到语音识别网络,所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络;利用所述语音识别网络的输出作为语音识别结果。7.根据权利要求6所述的语音识别方法,其特征在于,所述语音识别网络为利用权利要求1-5任一项的模型训练方法得到的目标语音识别网络。8.一种模型训练装置,其特征在于,包括:第一获取模块,用于获取训练数据;第一处理模块,用于利用所述训练数据训练目标语音识别网络,其中,所述语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至
少两组相同的隐藏层并联,通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层得到所述至少两组相同的隐藏层;其中,所述第一语音识别网络为具有时延性质的语音识别网络。9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如权利要求1至5中任一项所述的模型训练方法中的步骤;或者实现如权利要求6至7中所述的语音识别方法中的步骤。10.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现包括如权利要求1至5中任一项所述的模型训练方法中的步骤;或者实现如权利要求6至7中所述的语音识别方法中的步骤。

技术总结


本发明公开了一种模型训练、语音识别方法、装置、设备及可读存储介质,涉及语音识别技术领域,以提高识别速度。该方法包括:获取训练数据;利用训练数据训练目标语音识别网络;其中,所述目标语音识别网络包括输入层、隐藏层网络及输出层,所述隐藏层网络包括至少两组相同的隐藏层,所述至少两组相同的隐藏层并联;通过从第一语音识别网络的隐藏层中选择至少一组隐藏层作为目标隐藏层,并对所述目标隐藏层进行复制得到所述至少两组相同的隐藏层,且所述第一语音识别网络为具有时延性质的语音识别网络;其中,所述第一语音识别网络为具有时延性质的语音识别网络。本发明实施例可提高识别速度。识别速度。识别速度。


技术研发人员:

杨斌 王洪斌 蒋宁 吴海英 杨春勇

受保护的技术使用者:

马上消费金融股份有限公司

技术研发日:

2020.12.22

技术公布日:

2022/6/23

本文发布于:2022-11-26 00:45:04,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/3817.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   网络   语音识别   步长
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图