用于训练语音识别模型的方法以及语音识别方法与流程

阅读：评论：0

1.本技术涉及语音识别技术领域，更具体地，涉及一种用于训练语音识别模型的方法以及基于训练的语音识别模型的语音识别方法。

背景技术：

2.自动语音识别(asr)技术兴起于上世纪50年代，是语言学和计算机科学的交叉领域之一，其目的是利用计算设备将语音信号自动转换成对应的文字，从而识别出说话人的语音命令和文字内容。在几十年的发展过程中，asr技术经历了从简单的数字与音节识别到系统性的理论方法建立，从原始的模式匹配算法到以隐马尔可夫模型(hmm)结合高斯混合模型(gmm)为代表的统计算法，再发展到以神经网络为代表的深度学习算法。
3.模式匹配算法只能识别出简单的单音节，而gmm-hmm语音识别模型的构建过程过于复杂且缺乏自动对齐能力，因此人们基于深度神经网络(dnn)提出了端到端语音识别模型，在简化构建流程的同时也大幅提高了识别的准确率。由于dnn中的每一层都采用了全连接(fc)网络，其参数规模大且不能充分利用语音特征空间中的局部性结构特征，因此人们转向了图像识别中广泛应用的卷积神经网络(cnn)。cnn使用尺度很小的卷积核，结合具有下采样功能的池化操作，使得卷积操作具有平移不变性，克服了语音的复杂变化。多层cnn的级联充分挖掘了语音特征空间中的多尺度结构特征。在cnn对输入特征进行特征加工和初步的分类之后，递归神经网络(rnn)通过递归关系来建模上下文的语义关联，进一步提高了神经网络模型的识别精度。
4.目前广泛应用的端到端模型主要分为两大类，一种是使用cnn、rnn结合联接主义时序分类(ctc)的中小参数规模模型，另一种是以注意力机制为代表的大规模模型。注意力模型只适用于云端识别，而适用于嵌入式设备的cnn-lstm-ctc模型，由于需要进行多次的残差网络(resnet)连接以及归一化操作，涉及到大量的数据读写和运算操作，处理延时难以令人满意。
5.因此，有必要提供一种改进的训练语音识别模型的方法。

技术实现要素：

6.本技术的目的在于提供一种轻量化的用于训练语音识别模型的方法。
7.根据本技术的一个方面，提供了一种用于训练语音识别模型的方法，包括：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签；提供待训练的语音识别模型，所述待训练的语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；其中所述语音识别模型用于对语音数据进行处理以生成对应的语音识别结果；以及利用所述语音训练数据集对所述语音识别模型进行训练，以使得经训练后，所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：
l
cond
小于第一阈值，其中条件数约束损失函数其中，σmax和σmin分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标。
8.在本技术的另一方面，还提供了一种语音识别方法，包括下述步骤：提供语音识别模型，所述语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；用下述步骤对所述语音识别模型进行训练：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签；以及用所述语音识别模型对所述语音训练数据集中的语音数据进行处理以生成对应的语音识别结果；使得经训练后所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：l
cond
小于第一阈值，其中条件数约束损失函数符合等式其中，σmax和σmin分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标；接收待处理的语音输入信号并对所述语音输入信号进行预处理，以生成对应的语音特征向量；以及用经训练的语音识别模型对所述语音特征向量进行处理，以生成对应的语音识别结果。
9.在本技术的又一方面，还提供了一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行上述方面的方法。
10.以上为本技术的概述，可能有简化、概括和省略细节的情况，因此本领域的技术人员应该认识到，该部分仅是示例说明性的，而不旨在以任何方式限定本技术范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征，也非旨在用作为确定所要求保护主题的范围的辅助手段。
附图说明
11.通过下面说明书和所附的权利要求书并与附图结合，将会更加充分地清楚理解本技术内容的上述和其他特征。可以理解，这些附图仅描绘了本技术内容的若干实施方式，因此不应认为是对本技术内容范围的限定。通过采用附图，本技术内容将会得到更加明确和详细地说明。
12.图1示出了根据本技术一个实施例的语音识别模型；
13.图2示出了一种利用残差网络进行跨层连接的卷积子网络进行向量处理的流程图；
14.图3示出了根据本技术一个实施例的用于对语音识别模型进行训练的方法；
15.图4示出了利用多个损失函数来进行训练的语音识别模型的识别错误率与利用单个损失函数来进行训练的语音识别模型的识别错误率的比较示意图。
具体实施方式
16.在下面的详细描述中，参考了构成其一部分的附图。在附图中，类似的符号通常表示类似的组成部分，除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实
施方式并非旨在限定。在不偏离本技术的主题的精神或范围的情况下，可以采用其他实施方式，并且可以做出其他变化。可以理解，可以对本技术中一般性描述的、在附图中图解说明的本技术内容的各个方面进行多种不同构成的配置、替换、组合，设计，而所有这些都明确地构成本技术内容的一部分。
17.图1示出了根据本技术一个实施例的语音识别模型100的框图。在一些实施例中，该语音识别模型100可以被硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解本技术的装置、设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
18.如图1所示，语音识别模型100包括特征提取模块101，其用于对原始的语音输入信号进行预处理，并且生成对应的语音特征向量。例如，特征提取模块101可以耦接到麦克风或类似的音频采集或输入设备，以从其接收被采集或输入的语音输入信号。在一些实施例中，特征提取模块101可以包括模数转换器，用于将接收的模拟格式的语音输入信号转换为数字信号以用于后续处理；在另一些实施例中，特征提取模块101也可以不包括模数转换器，例如在原始的语音输入信号是数字格式的情况下。在一些实施例中，模拟格式的语音输入信号可以被以预定的采样率(例如16khz)进行采样；并且采样的语音数据点可以被按照预定帧长(例如10毫秒)进行分帧以生成具有预定帧长的多个语音数据帧，这些连续的多个语音数据帧即构成了语音特征向量，其可以反映原始的语音输入信号的特征信息。每个语音数据帧可以包括对应数量的语音数据点。例如，在以16khz采样率采集语音输入信号并且帧长为10毫秒的情况下，每个语音数据帧可以具有160个语音数据点。可以理解，在前述的例子中帧长被表示为时间长度，在另一些情况下，帧长也可以被表示为语音数据点的数量，例如帧长为160个语音数据点或256个语音数据点，此时语音数据点的采样率与每帧语音数据点的数量对应于以时间长度表示的帧长。在一些可选的实施例中，语音信号采集的分帧处理时不是背对背地截取语音数据点，而是相互重叠一部分进行截取，也即在不同的语音数据帧之间引入了帧移。可以理解，重叠地截取语音数据点可以增加相邻或相近的语音数据帧之间的相关性。
19.在一些实施例中，每个语音数据帧是时域信号，其包括的语音数据点是按时序进行采样的。在另一些实施例中，每个语音数据帧还可以被进行快速傅立叶变换处理，以得到采用频域格式的信号。
20.仍参考图1所示，语音识别模型100还包括级联耦接的卷积神经网络103、第一全连接网络105、循环神经网络107以及第二全连接网络109，其中卷积神经网络103耦接到特征提取模块101以从其接收语音特征向量。这样，语音特征向量可以被前述各个网络依序地进行处理，以生成对应于语音特征向量的语音识别结果。
21.可以理解，对于语音识别模型100中的卷积神经网络103、第一全连接网络105、循环神经网络107以及第二全连接网络109，每个网络均可以各自包括不同的权重系数矩阵，并且可以利用预定的语音训练数据集来对语音识别模型100进行训练，以确定这些网络分别的权重系数矩阵的值。例如，卷积神经网络103可以包括一个或多个卷积核矩阵，每个卷
积核矩阵可以与被输入的语音特征向量进行卷积操作；其中，卷积核矩阵即可被构造为由多个权重系数构成的权重系数矩阵。全连接网络以及循环神经网络也可以具有类似的权重系数矩阵。这样，经训练的语音识别模型100即可被用于处理未知的语音输入信号，并且产生与这些语音输入信号中的语音对应的语音识别结果。
22.卷积神经网络103可以包括一级或多级卷积子网络。在一些实施例中，卷积子网络可以包括卷积层、非线性激活层以及池化层。其中，每个卷积层包括卷积核矩阵，其能够利用卷积核矩阵对输入的语音特征向量(通常为二维时频向量)进行逐点卷积处理，以提取语音特征向量的特征信息。不同的卷积核矩阵可以具有相同或不同的维度。接着，非线性激活层可以将经卷积处理的语音特征向量进行非线性操作，从而将其中所有小于0的元素均设置为零。最后，池化层可以进一步地将经非线性激活处理的语音特征向量进行池化操作，以在保持其中大部分重要信息(语音特征向量中一些不重要的样本可以被去除)的同时降低其维度。可以理解，在一些实施例中，一个或多个卷积子网络也可以仅包括卷积层，而不包括例如非线性激活层和池化层。
23.图2示出了一种利用残差网络(resnet)进行跨层连接的卷积子网络进行向量处理的流程图。如图2所示，在进行当前的卷积处理时，输入特征向量需要保存在存储器中，待非线性处理完之后与当前运算结果进行求和运算，进而经求和和池化处理后生成输出特征向量。可以看出，这种向量处理在每一次卷积处理前都需要将输入特征向量进行写入和读出存储器的操作，而输入的二维语音特征向量往往维度很大，这个过程会导致读写大量的数据。
24.为了避免上述残差网络跨层连接产生的问题，在本技术的一些实施例中，在对输入的二维语音特征向量进行处理时，例如识别或训练时，可以通过步长为1的卷积操作对二维语音特征向量进行转换，并将转换后的向量存储至存储器中，这可以使得存储在存储器中的二维语音特征向量是连续存储的。此外，由于不使用跨层连接，因此当前运算完的数据不需要额外地存储在存储器中，这可以避免大量的数据读写操作，从而提高了运算效率。其中，步长是指卷积核矩阵相对于语音特征向量的窗口移动的量。
25.仍参考图1，卷积神经网络103后耦接第一全连接网络105，用于将不同时间/频率上的信息做全局关联。在一些实施例中，第一全连接网络105可以包括一个或多个全连接层。全连接层的数量越多，信息处理的精细度也就越高，但是权重参数的量也越大。在实际应用中，可以在信息处理精度和处理能力的需求之间进行平衡，选取适当数量的全连接层。例如，在一些嵌入式设备或其他处理/计算资源较为有限的设备中，第一全连接网络105包括的全连接层的数量可以较少，例如为1层。
26.第一全连接网络105后耦接循环神经网络107。对于像语音特征向量这种序列向量，使用例如门控循环神经网络等循环神经网络有助于在求解当前时间步的状态时利用前一时间步的状态，因为在循环神经网络的模型中当前时间步的状态是由当前时间步的输入和上一个时间步的状态决定的。在一些其他的实施例中，循环神经网络107可以是基于长短期记忆或基于门控循环单元的网络，或者也可以是其他类型的循环神经网络。对于基于门控循环单元的循环神经网络，其单个单元可以同时控制重置和更新；其中更新功能用于控制前一时刻的状态信息被带入当前状态中的程度，而重置功能则控制前一时刻的状态信息中有多少信息被写入到当前的候选集上。
27.循环神经网络107后耦接第二全连接网络109，其进一步处理前级处理后的特征向量，并且向语音识别模型100的输出层提供经处理后的、对应于语音特征向量的语音识别结果。对于中文语音识别的应用场景来说，语音识别结果例如是汉语拼音。可以理解，对于用于处理其他语言的应用场景，语音识别结果也可以例如是其他语言的拼读或拼写。
28.在实际应用中，图1所示的语音识别模型100需要被进行训练，才能确定其中各个权重参数矩阵的值。在本技术的一些实施例中，为了对图1所示的语音识别模型100进行训练，提供如图3所示的训练方法。
29.如图3所示，在步骤302中，可以提供语音训练数据集，该语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签。语音数据可以具有与待识别的语音特征向量类似的格式，也即其同样为二维时频向量。在一些实施例中，可以采用开源的带有语音标签的语音数据来作为语音训练数据集，例如aishell数据集等。本领域技术人员可以理解，根据识别对象的不同，可以采用不同的语音训练数据集来对语音识别模型100进行训练。
30.接着，在步骤304中，可以利用语音训练数据集对图1所示的语音识别模型100进行训练。具体地，可以对语音识别模型100中的卷积神经网络103、第一全连接网络105以及第二全连接网络109施加条件数约束条件。
31.具体地，对于一个矩阵a，其在p-范数上的条件数由等式(1)定义：
32.cond
p
(a)＝||a||
p
||a-1
||
p
ꢀꢀꢀ
(1)
33.其中，p为正整数。以2-范数为例，条件数可以通过奇异值分解来计算，如等式(2)所示：
[0034][0035]
其中，σ
max
和σ
min
分别表示权重参数矩阵的最大奇异值和最小奇异值。条件数l
cond
约束损失函数通过如下等式(3)确定：
[0036][0037]
实验结果表明，条件数l
cond
的约束损失函数趋近于1能够保证矩阵a中每个元素的动态范围保持一致。
[0038]
另外，为了避免归一化处理，即确保每一个参数矩阵的动态范围保持一致，由下列不等式(4)可知：
[0039]
σ
min
(a)
·
||x||2≤||ax||2≤σ
max
(a)
·
||x||2ꢀꢀꢀ
(4)
[0040]
其中，如果输入矩阵a为维度m*n的矩阵，那么x为任一维度为n*1的输入向量，且输出矩阵ax不等于0，也即x为不属于矩阵a零空间的任一向量。
[0041]
输入矩阵a和输出矩阵ax的动态范围保持一致的充分条件如下式(5)所示：
[0042]
σ
min
→1←
σ
max
ꢀꢀꢀ
(5)
[0043]
即矩阵a的最大奇异值和最小奇异值均应趋近于1，例如矩阵a的最大奇异值和最小奇异值与1的差均小于0.2。因此修正后的条件数l
cond
约束损失函数如等式(6)所示：
[0044]
[0045]
在一些实施例中，修正后的条件数约束损失函数的值可以小于第一阈值，例如小于20％，优选地，小于5％。
[0046]
因此，在一些实施例中，可以在步骤304的训练过程中，对卷积神经网络103、第一全连接网络105以及第二全连接网络109中的每一层均采用如等式(6)所示的修正后的条件数约束损失函数，以使得经训练后的语音识别模型100中的每个卷积核矩阵以及全连接层的参数矩阵中有效参数的动态范围保持在一致的范围内。经此方式训练后，可以避免对参数矩阵进行不必要的归一化操作，又可以减少反复读取、写入数据所需的处理资源，从而使得经训练的语音识别模型100便于部署在嵌入式设备或其他计算/处理资源有限的设备上。如果不采用上述方式，训练后的语音识别模型中的卷积核矩阵和参数矩阵的有效参数动态范围就不受约束，会呈现分布较广的情况，就难以部署在嵌入式设备上。
[0047]
仍参考图1所示，为了评价语音识别模型100输出的语音识别结果的准确性，在一些实施例中，语音识别模型100可包括至少一个损失函数，其用于衡量或标定语音识别结果的准确性。在图1所示的实施例中，语音识别模型100包括了三个损失函数，即声调损失函数111、拼音声调损失函数113和无声调拼音损失函数115；但在其他的实施例中，语音识别模型也可以仅包括一个损失函数，例如仅包括拼音声调损失函数113。
[0048]
具体地，在利用图3所示的训练方法对语音识别模型100进行训练的过程中，损失函数可以用于评价经训练的语音识别模型100的语音识别能力是否满足预定识别目标。如果不满足预定识别目标，则需要继续训练，直至满足该预定识别目标。
[0049]
相应地，在图3所示的步骤306中，可以基于语音训练数据集以及至少一个损失函数来计算语音识别结果的准确率。
[0050]
可以理解，每个损失函数对应于一个语音训练数据集。例如，对于中文语音识别的应用，损失函数可以是拼音声调损失函数，也即基于包括了拼音声调的标签来计算语音识别结果的准确率(语音识别结果符合预定拼音声调标签的概率)。再例如，对于中文语音识别的应用，损失函数还可以是无声调拼音损失函数，也即基于包括了无声调拼音的标签来计算语音识别结果的准确率(语音识别结果符合预定无声调拼音标签的概率)。在一些实施例中，还可以提供声调损失函数，也即基于声调的标签来计算语音识别结果的准确率(语音识别结果符合预定声调标签的概率)。优选地，这些损失函数可以被一同使用，以通过多任务计算的方式来提高语音识别模型的训练速度。
[0051]
在一些实施例中，损失函数可以是联接主义时序分类(ctc)损失函数。ctc损失函数具有应对音节长短不定、但合理去除冗余判断的特性，因而特别适用于语音识别。在一个实施例中，ctc损失函数ctc(x)可以采用如下方法构造：
[0052]
对于给定长度t的输入序列x＝(x1,x2,
…
,x
t
)以及相应的输出标签序列l，ctc损失函数ctc(x)定义为给定x时，l的条件概率的负对数：
[0053][0054]
其中β表示路径到标签序列的映射关系，表示第t帧观察到标签π
t
的概率；标签是指语音训练数据集中某一语音特征向量对应的中文拼音(以中文语音训练数据集为例)。
[0055]
在例如图1所示的实施例中，拼音声调损失函数ctc1(x)、声调损失函数ctc2(x)以
及无声调拼音损失函数ctc3(x)被一同用于语音识别模型的训练。这些损失函数都可以采用等式(7)所示的ctc(x)损失函数的形式，其区别仅在于训练时的语音特征标签是不同的(取决于对应的语音训练数据集)。其中，拼音声调损失函数ctc1(x)可以根据第二全连接网络输出的语音识别结果以及语音训练数据集中的拼音声调标签来计算语音识别结果的准确性，其对应于输出概率最高的带声调拼音，即与该带声调拼音相关的损失函数。类似地，声调损失函数ctc2(x)对应于输出概率最高的声调，即与该声调(以其为标签)相关的损失函数；而无声调拼音损失函数ctc3(x)对应于输出概率最高的无声调拼音，即与该无声调拼音(以其为标签)相关的损失函数。例如，可以分别设置每个损失函数所对应的预定识别目标，例如语音识别准确率不低于85％、90％或95％，等等。替代地，也可以对这些损失函数进行加权，并且使得加权后的利用损失函数计算的语音识别准确率满足预定识别目标。例如，可以以等式(8)所示的方法来计算语音识别准确率ctc’(x)：
[0056]
ctc’(x)＝a*ctc1(x)+b*ctc2(x)+c*ctc3(x)
ꢀꢀꢀ
(8)
[0057]
其中a、b、c为预定的加权系数，可以根据实际应用确定。例如，在一些实施例中，a、b和c的和可以为1。例如，a可以为0.5，b可以为0.25，而c可以为0.25。相应地，可以设置预定识别目标为识别准确率不低于90％、95％，等等。在提供多个损失函数来评价语音识别模型的情况下，语音识别模型的训练方法可以充分利用中文语音的声学规律，将训练过程设置为多任务训练，使得语音识别模型在小参数规模时快速收敛，提高语音识别的准确率。
[0058]
仍参考图1，为了将语音识别结果提供给不同的损失函数，第二全连接网络109可以包括全连接子网络109a、全连接子网络109b和全连接子网络109c。其中，全连接子网络109a与声调损失函数ctc2(x)111级联，全连接子网络109b与拼音声调损失函数ctc1(x)113级联，而全连接子网络109c与无声调拼音损失函数ctc3(x)115级联。通过使用三个不同的全连接网络与分别的损失函数连接，第二全连接网络109可以向各个损失函数输出对应的一维向量(语音识别结果，可以是拼音声调、无声调拼音或声调)。
[0059]
可以理解，在利用图3所示的训练方法对语音识别模型进行训练时，可以设置多个损失函数可以提高训练效率，但是在对未知的语音特征向量进行识别时，并不需要输出例如无声调拼音和声调的识别结果。相应地，在进行语音识别时，可以仅保留拼音声调损失函数ctc1(x)，而不考虑其他损失函数。可以理解，在一些其他的实施例中，也可以采用除了ctc损失函数之外的其他类型的损失函数来评估语音识别结果的准确性。
[0060]
图4示出了利用多个损失函数来进行训练的语音识别模型的识别错误率与利用单个损失函数来进行训练的语音识别模型的识别错误率的比较示意图。其中，曲线402示出了利用了3个损失函数来进行训练的结果，而曲线404示出了利用单个拼音声调损失函数来进行训练的结果。从图4可以看出，在训练轮数较少的情况下，采用多个损失函数的识别错误率显著低于采用单个损失函数的识别错误率。
[0061]
在一些实施例中，本技术还提供了一些计算机程序产品，其包括非暂态计算机可读存储介质。该非暂态计算机可读存储介质包括计算机可执行的代码，用于实现本技术实施例所述的语音识别方法和用于训练语音识别模型的方法。在一些实施例中，计算机程序产品可以被存储在硬件装置中，例如音频设备或其他计算装置中。
[0062]
本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处
理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。
[0063]
本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书，理解和实施对披露的实施方式的其他改变。在权利要求中，措词“包括”不排除其他的元素和步骤，并且措辞“一”、“一个”不排除复数。在本技术的实际应用中，一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。

技术特征：

1.一种用于训练语音识别模型的方法，其特征在于，所述方法包括：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签；提供待训练的语音识别模型，所述待训练的语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；其中所述语音识别模型用于对语音数据进行处理以生成对应的语音识别结果；以及利用所述语音训练数据集对所述语音识别模型进行训练，以使得经训练后，所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：l
cond
小于第一阈值，其中条件数约束损失函数符合等式小于第一阈值，其中条件数约束损失函数符合等式其中，σ
max
和σ
min
分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标。2.根据权利要求1所述的方法，其特征在于，所述语音训练数据集是中文语音训练数据集，所述至少一个损失函数包括拼音声调损失函数、声调损失函数以及无声调拼音损失函数。3.根据权利要求2所述的方法，其特征在于，使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标包括：使得利用每个损失函数计算得到的准确率均超过预定识别阈值。4.根据权利要求2所述的方法，其特征在于，使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标包括：使得利用每个损失函数计算得到的准确率的加权值超过预定识别阈值。5.根据权利要求2至4中任一项所述的方法，其特征在于，所述至少一个损失函数是联接主义时序分类损失函数。6.根据权利要求2至4中任一项所述的方法，其特征在于，所述第二全连接网络包括至少一个全连接子网络，并且每个全连接子网络用于耦接一个对应的损失函数，以向所述损失函数提供语音识别结果。7.根据权利要求1所述的方法，其特征在于，所述循环神经网络包括门控循环神经网络。8.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括卷积核矩阵，所述卷积核矩阵在处理语音数据时的窗口移动步长为1。9.一种语音识别方法，其特征在于，所述语音识别方法包括下述步骤：提供语音识别模型，所述语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；用下述步骤对所述语音识别模型进行训练：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音
数据的语音标签；以及用所述语音识别模型对所述语音训练数据集中的语音数据进行处理以生成对应的语音识别结果；使得经训练后所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：l
cond
小于第一阈值，其中条件数约束损失函数符合等式小于第一阈值，其中条件数约束损失函数符合等式其中，σ
max
和σ
min
分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标；接收待处理的语音输入信号并对所述语音输入信号进行预处理，以生成对应的语音特征向量；以及用经训练的语音识别模型对所述语音特征向量进行处理，以生成对应的语音识别结果。10.根据权利要求9所述的语音识别方法，其特征在于，所述语音训练数据集是中文语音训练数据集，所述至少一个损失函数包括拼音声调损失函数、声调损失函数以及无声调拼音损失函数。11.根据权利要求10所述的语音识别方法，其特征在于，使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标包括：使得利用每个损失函数计算得到的准确率均超过预定识别阈值。12.根据权利要求10所述的语音识别方法，其特征在于，使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标包括：使得利用每个损失函数计算得到的准确率的加权值超过预定识别阈值。13.根据权利要求10至12中任一项所述的语音识别方法，其特征在于，所述至少一个损失函数是联接主义时序分类损失函数。14.根据权利要求10至12中任一项所述的语音识别方法，其特征在于，所述第二全连接网络包括至少一个全连接子网络，并且每个全连接子网络用于耦接一个对应的损失函数，以向所述损失函数提供语音识别结果。15.根据权利要求9所述的语音识别方法，其特征在于，所述循环神经网络包括门控循环神经网络。16.根据权利要求9所述的语音识别方法，其特征在于，所述卷积神经网络包括卷积核矩阵，所述卷积核矩阵在处理语音数据时的窗口移动步长为1。17.一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签；提供待训练的语音识别模型，所述待训练的语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个
具有参数矩阵的网络层；其中所述语音识别模型用于对语音数据进行处理以生成对应的语音识别结果；以及利用所述语音训练数据集对所述语音识别模型进行训练，以使得经训练后，所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：l
cond
小于第一阈值，其中条件数约束损失函数符合等式小于第一阈值，其中条件数约束损失函数符合等式其中，σ
max
和σ
min
分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标。18.一种非暂态计算机存储介质，其上存储有一个或多个可执行指令，所述一个或多个可执行指令被处理器执行后执行下述步骤：提供语音识别模型，所述语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；用下述步骤对所述语音识别模型进行训练：提供语音训练数据集，所述语音训练数据集包括多个语音数据以及与对应于每个语音数据的语音标签；以及用所述语音识别模型对所述语音训练数据集中的语音数据进行处理以生成对应的语音识别结果；使得经训练后所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件如下：l
cond
小于第一阈值，其中条件数约束损失函数符合等式小于第一阈值，其中条件数约束损失函数符合等式其中，σ
max
和σ
min
分别表示参数矩阵的最大奇异值和最小奇异值；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标；接收待处理的语音输入信号并对所述语音输入信号进行预处理，以生成对应的语音特征向量；以及用经训练的语音识别模型对所述语音特征向量进行处理，以生成对应的语音识别结果。

技术总结

本申请涉及一种用于训练语音识别模型的方法，包括：提供包括多个语音数据以及与对应于每个语音数据的语音标签的语音训练数据集；提供待训练的语音识别模型，所述待训练的语音识别模型包括级联耦接的卷积神经网络、第一全连接网络、循环神经网络以及第二全连接网络，其中每个网络均包括一个或多个具有参数矩阵的网络层；其中所述语音识别模型用于对语音数据进行处理以生成对应的语音识别结果；以及利用所述语音训练数据集对所述语音识别模型进行训练，以使得经训练后，所述语音识别模型中至少两个相邻的网络层的参数矩阵满足预定约束条件；以及使得利用至少一个损失函数计算的所述语音识别模型对语音数据的语音识别结果的准确率满足预定识别目标。的准确率满足预定识别目标。的准确率满足预定识别目标。