一种流式端到端语音识别模型、电子设备和存储介质

阅读：评论：0

1.本技术涉及语音识别技术领域，更具体地说，涉及一种流式端到端语音识别模型、电子设备和存储介质。

背景技术：

2.语音信号是人类社会中最普遍和常用的信号之一，它是人们表达、交流和传播信息的重要途径。在当今信息爆炸的时代，互联网和电话信道中无时无刻不在产生海量语音数据，为了更加高效地对大规模语音信号进行识别、分类和检索，自动语音识别(automatic speech recognition,asr)的需求变得更加的迫切。
3.相比与传统的基于隐马尔可夫模型(hidden markov model,hmm)的语音识别系统相比，流式端到端语音识别模型把声学模型、发音字典和语音模型全部融合至一套神经网络中，让模型变得更加简洁的同时也更便于对参数直接优化。除此之外，其还具有更强的通用性，更快的实时性，既减少了对专业语言学知识的依赖，又提升了用户对语音产品互动时的体验感。在训练时，训练数据不需要对齐信息，可直接将带标注的语音直接用于训练；推理时不需要关注未来语音帧，可直接对当前帧的信息进行识别。
4.由于流式端到端模型的通用性和实时性，受到业界的青睐，但在传统的语音识别方案中，对输入的音频特征通常会采用固定尺寸的方形卷积进行建模，其会导致建模颗粒度单一，感受野较差的问题，从而影响识别性能。
5.为解决流式端到端模型建模力度较差的问题，常用的方法是增加模型建模的复杂度。其中，增加端到端模型的编码器复杂度对识别效果提升最为显著。目前，最流行的方法是采用包括视觉几何组(visual geometry group,vgg)的transformer作为编码模型，采用长短时记忆(long short-term memory,lstm)神经网络作为解码模型，并通过联合网络(joint network)进行整合构成完整的语音识别模型。
6.其中，训练阶段，在编码器中，输入音频特征通过vgg模块得到高层特征表示，再通过transformer自注意力(self attention,sa)机制计算出注意力得分。该得分表示高层音频特征之间的相关性。这里，为保证编码器具有流式性，采用掩码(mask)机制消除sa机制的右视野信息，忽略未来帧，只比较当前帧与历史帧的相关性。然后再通过线性层(dense layer)和dropout层得到编码器输出。在解码器中，标签文本序列通过嵌入层(embedding layer)生成文本特征，通过lstm得到解码器输出。最后，联合网络会将编码器和解码器输出进行整合，并将其作为transducer损失函数输入。通过对损失函数结果反向传播，从而达到更新整个网络参数的目的。这里，transducer损失函数能够通过空字符将音频帧与标签序列所对应的高层表示进行对齐。
7.解码阶段，解码器具有天然的流式性。将其输入初始化为blank字符，随着每一帧编码器高层特征与解码器进行计算，会得到一个概率向量。其中，该向量的维度包含发音字典和空字符所对应的数量。当最大的概率为时，继续将新的编码器高层特征与解码器计算。当最大的概率为非空的字符时，将其作为解码器新的输入，更新解码器lstm隐状态，再次计
算概率结果。通过这种方式循环往复，直到音频帧输入完为止，从而实现流式语音识别。
8.在现有技术中，通过增加vgg模块和transformer模型的网络层数和神经元节点参数，可以较好提高模型表达能力。但是，由于vgg模块采用的卷积处理方式在解码时需要一帧的右视野，导致其解码时延随着卷积层的数量递增而增加，从而加大了整体延时，严重影响了用户的产品体验。

技术实现要素：

9.有鉴于此，本技术提供一种流式端到端语音识别模型、电子设备和存储介质，用于降低语音识别的时延，以提高用户的产品体验。
10.为了实现上述目的，现提出的方案如下：
11.一种流式端到端语音识别模型，用于配置于电子设备，所述流式端到端语音识别模型包括由联合网络整合的解码器和编码器，其中：
12.所述解码器包括vgg(visual geometry group，视觉几何组)模块，所述vgg模块用于采用流式卷积的方法对输入的音频信号进行卷积处理；
13.所述编码器包括lstm(long short-term memory,长短时记忆)神经网络。
14.可选的，所述解码器包括多个输出信道，每个所述输出信道基于不同尺度的卷积窗进行建模得到。
15.可选的，所述卷积窗为圆形核的卷积窗。
16.可选的，所述卷积窗的尺寸为3x3、5x5和7x7。
17.一种电子设备，其特征在于，所述电子设备配置有如上所述的流式端到端语音识别模型。
18.一种存储介质，其特征在于，所述存储介质承载有如上所述的流式端到端语音识别模型，当所述电子设备执行所述流式端到端语音识别模型时，能够使所述电子设备实施流式语音识别。
19.从上述的技术方案可以看出，本技术公开了一种流式端到端语音识别模型和电子设备，该模型用于配置于电子设备，具体包括由联合网络整合的解码器和编码器。解码器包括vgg(visual geometry group，视觉几何组)模块，该vgg模块用于采用流式卷积的方法对输入的音频信号进行卷积处理；编码器包括lstm神经网络。由于本方案采用流式卷积，不依赖于下一帧信息，因此能够消除卷积模型的时延问题，从而降低了语音识别的时延，进而能够提高用户的产品体验。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1a为本技术实施例中流式卷积的示意图；
22.图1b为传统卷积的示意图；
23.图2a为传统卷积的计算方式的示意图；
24.图2b为本技术实施例中基于不同尺度的卷积的计算方式的示意图；
25.图3a为方形核的卷积窗的示意图；
26.图3b为本技术实施例的圆形核的卷积窗的示意图；
27.图4为本技术实施例的一种电子设备的框图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.实施例一
30.本实施例提供了一种流式端到端语音识别模型。该模型应用于电子设备，这里的电子设备是指具有数据计算和信息处理能力的计算机、服务器或移动设备。本实施例模型包括作为输入端的编码器和作为输出端的解码器，两者通过联合网络整合在一起，构成完整的流式端到端语音识别模型。
31.本技术的解码器包括基于lstm(long short-term memory,长短时记忆)神经网络搭建的解码模型。
32.为消除卷积自身造成的时延影响，本方案中的解码器采用流式卷积的方法。具体来说，该编码器vgg(visual geometry group，视觉几何组)模块，该vgg模块用于采用流式卷积的方法对输入的音频信号进行卷积处理，并将得到的数据作为后续解码模型的输入，以此实现对语音的识别。
33.如图1a所示，斜杠所覆盖的部分是音频特征。其中，横轴代表语音帧，纵轴代表特征维度。由卷积计算公式(1)可知，为了让卷积操作前后的特征大小一致，需要对特征做padding处理。这里，白的部分是卷积padding值为0的部分。
[0034][0035]
其中，x是输入特征维度，f是卷积窗大小，p是padding填充的行列数。s是卷积窗每次滑动(stride)的距离，通常stride为1。在图1b为传统卷积的示意图，图1a为本技术中流式卷积的示意图。
[0036]
在解码阶段，传统卷积(粗线卷积窗)需要两帧音频特征才能进行计算，如图1b所示；而流式卷积(粗线卷积窗)计算只需要一帧音频特征，即输入一帧特征的同时就能生成对应的特征，不依赖下一帧信息，如图1a所示。因此，通过流式卷积能够消除卷积模型的时延问题，保证端到端模型的实时性。
[0037]
从上述技术方案可以看出，本实施例提供了一种流式端到端语音识别模型，该模型用于配置于电子设备，具体包括由联合网络整合的解码器和编码器。解码器包括vgg(visual geometry group，视觉几何组)模块，该vgg模块用于采用流式卷积的方法对输入的音频信号进行卷积处理；编码器包括lstm神经网络。由于本方案采用流式卷积，不依赖于下一帧信息，因此能够消除卷积模型的时延问题，从而降低了语音识别的时延，进而能够提高用户的产品体验。
[0038]
在本技术的另一个具体实施方式中，为解决语音建模基元颗粒度单一的问题，本技术采用多个输出信道，每个输出信道基于不同尺度的卷积窗建模得到。
[0039]
图2a为传统卷积的计算方式的示意图，t帧d维c信道的音频特征与3x3的流式卷积进行计算，会得到h维的高层表示。但由于只含有一种尺度的卷积，建模力度单一，因此本方案提出多个不同尺度的卷积窗，如图2b所示。输入的音频特征分别与3x3、5x5、7x7三种不同尺度的卷积窗进行计算，输出信道分别为c3、c5、c7。其中，3x3的卷积建模颗粒度较小，表示音素一级的语音基元；5x5的卷积建模粒度适中，表示音节一级的语音基元；7x7的卷积建模粒度较大，表示子词一级的语音基元。
[0040]
然后，再将包含不同语音基元信息的三种类型输出信道拼接，从而得到h维特征。这里，为满足卷积的流式性和卷积前后对应的t帧d维一致性，需将输入音频特征第一帧前分别padding 2、4、6帧常数为0的信息，特征周围分别填充1、2、3维全0信息。相比前者，该方法具有更强的模型表达能力。
[0041]
最后，为保证模型拥有较好的感受野，采用圆形核的卷积窗进行建模。虽然方形核的卷积窗非常适合张量计算，常作为vgg的标准建模单元。然而，人类视觉系统中的感受野实际上是圆形的。受此启发，本技术提出具有圆形核的卷积窗，与方形核的卷积床相比，两种方案训练所需的计算量大致相同。为了更好表示其实现过程，以3x3为例进行说明，具体如图3a和图3b所示。
[0042]
其中，图3a为方形核的卷积窗的示意图，图3b为圆形核的卷积窗的示意图。通过对比可知，后者相比前者，浅蓝的核a会挪到核o处。最终，除核d之外的所有核，都在一个圆形的轨迹上。在方形核卷积计算时，每一个核都会与对应的特征进行计算，从而得到x。
[0043]
x＝w
1,1
x
1,1
+w
1,2
x
1,2
+w
1,3
x
1,3
+
[0044]w2,1
x
2,1
+w
2,2
x
2,2
+w
2,3
x
2,3
+
ꢀꢀꢀꢀꢀꢀ
(2)
[0045]w3,1
x
3,1
+w
3,2
x
3,2
+w
3,3
x
3,3
[0046]
但是在圆形核计算中，核o需要通过a、b、c和d核求得。假设以d为中心原点，到b、c的距离为1。由欧式距离近似计算可知，核o与核a距离为0.42，与核d距离为0.99，与核b、c距离为0.76。其距离越近，计算核o所占比重越高。为方便计算，用欧式距离的倒数表示所占比重的大小，从而可以得到核o的计算结果：
[0047]
xo＝(2.38w
1,1
x
1,1
+1.32w
1,2
x
1,2
+1.32w
2,1
x
2,1
+1.01w
2,2
x
2,2
)/4
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0048]
将核o式(3)以及类似的三个核所对应的结果代入式(2)可得。这里，为方便显示，采用四舍五入法只保留小数点后两位的结果：
[0049]
x＝0.60w
1,1
x
1,1
+1.66w
1,2
x
1,2
+0.60w
1,3
x
1,3
+
[0050]
1.66w
2,1
x
2,1
+2.00w
2,2
x
2,2
+1.66w
2,3
x
2,3
+
ꢀꢀꢀꢀ
(4)
[0051]
0.60w
3,1
x
3,1
+1.66w
3,2
x
3,2
+0.60w
3,3
x
3,3
[0052]
通过式(4)可知，这种圆形核卷积能够将特征信息尽可能集中在中心，让模型拥有较为合理的感受野，防止信息扩散。在多尺度的流式卷积中，除了3x3的卷积窗，还包含5x5、7x7的卷积窗。其计算圆形核方式与3x3类似，这里不再赘述。
[0053]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0054]
虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。
[0055]
应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0056]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如c语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机。
[0057]
实施例二
[0058]
图4为本技术实施例的一种电子设备的框图。
[0059]
参考图4所示，其示出了适于用来实现本公开实施例中的电子设备的结构示意图，该电子设备配置有实施例一公开的流式端到端语音识别模型。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0060]
如图4所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储装置406加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有电子设备操作所需的各种程序和数据。处理装置401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0061]
通常，以下装置可以连接至i/o接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置406；以及通信装置409。通信装置409可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0062]
实施例三
[0063]
本实施例提供了一种计算机可读的存储介质，上述配置有实施例一中的流式端到
端语音识别模型。需要说明的是，本存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。
[0064]
计算机可读的存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0065]
在本公开中，计算机可读的存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0066]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0067]
尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0068]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0069]
以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

技术特征：

1.一种流式端到端语音识别模型，用于配置于电子设备，其特征在于，所述流式端到端语音识别模型包括由联合网络整合的解码器和编码器，其中：所述解码器包括vgg(visual geometry group，视觉几何组)模块，所述vgg模块用于采用流式卷积的方法对输入的音频信号进行卷积处理；所述编码器包括lstm(long short-term memory,长短时记忆)神经网络。2.如权利要求1所述的流式端到端语音识别模型，其特征在于，所述解码器包括多个输出信道，每个所述输出信道基于不同尺度的卷积窗进行建模得到。3.如权利要求2所述的流式端到端语音识别模型，其特征在于，所述卷积窗为圆形核的卷积窗。4.如权利要求2所述的流式端到端语音识别模型，其特征在于，所述卷积窗的尺寸为3x3、5x5和7x7。5.一种电子设备，其特征在于，所述电子设备配置有如权利要求1～4任一项所述的流式端到端语音识别模型。6.一种存储介质，其特征在于，所述存储介质承载有如权利要求1～4任一项所述的流式端到端语音识别模型，当所述电子设备执行所述流式端到端语音识别模型时，能够使所述电子设备实施流式语音识别。

技术总结

本申请公开了一种流式端到端语音识别模型和电子设备，该模型用于配置于电子设备，具体包括由联合网络整合的解码器和编码器。解码器包括VGG(Visual Geometry Group，视觉几何组)模块，该VGG模块用于采用流式卷积的方法对输入的音频信号进行卷积处理；编码器包括LSTM神经网络。由于本方案采用流式卷积，不依赖于下一帧信息，因此能够消除卷积模型的时延问题，从而降低了语音识别的时延，进而能够提高用户的产品体验。用户的产品体验。用户的产品体验。