语音活性检测方法、装置、设备及可读存储介质与流程

阅读: 评论:0



1.本技术涉及语音处理技术领域,更具体的说,是涉及一种语音活性检测方法、装置、设备及可读存储介质。


背景技术:



2.语音活性检测(voice activity detection,vad)系统用于对输入语音信号进行语音帧与非语音帧的判断,其判断出的语音帧将被送入后续的语音处理步骤。语音活性检测系统是众多语音相关应用(如,语音唤醒、语音增强、语音编码、语音识别、说话人识别)中至关重要的前置步骤,这些应用在很多场景当中对实时性要求很高,如视频会议场景。因此,语音活性检测系统就需要尽可能快地将有效语音帧送给后续语音处理步骤。
3.目前,语音活性检测系统多采用普通的卷积神经网络(convolutional neural network,cnn)模型实现对输入的语音信号进行语音帧与非语音帧的判断,普通的cnn模型为了保持卷积操作前后时间维的帧数不变,其会用到未来帧,这都会导致普通的cnn模型在推理阶段前向传播过程中产生等待时延。
4.因此,如何提供一种语音活性检测系统,以降低模型在推理阶段前向传播过程中产生的等待时延,成为本领域技术人员亟待解决的技术问题。


技术实现要素:



5.鉴于上述问题,本技术提出了一种语音活性检测方法、装置、设备及可读存储介质。具体方案如下:一种语音活性检测方法,所述方法包括:获取待检测的语音信号对应的各个信号帧的语音特征;将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
6.可选地,所述获取待检测的语音信号对应的各个信号帧的语音特征,包括:对所述语音信号进行分帧加窗处理,得到多个信号帧;针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
7.可选地,所述基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段,包括:对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
8.可选地,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
9.可选地,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
10.可选地,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
11.可选地,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述
第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
12.一种语音活性检测装置,所述装置包括:获取单元,用于获取待检测的语音信号对应的各个信号帧的语音特征;检测单元,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;确定单元,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
13.可选地,所述获取单元,包括:分帧加窗单元,用于对所述语音信号进行分帧加窗处理,得到多个信号帧;特征提取单元,用于针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
14.可选地,所述确定单元,包括:顺滑操作单元,用于对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;噪声语音片段和非噪声语音片段确定单元,用于从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;活性语音片段确定单元,用于将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
15.可选地,所述噪声语音片段和非噪声语音片段确定单元,具体用于:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
16.可选地,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;
所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
17.可选地,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
18.可选地,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
19.一种语音活性检测设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的语音活性检测方法的各个步骤。
20.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音活性检测方法的各个步骤。
21.借由上述技术方案,本技术公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。
附图说明
22.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本技术实施例公开的语音活性检测方法的流程示意图;图2为本技术实施例公开的基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的方法的流程示意图;图3为本技术实施例公开的一种语音活性检测模型的结构示意图;图4为本技术实施例公开的语音活性检测模型中因果卷积神经网络的结构示意图;图5为本技术实施例公开的一种语音活性检测装置结构示意图;图6为本技术实施例公开的一种语音活性检测设备的硬件结构框图。
具体实施方式
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.接下来,通过下述实施例对本技术提供的语音活性检测方法进行介绍。
25.参照图1,图1为本技术实施例公开的语音活性检测方法的流程示意图,该方法可以包括:步骤s101:获取待检测的语音信号对应的各个信号帧的语音特征。
26.在本技术中,待检测的语音信号可以是实时输入的语音信号,对于实时输入的语音信号,在本技术中,可以对所述语音信号进行分帧加窗处理,得到多个信号帧;再针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
27.需要说明的是,在本技术中,可以基于预设的帧长、帧移、窗函数对所述语音信号进行分帧加窗处理,得到多个信号帧。在本技术中,语音特征可以为plp(perceptual linear predictive,感知线性预测系数)、mfcc(mel frequency cepstrum coefficient,梅尔倒谱系数)、filter bank(滤波器组)特征等常见的语音特征,由于filter bank(滤波器组)特征相比mfcc保留了更原始的声学特征,因此,作为一种可实施方式,本技术中可以
选择使用filter bank(滤波器组)特征作为信号帧的语音特征,比如,在本技术中可以选择使用维度为40的filter bank特征作为信号帧的语音特征。
28.人耳对不同频率的感知程度不一样,频率越高,敏感度较低,所以人耳的频域感知是非线性的,梅尔刻度(mel scale)正是刻画这种规律的,它反映了人耳线性感知的梅尔频率(mel frequency)与普通频率之间的关系,梅尔频谱的能量数值取对数,最终得到的结果就是filter bank(滤波器组)特征。
29.步骤s102:将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的。
30.在本技术中,可以将各个信号帧的语音特征分批输入语音活性检测模型,语音活性检测模型可以是基于因果卷积神经网络实现的,相比于现有技术中基于普通的卷积神经网络实现的语音活性检测模型,本技术中的语音活性检测模型在对每个信号帧进行语音活性检测时,是基于该信号帧以及该信号帧之前的预设数量个历史信号帧得到该信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,即,本技术中,语音活性检测模型是采用部分历史视野完全不采用未来视野的信息,因此,可以避免模型在推理阶段前向传播过程中产生等待时延。
31.需要说明的是,语音活性检测模型的具体结构以及功能实现,将通过后面的实施例详细说明,此处不再展开描述。
32.步骤s103:基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
33.活性语音片段由相邻的多个语音帧组成,在本技术中,基于各个信号帧的语音活性检测结果,可以确定各个信号帧是语音帧还是非语音帧,基于此即可确定出活性语音片段。
34.为了保证确定出的活性语音片段的准确性,还可以考虑各个信号帧之间的时序关联,以及各个信号帧的噪声特性,基于各个信号帧的语音活性检测结果、各个信号帧之间的时序关联,以及各个信号帧的噪声特性,确定所述语音信号对应的活性语音片段,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
35.本实施例公开了一种语音活性检测方法,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。
36.在本技术的另一个实施例中,对步骤s103基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的具体实现方式进行了说明。
37.参照图2,图2为本技术实施例公开的基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段的方法的流程示意图,该方法可以包括:
步骤s201:对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段。
38.语音信号是时序信号,这表示信号帧前后之间存在关联,比如,当前信号帧为语音帧,那么下一信号帧为语音帧的概率较大,但是当每个信号帧独立判断时,会出现众多语音帧当中夹杂非语音帧的现象,因此,需要基于各个信号帧的语音活性检测结果,通过人为定义的规则在语音段级别做顺滑操作,用来减少语音帧与非语音帧的频繁跳变。因此,在本技术中,可以对各个信号帧的语音活性检测结果进行顺滑操作,得到语音信号对应的初始活性语音片段。
39.步骤s202:从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段。
40.在本技术中,由于语音活性检测模型,针对每个信号帧,是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的,这会导致语音活性检测模型更容易将背景人声检测为语音帧,为了解决这一问题,可以进一步对初始活性语音片段进行处理,从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,在确定出噪声语音片段和非噪声语音片段之后,再将噪声语音片段抛弃掉,将非噪声语音片段确定为活性语音片段。
41.作为一种可实施方式,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
42.步骤s203:将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
43.在本技术的另一个实施例中,对语音活性检测模型的结构和功能实现进行了说明。
44.参照图3,图3为本技术实施例公开的一种语音活性检测模型的结构示意图,该语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;作为一种可实施方式,所述第一卷积层可以采用3
×
3的卷积核。在本技术中,可以设置第一卷积层的填充参数,进而实现前后补零填充。
45.所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;需要说明的是,拼帧处理可降低后续模型结构的计算复杂度,进一步降低模型的计算时延。
46.所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;在本技术中,可以设置因果卷积神经网络的填充参数,进而实现前置补零填充。
47.所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;作为一种可实施方式,所述第二卷积层可以采用1
×
5的卷积核。在本技术中,可以设置第二卷积层的填充参数,进而实现前后补零填充。
48.所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
49.在本技术的另一个实施例中,对语音活性检测模型中因果卷积神经网络的结构进行了说明。
50.参照图4,图4为本技术实施例公开的语音活性检测模型中因果卷积神经网络的结构示意图,因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;作为一种可实施方式,第一卷积模块可以采用1
×
1的卷积核。
51.每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
52.其中,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;作为一种可实施方式,第一卷积子层可以采用1
×
3的卷积核。
53.所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;作为一种可实施方式,第二卷积子层可以采用1
×
1的卷积核。
54.所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
55.需要说明的是,本技术实施例中提出的语音活性检测模型的结构仅仅是示例性的,在此基础上得到的其他类似结构也应在本技术的保护范围之内。
56.下面对本技术实施例公开的语音活性检测装置进行描述,下文描述的语音活性检测装置与上文描述的语音活性检测方法可相互对应参照。
57.参照图5,图5为本技术实施例公开的一种语音活性检测装置结构示意图。如图5所示,该语音活性检测装置可以包括:
获取单元11,用于获取待检测的语音信号对应的各个信号帧的语音特征;检测单元12,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;确定单元13,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
58.作为一种可实施方式,所述获取单元,包括:分帧加窗单元,用于对所述语音信号进行分帧加窗处理,得到多个信号帧;特征提取单元,用于针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。
59.作为一种可实施方式,所述确定单元,包括:顺滑操作单元,用于对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;噪声语音片段和非噪声语音片段确定单元,用于从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;活性语音片段确定单元,用于将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。
60.作为一种可实施方式,所述噪声语音片段和非噪声语音片段确定单元,具体用于:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。
61.作为一种可实施方式,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输
出的信号帧的帧数一致;所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。
62.作为一种可实施方式,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。
63.作为一种可实施方式,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。
64.参照图6,图6为本技术实施例提供的语音活性检测设备的硬件结构框图,参照图6,语音活性检测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:获取待检测的语音信号对应的各个信号帧的语音特征;将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各
个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
65.可选的,所述程序的细化功能和扩展功能可参照上文描述。
66.本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:获取待检测的语音信号对应的各个信号帧的语音特征;将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。
67.可选的,所述程序的细化功能和扩展功能可参照上文描述。
68.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
69.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
70.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种语音活性检测方法,其特征在于,所述方法包括:获取待检测的语音信号对应的各个信号帧的语音特征;将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。2.根据权利要求1所述的方法,其特征在于,所述获取待检测的语音信号对应的各个信号帧的语音特征,包括:对所述语音信号进行分帧加窗处理,得到多个信号帧;针对每个信号帧,对所述信号帧进行特征提取,得到所述信号帧的语音特征。3.根据权利要求1所述的方法,其特征在于,所述基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段,包括:对各个信号帧的语音活性检测结果进行顺滑操作,得到所述语音信号对应的初始活性语音片段;从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段;将所述非噪声语音片段确定为所述语音信号对应的活性语音片段。4.根据权利要求3所述的方法,其特征在于,所述从各个初始活性语音片段中,确定出噪声语音片段和非噪声语音片段,包括:针对每个所述初始活性语音片段,计算所述初始活性语音片段对应的后验概率均方差;如果所述初始活性语音片段对应的后验概率均方差低于预设的后验概率均方差门限,则确定所述初始活性语音片段为噪声语音片段;如果所述初始活性语音片段对应的后验概率均方差不低于预设的后验概率均方差门限,则确定所述初始活性语音片段为非噪声语音片段。5.根据权利要求1所述的方法,其特征在于,所述语音活性检测模型包括依次连接的第一卷积层、正则化层、激活函数层、池化层、拼帧层、因果卷积神经网络、第二卷积层和全连接层;所述第一卷积层用于接收所述各个信号帧的语音特征,并对所述各个信号帧的语音特征进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与接收的信号帧的帧数一致;所述正则化层用于接收所述第一卷积层的输出,并对所述第一卷积层的输出进行正则化处理;所述激活函数层用于接收所述正则化层的输出,并对所述正则化层的输出进行激活处理;所述池化层用于接收所述激活函数层的输出,并对所述激活函数层的输出进行池化处理;所述拼帧层用于接收所述池化层的输出,并对所述池化层的输出进行拼帧处理;所述因果卷积神经网络用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积
处理,在卷积处理过程中通过前置补零填充保持输出的信号帧的帧数与所述拼帧层输出的信号帧的帧数一致;所述第二卷积层用于接收所述因果卷积神经网络的输出,并对所述因果卷积神经网络的输出进行卷积处理,在卷积处理过程中通过前后补零填充保持输出的信号帧的帧数与所述因果卷积神经网络输出的信号帧的帧数一致;所述全连接层用于接收所述第二卷积层的输出,并对所述第二卷积层的输出进行全连接处理,得到所述各个信号帧的语音活性检测结果。6.根据权利要求5所述的方法,其特征在于,所述因果卷积神经网络包括:第一卷积模块,与所述第一卷积模块分别连接的多个并列的第二卷积模块,以及,与所述多个并列的第二卷积模块连接的融合模块;所述第一卷积模块用于接收所述拼帧层的输出,并对所述拼帧层的输出进行卷积处理;每个所述第二卷积模块用于接收所述第一卷积模块的输出,并对所述第一卷积模块的输出进行卷积处理,得到卷积结果;所述融合模块用于接收各个第二卷积模块的卷积结果,并对各个第二卷积模块的卷积结果进行融合处理,得到所述因果卷积神经网络的输出。7.根据权利要求6所述的方法,其特征在于,所述第二卷积模块包括预设数量个卷积单元,每个卷积单元包括前置填充层、第一卷积子层、第二卷积子层和残差连接层;所述前置填充层用于接收所述第一卷积模块的输出,并基于前置填充参数对所述第一卷积模块的输出进行前置填充处理,所述前置填充参数是基于所述因果卷积神经网络的扩展系数确定的;所述第一卷积子层用于接收所述前置填充层的输出,并对所述前置填充层的输出进行卷积处理;所述第二卷积子层用于接收所述第一卷积子层的输出,并对所述第一卷积子层的输出进行卷积处理;所述残差连接层用于对所述前置填充层的输出和所述第二卷积子层的输出进行残差处理。8.一种语音活性检测装置,其特征在于,所述装置包括:获取单元,用于获取待检测的语音信号对应的各个信号帧的语音特征;检测单元,用于将各个信号帧的语音特征输入语音活性检测模型,所述语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示所述信号帧为语音帧还是非语音帧;针对每个信号帧,所述语音活性检测模型是基于所述信号帧以及所述信号帧之前的历史信号帧得到所述信号帧的语音活性检测结果的;确定单元,用于基于各个信号帧的语音活性检测结果,确定所述语音信号对应的活性语音片段。9.一种语音活性检测设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的语音活性检测方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音活性检测方法的各个步骤。

技术总结


本申请公开了一种语音活性检测方法、装置、设备及可读存储介质,首先,获取待检测的语音信号对应的各个信号帧的语音特征;然后,将各个信号帧的语音特征输入语音活性检测模型,语音活性检测模型输出各个信号帧的语音活性检测结果,每个信号帧的语音活性检测结果用于指示信号帧为语音帧还是非语音帧;最后,基于各个信号帧的语音活性检测结果,确定语音信号对应的活性语音片段。本方案中,针对每个信号帧,语音活性检测模型是基于该信号帧以及该信号帧之前的历史信号帧得到信号帧的语音活性检测结果的,不会用到该信号帧之后的未来帧,因此,可以降低模型在推理阶段前向传播过程中产生等待时延。产生等待时延。产生等待时延。


技术研发人员:

胡今朝 李威 李永超 马志强 周传福 潘志兵

受保护的技术使用者:

安徽讯飞寰语科技有限公司

技术研发日:

2022.08.31

技术公布日:

2022/9/30

本文发布于:2023-03-30 16:48:02,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/82070.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   所述   语音   信号
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图