基于动态卷积和窄带Conformer的语音增强方法

阅读: 评论:0


基于动态卷积和窄带conformer的语音增强方法
技术领域
1.本发明涉及语音处理技术领域,具体涉及到一种基于动态卷积和窄带conformer的语音增强方法。


背景技术:



2.在真实环境中,语音信号不可避免地受到各种噪声的干扰,如其他人的谈话、电视节目、餐馆、地铁等声音。除了环境噪声,声波在封闭空间(如客厅、会议室等)中的衰减和延时反射所引起的混响,也会影响语音的感知质量。研究者将真实场景下影响语音质量的因素总结为三大方面:环境噪声、房间混响和其他说话人干扰。语音增强的研究目标就是消除这三方面的影响。语音增强技术,是指通过语音信号处理算法从被噪声干扰的语音中恢复目标语音,进而提高目标语音的感知质量和可懂度。
3.常见的语音增强算法可以划分成两大类:传统的语音增强算法和基于机器学习的语音增强算法。经过几十年的发展,传统的语音增强算法领域已经诞生了几类非常经典的语音增强算法。1979年,boll等人提出了经典的谱减法,随后lim等人针对谱减法的一系列问题提出了维纳滤波法。1985年,ephraim等人提出了基于对数谱的最小方差误差估计方法。1991年,dendrinos等人提出了将奇异值分解运用于信号子空间中,但是这种方法也会出现一定的语音失真以及音乐噪声问题。为了解决此问题,2000年,mittal等人提出了一种基于噪声霍特林变换矩阵的语音增强算法。
4.随着计算机硬件能力的提升以及训练数据集的不断扩大,基于机器学习的语音增强算法受到了研究人员的重视。1992年,ephraim等人提出了利用语音识别领域中隐马尔可夫模型的基本思想,对含噪语音及纯净语音进行最大后验信号估计和最小均方误差来实现语音增强,获得了比谱减法更佳的语音增强效果。2008年,wilson等人提出了基于非负矩阵分解的算法。2013年,lu等人基于深度置信网络以及降噪自动编码器的思想,成功将深层神经网络运用到语音增强领域中。随着卷积神经网络的兴起,其网络中的计算可以并行执行,同时特有的权重共享及局部感知的特性可以有效地捕获语音信号中的一些局部细节。2017年,pascualet等人提出segan模型,验证了基于生成对抗网络的时域语音增强的可行性。2018年,kim等人提出mdphd模型,该模型一定程度上缓解了时域语音增强方法建模困难的问题。
5.得益于语音增强领域的蓬勃发展,上述提到的方法在一定程度上提升了语音增强的感知质量和可懂度,但上述提到的方法尚存在以下问题:由于长输入导致的计算量过大,从而降低了模型效率,另一方面,模型对语音特征信息的提取能力有待提高,因此如何减少计算参数量以及进一步提高模型效率,同时提高模型对语音特征信息的提取能力成为当前该领域的研究热点和难点。


技术实现要素:



6.为了克服现有技术计算的参数量过大,模型效率低下,耗时过长的不足,本发明披
露了一种基于动态卷积和窄带conformer的语音增强方法,该方法可以增强网络的表征能力,有效提取局部和全局的上下文特征信息,提高模型对深层特征的学习能力,从而获得更高的语音感知质量和可懂度。
7.本发明采用的技术方案如下:
8.一种基于动态卷积和窄带conformer语音增强方法,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
9.步骤1、获取大量的训练语料,训练语料由多名说话人的语料组成,包括含噪语音和纯净语音;
10.步骤2、对训练语料中的原始含噪语音、原始纯净语音进行预处理,得到固定长度的含噪语音x和纯净语音s;
11.步骤3、将上述预处理后得到的固定长度的含噪语音x、纯净语音s输入到增强网络中进行训练,所述的增强网络由生成器g、鉴别器d组成,所述的生成器g由编码网络、分离网络、窄带conformer网络以及解码网络组成,窄带conformer网络构建在分离网络和解码网络之间;说话人的高维度中间向量依次输入到窄带conformer网络和解码网络中;所述的鉴别器d由编码网络、卷积神经网络和评估网络组成,所述鉴别器d的编码网络和生成器g的编码网络共享权重;
12.步骤4、对所述增强网络训练过程中,使所述增强网络的生成器的损失函数、鉴别器的损失函数尽量小,设置所述增强网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的增强网络,称之为dyconv-nbc tseg络;
13.所述测试阶段包含以下步骤:
14.步骤5、选取不同噪声的原始含噪语音作为待增强语料,预处理待增强语料中的原始含噪语音,得到固定长度的含噪语音x


15.步骤6、将上述预处理后得到的固定长度的含噪语音x

输入步骤4训练好的增强网络中,从而得到增强语音。
16.在上述技术方案中,生成器g的分离网络和解码网络之间构建了窄带conformer网络。
17.本发明的进一步改进,步骤3和4中的训练过程如下:
18.(1)对原始含噪语音进行预处理,得到固定长度的含噪语音x,将固定长度的含噪语音x输入到生成器g的编码网络,对含噪语音进行特征提取,得到高维度的中间向量u(x);
19.(2)将上述得到的高维度的中间向量u(x)输入到生成器g的分离网络中估计潜在特征掩码,从而得到各个含噪语音对应的潜在特征掩码f(u(x));
20.(3)将上述得到的潜在特征掩码f(u(x))输入到生成器g的解码网络进行训练,在训练过程中最小化生成器g的损失函数,从而得到增强语音
21.(4)将上述得到的增强语音纯净语音s一同输入到鉴别器d中进行训练,最小化鉴别器d的损失函数;
22.(5)重复(1)-(4)的过程,直至达到设置的迭代次数,从而得到训练好的dyconv-nbc tseg络。
23.本发明的进一步改进,步骤6中的输入过程如下:
24.(1)对原始含噪语音进行预处理,得到固定长度的含噪语音x,将固定长度的含噪
语音x输入到生成器g的编码网络,对含噪语音进行特征提取,得到高维度的中间向量u(x);
25.(2)将上述得到的高维度的中间向量u(x)输入到生成器g的分离网络中估计潜在特征掩码,从而得到各个含噪语音对应的潜在特征掩码f(u(x));
26.(3)将上述得到的潜在特征掩码f(u(x))输入到生成器g的解码网络进行训练,在训练过程中最小化生成器g的损失函数,从而得到增强语音
27.在本发明中,度量评估q(
·
,s)为:
[0028][0029]
其中,si-snr(
·
,s)表示si-snr损失,即尺度不变的信噪比;β表示调整tanh(
·
)灵敏度区间的参数,在实验中设置为100。si-snr(
·
,s)∈r用tanh(
·
)得到度量q(
·
,s)∈[-1,1],其中q(
·
,s)=1和q(
·
,s)=-1分别表示最好的情况和最坏的情况,对应于最佳和最差的si-snr值。
[0030]
在本发明中,si-snr损失为:
[0031][0032]
其中,表示比例因子,s表示纯净语音,表示增强语音,表示信号功率,表示2-范数的平方。
[0033]
在本发明中,生成器g的损失函数为:
[0034][0035]
其中,λ表示l
p
范数约束的惩罚参数,‖
·
‖1表示1-范数,dm(
·
,s)∈[-1,1]表示鉴别器d,q表示希望生成器通过鉴别器达到的目标评估分数,若设置为1可以获得最佳评估q(s,s)。
[0036]
在本发明中,鉴别器d的损失函数为:
[0037][0038]
其中,dm(
·
,s)∈[-1,1]表示鉴别器d;q(s,s)和分别表示纯净语音s和增强语音的评估分数。
[0039]
本发明的进一步改进,编码网络由1个一维卷积模块组成,其中,一维卷积模块包括卷积层、prelu激活指导层以及归一化层:
[0040]
所述prelu激活指导的公式表示为:
[0041][0042]
其中,δ∈r表示一个可训练的标量,用于控制整流器的负斜率;
[0043]
在非因果配置中,所述归一化层为全局归一化,其公式表示为:
[0044]
[0045][0046][0047]
其中,f∈rn×
t
表示特征,e[
·
]表示特征的期望,

表示对应点相乘,γ、τ∈rn×1表示可训练参数,n、t表示维度;∈表示一个很小的值,用于维持数值稳定性;
[0048]
在因果配置中,所述归一化层则为累积层归一化,其公式表示为:
[0049][0050][0051][0052]
其中,fk∈rn×1表示特征f的第k帧,f
t≤k
∈rn×k表示对应于k帧的特征[f1,f2,

,fk],γ、τ∈rn×1表示应用于所有帧的可训练参数,

表示对应点相乘,n、t表示维度。
[0053]
本发明的进一步改进,所述分离网络由m个一维卷积模块、prelu激活指导层以及归一化层组成,其中,一维卷积模块包括卷积层、激活指导层以及归一化层,其中,激活指导层包括prelu激活指导和sigmoid激活指导。
[0054]
所述sigmoid激活指导函数表示为:
[0055][0056]
其中,a表示激活指导层的输入,表示超参数,设为0.1,exp表示以自然常数e为底的指数函数。
[0057]
其中,窄带conformer网络融合在生成器分离网络和解码网络之间,由一个卷积层、平均池化层、激活指导层以及3个全连接层组成,其中,卷积模块由具有相对位置编码的多头自注意力网络、l2组具有卷积层的前馈网络组成、层归一化以及dropout层组成。
[0058]
本发明的进一步改进,所述多头自注意力和相对位置编码模块(multi-head self-attention with relative positional encoding,rpsa)的输出为:
[0059][0060]
其中,x
i-1
表示第i个改进后的conformer网络的输入,layernorm表示层归一化,h1是隐藏单元的数量,t表示维度。
[0061]
所述增强语音可以表征为:
[0062][0063]
其中,x表示含噪语音,u(
·
)、v(
·
)、f(
·
)分别表示编码器、解码器以及特征掩码函数,

表示表示对应点相乘。
[0064]
所述silu激活指导层的公式为:
[0065][0066]
其中,a表示激活指导层的输入,表示超参数,exp表示以自然常数e为底的指数函数。
[0067]
所述鉴别器d由编码模块、卷积神经网络模块和评估模块组成,其中卷积神经网络模块包含一个2d-cnn模块,所述2d-cnn模块由基于轻量级卷积的动态卷积和加权自适应实例归一化wadain组成。
[0068]
所述轻量级卷积对于序列中第i个元素和输出维度m的公式为:
[0069][0070]
其中,x、h、d、w∈rd×k分别表示特征矩阵、通道数、维度和权重,“:”表示获取指定行/列的所有元素,depthwiseconv表示深度卷积,softmax表示归一化指数函数。
[0071]
所述归一化指数函数softmax归一化的公式为:
[0072][0073]
其中,r表示时间维度,l表示通道数,y∈r
l
×r表示时间维度r上的权重,exp表示以自然常数e为底的指数函数。
[0074]
所述轻量级卷积的输出为:
[0075][0076]
其中,x∈rb×
t
×c为特征矩阵,b、t、c分别表示批量大小、段长度和通道数;k∈rk×h为卷积核,k、h分别表示核大小、头数;在轻量级卷积的基础上,动态卷积引入了额外的核生成机制,从输入特征x生成核,使得动态卷积的核k

的形状变为[b,t,k,h]。
[0077]
所述动态卷积的输出为:
[0078][0079]
其中,k

∈rb×
t
×k×h为特征矩阵x通过激活指导层以及线性层生成的动态卷积的核,b、t、c、h、k分别表示批量大小、段长度、通道数、头数和核大小。
[0080]
所述动态卷积的核k

为:
[0081]k′
=[glu(xw1+b1)]
×
w2+b2[0082]
其中,glu表示门控机制激活函数,w1∈rc×
(2
×
c)
,b1∈r2×c,w2∈rc×
(k
×
h)
,b2∈rk×h分别表示训练参数,c、h、k分别表示通道数、头数和核大小。
[0083]
进一步说明,所述加权自适应实例归一化wadain的自适应卷积核w

的公式为:
[0084]w′
=θ*w
[0085]
其中,x

表示加权自适应实例归一化wadain层的输入,θ表示从目标说话人嵌入s

通过线性层生成的仿射参数,目标说话人嵌入s

表示加权自适应实例归一化wadain层的前一层卷积神经网络提取的说话人信息。
[0086]
本发明的有益效果:现有技术相比,本发明中将窄带conformer网络引入至分离网络和解码网络中,窄带conformer网络自动利用窄带信息来执行语音分离,将注意力机制和卷积神经网络(convolutional neural networks,cnn)结合起来,利用cnn的局部建模能力来获取序列的局部特征,同时加深了网络的深度;conformer用了许多高效的正则化手段来对网络进行优化,使模型更容易训练和收敛;窄带conformer网络利用注意力机制的全局建模能力和cnn的局部建模能力,同时发挥两者的优势,提升模型对语音特征信息的提取能力,较好地提升增强语音的感知质量和可懂度。此外,本发明用基于轻量级卷积的动态卷积代替传统卷积,将其引入至鉴别器中,动态卷积具有随时间步长变化的内核,提高了建模局部动态信息的能力,同时减少了参数的数量,解决由于长输入所导致的计算量过大的问题。综述,本发明不仅改善降噪效果,而且有效提升算法的运行效率以及模型的稳定性和可靠性。
附图说明
[0087]
图1是本发明实施例所述的模型的原理示意图。
[0088]
图2是本发明实施例所述的模型中生成器的网络结构图。
[0089]
图3是本发明实施例所述的模型中鉴别器的网络结构图。
[0090]
图4是本发明实施例所述的模型中动态卷积的网络结构图。
[0091]
图5是本发明实施例所述的模型中窄带conformer的网络结构图。
具体实施方式
[0092]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0093]
实施例,如图1所示,一种基于动态卷积和窄带conformer的语音增强方法,包括训练阶段和测试阶段,训练阶段用于得到语音增强所需的参数和损失函数,而测试阶段用于实现含噪语音的增强。
[0094]
训练阶段首先对原始含噪语音和纯净语音进行预处理,得到固定长度的含噪语音和纯净语音,然后将固定长度的含噪语音和纯净语音一并送入神经网络模型中学习含噪语音和纯净语音之间的映射关系,训练阶段结束后,将训练好的模型保存下来;测试阶段首先对含噪语音进行预处理,然后送入训练好的模型中进行语音增强,最后输出增强后的语音。
[0095]
进一步说明,训练阶段包括以下步骤:
[0096]
步骤1、获取训练语料,训练语料来自于voicebank-demand语料库中的语音数据,该语料库包含纯净语音与其对应的预混合含噪语音。在我们的实验中,训练阶段的纯净语音选择其中28个说话人(14个男性和14个女性)的11572条语音,采样频率为48khz,测试阶段的纯净语音选择2个说话人(1个男性和1个女性)的824条语音,采样频率为48khz;训练阶段的含噪语音选择其中28个说话人(14个男性和14个女性)的11572条语音,测试阶段的含噪语音选择2个说话人(1个男性和1个女性)的824条语音,其中,训练阶段的含噪语音是以0db、5db、10db和15db的信噪比由纯净语音与10种类型的噪声混合而成,测试阶段的含噪语
音以2.5db、7.5db、12.5db和17.5db的信噪比由纯净语音与5种类型的噪声混合而成。
[0097]
步骤2、将含噪语音数据集和纯净语音数据集重采样为16khz,训练集为11572对纯净语音和含噪语音,测试集为824对纯净语音和含噪语音。
[0098]
步骤3、本实施例中的基于动态卷积和窄带conformer的语音增强方法以生成对抗网络为基准,通过改善生成对抗网络结构,来提升增强网络的效果。生成对抗网络基准模型由两部分组成:一个产生真实频谱的生成器g以及一个判断输入频谱是真实频谱特征还是生成频谱特征的鉴别器d;
[0099]
本实施例中的dyconv-nbc tseg络的目标函数表示为:
[0100][0101]
其中,为生成器的损失函数:
[0102][0103]
其中,λ表示l
p
范数约束的惩罚参数,‖
·
‖1表示1-范数,dm(
·
,s)∈[-1,1]表示鉴别器d,q表示希望生成器通过鉴别器达到的目标评估分数,若设置为1可以获得最佳评估q(s,s)。
[0104]
鉴别器的损失函数:
[0105][0106]
其中,dm(
·
,s)∈[-1,1]表示鉴别器d;q(s,s)和分别表示纯净语音s和增强语音的评估分数。
[0107]
步骤4、将步骤2中提取的含噪语音x和纯净语音s输入到生成器中进行训练。训练生成器,直至达到设置的迭代次数,使得生成器的损失函数尽可能小,从而得到增强语音
[0108]
生成器由编码网络、分离网络、窄带conformer网络和解码网络组成,编码网络由1个一维卷积模块组成,其中,一维卷积模块包括卷积、prelu激活指导层以及归一化层。分离网络由m个一维卷积模块、prelu激活指导层以及归一化层组成,其中,一维卷积模块包括卷积、激活指导层以及归一化层;激活指导层包括prelu激活指导和sigmoid激活指导。其中,窄带conformer网络在生成器分离网络和解码网络之间,由一个卷积模块、平均池化层、激活指导层以及3个全连接层组成,其中,卷积模块由具有相对位置编码的多头自注意力网络、l2组具有卷积层的前馈网络组成、层归一化以及dropout层组成。解码网络由1个一维卷积模块组成,其中,一维卷积模块包括卷积、prelu激活指导层以及归一化层。
[0109]
步骤5、将步骤4得到的增强语音纯净语音s,一同输入到鉴别器d中来训练鉴别器,使鉴别器的损失函数尽可能小;
[0110]
鉴别器d由编码模块、卷积神经网络模块和评估模块组成,其中卷积神经网络模块包含一个2d-cnn模块,所述2d-cnn模块由基于轻量级卷积的动态卷积网络和加权自适应实例归一化wadain组成。
[0111]
鉴别器的损失函数为:
[0112][0113]
其中,dm(
·
,s)表示鉴别器d;q(s,s)和分别表示评估纯净语音s和增强语音的评估分数;所述q(
·
,s)∈[-1,1]是根据si-snr(
·
,s)计算,使得dm(
·
,s)∈[-1,1];
[0114]
步骤6、重复步骤4-5,使得目标函数最小化,直至达到迭代次数。在训练过程中,使所述增强网络的损失尽可能小,直至设置的迭代次数,从而得到训练好的所述增强网络。本实验中设置的迭代次数为200000次;
[0115]
进一步说明,测试阶段包括以下步骤:
[0116]
步骤1、选取不同噪声的原始含噪语音作为待增强语料,预处理待增强语料中的原始含噪语音,得到固定长度的含噪语音x


[0117]
步骤2、将上述预处理后得到的固定长度的含噪语音x

输入步骤6训练好的增强网络中,从而得到增强语音。
[0118]
以上所述为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种基于动态卷积和窄带conformer的语音增强方法,其特征在于,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:步骤1、获取大量的训练语料,训练语料由多名说话人的语料组成,包括含噪语音和纯净语音;步骤2、对训练语料中的原始含噪语音、原始纯净语音进行预处理,得到固定长度的含噪语音x和纯净语音s;步骤3、将上述预处理后得到的固定长度的含噪语音x、纯净语音s输入到增强网络中进行训练;步骤4、设置所述增强网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的增强网络;所述测试阶段包括以下步骤:步骤5、选取不同噪声的原始含噪语音作为待增强语料,预处理待增强语料中的原始含噪语音,得到固定长度的含噪语音x

;步骤6、将上述预处理后得到的固定长度的含噪语音x

输入步骤4训练好的增强网络中,从而得到增强语音。2.根据权利要求1所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,在所述步骤3中,所述语音增强网络包括生成器g和鉴别器d,所述的生成器g由编码网络、分离网络、窄带conformer网络以及解码网络组成,其中窄带conformer网络构建在分离网络和解码网络之间;说话人的高维度中间向量依次输入到窄带conformer网络和解码网络中;所述的鉴别器d由编码网络、卷积神经网络和评估网络组成,所述鉴别器d的编码网络与生成器g的编码网络共享权重。3.根据权利要求2所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,步骤3中的训练过程如下:(1)对原始含噪语音进行预处理,得到固定长度的含噪语音x,将固定长度的含噪语音x输入到生成器g的编码网络,对含噪语音进行特征提取,得到高维度的中间向量u(x);(2)将上述得到的高维度的中间向量u(x)输入到生成器g的分离网络中估计潜在特征掩码,从而得到各个含噪语音对应的潜在特征掩码f(u(x));(3)将上述得到的潜在特征掩码f(u(x))输入到生成器g的解码网络中进行训练,在训练过程中最小化生成器g的损失函数,从而得到增强语音(4)将上述得到的增强语音纯净语音s一同输入到鉴别器d中进行训练,最小化鉴别器d的损失函数;(5)重复(1)-(4)的过程,直至达到设置的迭代次数,从而得到训练好的dyconv-nbc tseg络。4.根据权利要求3所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述步骤6中的输入过程如下:(1)对原始含噪语音进行预处理,得到固定长度的含噪语音x,将固定长度的含噪语音x输入到生成器g的编码网络中进行特征提取,得到高维度的中间向量u(x);(2)将上述得到的高维度的中间向量u(x)输入到生成器g的分离网络中估计潜在特征
掩码,从而得到各个含噪语音对应的潜在特征掩码f(u(x));(3)将上述得到的潜在特征掩码f(u(x))输入到生成器g的解码网络中进行训练,在训练过程中最小化生成器g的损失函数,从而得到增强语音5.根据权利要求4所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述鉴别器d由一个两维卷积神经网络模块2d-cnn、一个与生成器g中的编码网络共享权重的锁定编码模块和一个度量评估模块组成,其中,度量评估模块引入了一个评估度量q(
·
,s)来指导鉴别器g优化并计算鉴别器的损失,q(
·
,s)用于限制鉴别器d的评估分数,不直接用作损失函数:所述度量评估q(
·
,s)为:其中,si-snr(
·
,s)表示si-snr损失,即尺度不变的信噪比,β表示调整tanh(
·
)灵敏度区间的参数,si-snr(
·
,s)∈r用tanh(
·
)得到度量评估q(
·
,s)∈[-1,1],其中,q(
·
,s)=1和q(
·
,s)=-1分别表示最好的情况和最坏的情况,对应于最佳和最差的si-snr值;所述si-snr损失为:其中,表示比例因子,s表示纯净语音,表示增强语音,表示信号功率,表示2-范数的平方。6.根据权利要求5所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述生成器g的损失函数为:其中,λ表示l
p
范数约束的惩罚参数,‖
·
‖1表示1-范数,d
m
(
·
,s)∈[-1,1]表示鉴别器d,q表示希望生成器通过鉴别器达到的目标评估分数,若设置为1可以获得最佳评估q(s,s);所述鉴别器d的损失函数为:其中,d
m
(
·
,s)∈[-1,1]表示鉴别器d,q(s,s)和分别表示纯净语音s和增强语音的评估分数。7.根据权利要求6所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述生成器g由编码网络、分离网络、窄带conformer网络以及解码网络组成,其中,编码网络由1个一维卷积模块组成,其中,一维卷积模块包括卷积层、prelu激活指导层以及归一化层;所述prelu激活指导的公式表示为:
其中,δ∈r表示一个可训练的标量,用于控制整流器的负斜率;在非因果配置中,所述归一化层为全局归一化,其公式表示为:在非因果配置中,所述归一化层为全局归一化,其公式表示为:在非因果配置中,所述归一化层为全局归一化,其公式表示为:其中,f∈r
n
×
t
表示特征,e[
·
]表示特征的期望,

表示对应点相乘,γ、τ∈r
n
×1表示可训练参数,n、t表示维度;∈表示一个很小的值,用于维持数值稳定性;在因果配置中,所述归一化层则为累积层归一化,其公式表示为:在因果配置中,所述归一化层则为累积层归一化,其公式表示为:在因果配置中,所述归一化层则为累积层归一化,其公式表示为:其中,f
k
∈r
n
×1表示特征f的第k帧,f
t≤k
∈r
n
×
k
表示对应于k帧的特征[f1,f2,

,f
k
],γ、τ∈r
n
×1表示应用于所有帧的可训练参数,

表示对应点相乘,n、t表示维度;所述分离网络由m个一维卷积模块、激活指导层以及归一化层组成,其中,一维卷积模块包括卷积层、prelu激活指导以及归一化层,激活指导层包括prelu激活指导和sigmoid激活指导;所述sigmoid激活指导函数表示为:其中,a表示激活指导层的输入,表示超参数,设为0.1,exp表示以自然常数e为底的指数函数;其中,窄带conformer网络融合在生成器分离网络和解码网络之间,由一个卷积层、平均池化层、激活指导层以及3个全连接层组成,其中,卷积模块由具有相对位置编码的多头自注意力网络、l2组具有卷积层的前馈网络组成、层归一化以及dropout层组成;所述多头自注意力和相对位置编码模块(multi-head self-attention with relative positional encoding,rpsa)的输出为:其中,x
i-1
表示第i个改进后的conformer网络的输入,layernorm表示层归一化,h1表示隐藏单元的数量,t表示维度。8.根据权利要求7所述的基于动态卷积和窄带conformer的语音增强方法,其特征在
于,所述增强语音表征为:其中,x表示含噪语音,u(
·
)、v(
·
)、f(
·
)分别表示编码器、解码器以及特征掩码函数,

表示对应点相乘。9.根据权利要求8所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述具有卷积层的前馈网络由1维组卷积、归一化层以及silu激活指导层组成;所述silu激活指导层的公式为:其中,a表示激活指导层的输入,表示超参数,exp表示以自然常数e为底的指数函数。10.根据权利要求9所述的基于动态卷积和窄带conformer的语音增强方法,其特征在于,所述鉴别器d由编码模块、卷积神经网络模块和评估模块组成,其中,卷积神经网络模块包含一个2d-cnn模块,所述2d-cnn模块由基于轻量级卷积的动态卷积和加权自适应实例归一化wadain组成;所述轻量级卷积对于序列中第i个元素和输出维度m的公式为:其中,x、h、d、w∈r
d
×
k
分别表示特征矩阵、通道数、维度和权重,“:”表示获取指定行/列的所有元素,depthwiseconv表示深度卷积,softmax表示归一化指数函数;所述归一化指数函数softmax归一化的公式为:其中,r表示时间维度,l表示通道数,y∈r
l
×
r
表示时间维度r上的权重,exp表示以自然常数e为底的指数函数;所述轻量级卷积的输出为:其中,x∈r
b
×
t
×
c
表示特征矩阵,b、t、c分别表示批量大小、段长度和通道数;k∈r
k
×
h
表示卷积核,k、h分别表示核大小、头数;在轻量级卷积的基础上,动态卷积引入了额外的核生成机制,从输入特征x生成核,使得动态卷积的核k

的形状变为[b,t,k,h];所述动态卷积的输出为:其中,k

∈r
b
×
t
×
k
×
h
表示特征矩阵x通过激活指导层以及线性层生成的动态卷积的核,b、t、c、h、k分别表示批量大小、段长度、通道数、头数和核大小;所述动态卷积的核k

为:
k

=[glu(xw1+b1)]
×
w2+b2其中,glu表示门控机制激活函数,w1∈r
c
×
(2
×
c)
,b1∈r2×
c
,w2∈r
c
×
(k
×
h)
,b2∈r
k
×
h
分别表示训练参数,c、h、k分别表示通道数、头数和核大小;所述加权自适应实例归一化wadain的自适应卷积核w

的公式为:w

=θ*w其中,x

表示加权自适应实例归一化wadain层的输入,θ表示从目标说话人嵌入s

通过线性层生成的仿射参数,目标说话人嵌入s

表示加权自适应实例归一化wadain层的前一层卷积神经网络提取的说话人信息。

技术总结


本发明涉及语音处理技术领域,具体涉及到一种基于动态卷积和窄带Conformer的语音增强方法,本方法包括训练阶段和测试阶段,能够实现高质量的语音增强。本发明中提出的语音增强模型由生成器和鉴别器组成,首先在生成器中采用窄带Conformer网络提升模型对语音频谱信息的提取能力,进一步利用动态卷积代替传统卷积,极大地减少模型的参数量和计算量,不仅改善降噪效果,而且有效提升算法的运行效率以及模型的稳定性和可靠性。模型的稳定性和可靠性。


技术研发人员:

李燕萍 陆元昕

受保护的技术使用者:

南京邮电大学

技术研发日:

2022.11.15

技术公布日:

2023/3/7

本文发布于:2023-03-12 23:14:58,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68446.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   语音   所述   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图