1.本技术请求保护一种
语音分离技术,尤其涉及一种语音分离方法。本技术还涉及一种语音分离装置。
背景技术:
2.随着人工智能领域的蓬勃发展,物联网行业迅速崛起,移动通信设备、智能音箱、智能车载等设备的使用,给人们带来极为便利的生活。其中,语音控制作为智能设备的基本单元,其性能的优劣很大程度取决于前端处理,在嘈杂的环境中分离出目标说话人,从而使设备准确识别目标指令是目前亟待解决的问题。
3.近年来,深度学习算法在语音分离领域有较多应用。目前的主流方法是利用不同的深度学习网络,在时、频域的基础上进行语音分离。在现有方法中,采用关注相位和谐波的语音增强模型phasen(相位感知网络),模型设计为双流结构,分别处理相位和幅度信息,并设计了双向信息交互通道,提出时频注意力机制,使模型能够学习相位信息以及谐波相关性,采用双向长短时记忆网络(bi-directional long short-term memory networks,bilstm)学习幅度掩码。
4.现有的方法采用基于时频注意力机制的双流网络phasen(相位感知网络),其中网络引入的时频注意力机制增加了网络的参数量;在训练模型时采用双向长短时记忆网络(bilstm)学习幅度掩码,其中bilstm内部结构复杂,不利于模型优化。
技术实现要素:
5.为了解决上述背景技术中提出的一个或者多个问题,本技术提出一种语音分离方法。本技术还涉及一种语音分离装置。
6.本技术提出的一种语音分离方法,包括:
7.数据采集,并将采集的数据分为训练集、测试集和验证集;
8.将
所述训练集的数据经过傅里叶变换生成
特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;
9.将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。
10.可选的,所述智能模型中包含有:
卷积注意力机制模块和相位感知网络;
11.其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。
12.可选的,所述卷积注意力机制模块和所述相位感知网络的融合计算,包括训练阶段和分离阶段两种模式,分别为:
13.所述训练阶段对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征;将提取的特征输入所述相位感知网络的双流通道进行处理,得到处理后的幅度谱特征和相位谱特征;将幅度谱特征作为先验信息进行模型训练,得到最优模
型;
14.所述分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
15.可选的,所述数据采集包括:
16.分别采集纯净数据和噪声数据,将纯净数据与噪声数据按照预设的信噪比进行混合。
17.可选的,所述数据采集的环境为车载语音环境。
18.本技术提出的一种语音分离装置,包括:
19.采集模块,用于数据采集,并将采集的数据分为训练集、测试集和验证集;
20.训练模块,用于将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;
21.分离模块,用于将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。
22.可选的,所述智能模型中包含有:卷积注意力机制模块和相位感知网络;
23.其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。
24.可选的,所述卷积注意力机制模块和所述相位感知网络的融合计算,包括训练阶段和分离阶段两种模式,分别为:
25.所述训练阶段对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征;将提取的特征输入所述相位感知网络的双流通道进行处理,得到处理后的幅度谱特征和相位谱特征;将幅度谱特征作为先验信息进行模型训练,得到最优模型;
26.所述分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
27.可选的,所述数据采集包括:
28.分别采集纯净数据和噪声数据,将纯净数据与噪声数据按照预设的信噪比进行混合。
29.可选的,所述数据采集的环境为车载语音环境。
30.本技术相较于现有技术的优点是:
31.本技术提出的一种语音分离方法,包括:数据采集,并将采集的数据分为训练集、测试集和验证集;将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。本技术融合卷积注意力机制模块(cbam),在不增加参数量的同时可以有效提取全局特征,并对特征图进行自适应的调整,提升其学习效率。
附图说明
32.图1是本技术中语音分离流程示意图。
33.图2是本技术中智能模型训练示意图。
34.图3是本技术中智能模型分离示意图。
35.图4是本技术中卷积注意力机制模块示意图。
36.图5是本技术中通道注意力模块示意图。
37.图6是本技术中空间注意力机制模块示意图。
38.图7是本技术中语音分离装置示意图。
具体实施方式
39.以下内容均是为了详细说明本技术要保护的技术方案所提供的具体实施过程的示例,但是本技术还可以采用不同于此的描述的其他方式实施,本领域技术人员可以在本技术构思的指引下,采用不同的技术手段实现本技术,因此本技术不受下面具体实施例的限制。
40.名称解释:
41.(1)phasen:相位感知网络。关注相位和谐波的语音增强模型,模型设计为双流结构,分别处理相位和幅度信息,并设计了双向信息交互通道,提出时频注意力机制,使模型能够学习相位信息以及谐波相关性。
42.(2)rnn:循环神经网络。通过递归算法学习信号的时序特性,考虑到语音信号的时序特征,rnn更加适合应用于语音分离领域,但是rnn不能对时序较长的信息进行处理,在对长序列学习建模时,存在梯度消失或爆炸问题。
43.(3)lstm:长短时记忆网络。是一种循环神经网络(rnn)特殊的类型,可以学习长时依赖信息。通过门控机制使rnn不仅能记忆过去的信息,同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模。
44.(4)bilstm:双向长短时记忆网络。能同时捕捉数据的短时依赖关系和长时依赖关系,弥补了长短时记忆网络(lstm)无法编码从后向前信息的缺点,前向lstm和后向lstm的组合。
45.(5)cbam:卷积注意力机制模块。注意力机制是一种模拟人的注意力行为的模块,通过在有限的信息中筛选出“感兴趣”的内容。卷积注意力机制模块最早应用于计算机视觉领域,目的是提高卷积神经网络(cnn)在大规模分类任务中的性能。作为一种轻量级网络,其在不增加模型参数量和复杂度的同时可以解决卷积神经网络的感受野较小问题,提取到更多的特征参数。其原理是沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化。
46.(6)cnn:卷积神经网络。最早应用于图像领域,网络由多个卷积层堆叠组成,并且各卷积层间权值共享,从根本上减少了网络的训练参数量,并且在泛化性能方面表现良好。考虑到语音的频域特征可以表示为时间和频率两个维度的特征矩阵,与图像相邻像素的相关性类似,故中外学者开始将cnn应用于语音分离领域。
47.(7)gru:门控循环单元网络。是为了更好地捕捉时序数据中间隔较大的依赖关系。根据门控对提升其学习能力的贡献不同,略去贡献小的门控和其对应的权重,可以简化神
经网络结构并提升其学习效率。
48.本技术提出的一种语音分离方法,包括:数据采集,并将采集的数据分为训练集、测试集和验证集;将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。本技术融合卷积注意力机制模块(cbam),在不增加参数量的同时可以有效提取全局特征,并对特征图进行自适应的调整,提升其学习效率。
49.图1是本技术中语音分离流程示意图。
50.请参照图1所示,s101数据采集,并将采集的数据分为训练集、测试集和验证集。
51.首先进行数据采集,以车载环境为例采集声音数据,使用麦克风分别采集驾驶员的纯净语音数据和行车过程中的噪声数据,将纯净数据与噪声数据按照一定的信噪比进行混合,并将数据分成训练集、测试集和验证集。
52.请参照图1所示,s102将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型。
53.本技术中,所述智能模型采用卷积注意力机制,利用语音信号的时频特性,分别沿着两个独立的维度依次推断注意力图,通道注意力显示的语音时域之间的相关性,通过学习的方式自动获取到每个特征的重要程度,从而强化重要的特征并且抑制非重要的特征。空间注意力主要用来对语音信号频域关键区域的特征进行表达,从而增强感兴趣的特定目标区域,同时弱化不相关的背景区域,两个特征图合并生成的注意力图与输入特征图相乘,以进行自适应特征优化,提取到更多的特征参数,解决特征提取不全面的问题,为训练模型提供基础。
54.卷积注意力机制是一种轻量级网络,不增加模型参数量和复杂度。在训练模型时采用gru网络,gru网络根据门控对提升其学习能力的贡献不同,省略贡献小的门控和其对应的权重,简化神经网络结构并提升其学习效率,在一定程度上减少了网络的复杂度,提升语音分离效果。
55.图2是本技术中智能模型训练示意图。
56.请参照图2所示,当混合语音信号是目标语音信号与噪声混合时,语音分离即可看作语音增强。训练阶段首先对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征。其次,分别将提取的特征输入到不同的网络进行处理,得到处理后的幅度谱特征和相位谱特征。最后,将幅度谱特征作为先验信息进行模型训练,得到最优模型。
57.具体的,获取数据后先将所述数据分为训练集,测试集和验证集,并对所述数据进行傅里叶变换,生产特征谱图,最后输入到所述智能模型中进行模型训练。
58.所述智能模型是基于卷积注意力机制的相位感知语音分离模型(ca-phas en),将训练集中的数据输入到ca-phasen网络中进行模型训练,不断用验证集的数据验证模型的性能,最终得到最优的语音分离模型,并使用测试集数据测试模型性能。
59.所述智能模型中包含有:卷积注意力机制模块和相位感知网络;其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。
60.图4是本技术中卷积注意力机制模块示意图;图5是本技术中通道注意力模块示意图;图6是本技术中空间注意力机制模块示意图。
61.请参照图4,图5,图6所示,本技术中,所述特征图谱(或者数据)是沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘,以进行自适应特征优化。类比于语音的时频特性,将其应用于语音处理。
62.如图4所示,输入特征图谱为f
in
∈rc×
t
×f,将其与经通道注意力模块处理后的通道注意力特征fc进行乘法操作,如公式(1),生成空间注意力模块需要的输入特征f
′
。最后将空间注意力特征fs和其输入特征f
′
进行乘法运算得到最终生成的特征f
out
,如公式(2)。
[0063][0064][0065]
通道注意力模块如图5所示,输入的特征图谱分别经过两种不同的池化层进行池化处理,然后分别经过多层感知机。将多层感知机输出的特征进行加和操作,激活函数选取sigmoid函数,如公式(3),生成最终的通道注意力特征图。
[0066][0067]
其中,maxpool(f
in
)和avgpool(f
in
)分别表示最大池化和平均池化,mlp表示多层神经网络,σ表示sigmoid激活函数,表示对应元素进行相加。
[0068]
空间注意力模块如图6所示,输入特征f
′
输入到最大池化层中进行处理,将其输出特征依次输入到平均池化层中,得到中间特征f
″
,如公式(4),中间特征经过一个卷积核为7
×
7的卷积层操作,激活函数同样采用sigmoid函数,如公式(5),生成空间注意力特征fs。将fs与f
′
进行相乘,得到最终的特征图f
out
,如公式(6)。
[0069]f″
=avgpool(maxpool(f
′
)) (4)
[0070]fs
=σ(conv7×7(f
″
)) (5)
[0071][0072]
上述已经描述了本技术中卷积注意力机制模块的结构与工作流程,接下来将所述卷积注意力机制与相位感知网络融合成ca-phasen网络(智能模型),如图2所示。
[0073]
对输入的语音信号进行时频分解,得到输入信号s
in
,将s
in
信号分别经过两个不同的二维卷积层进行处理,得到语音信号的幅度谱特征和相位谱特征表示为公式(7)和公式(8):
[0074][0075][0076]
其中,conva×b()表示卷积核为a
×
b的二维卷积层。
[0077]
将提取的幅度谱特征输入幅度模型进行处理,幅度模型分别使用三个二维的卷积层来处理输入特征的局部相关性,为了捕获频域的全局相关性,在卷积层前后使用卷积注意力模块,则输出的幅度谱特征表示为:
[0078][0079][0080][0081]
其中,表示第i个双流模块中的幅度模型经过卷积层前的卷积注意力机制的输出,和分别表示第i个双流模块中卷积层前和卷积层后的卷积注意力机制,表示第i个双流模块幅度模型中的第j个卷积层,第i个双流模块的幅度模型中卷积层的输入用表示,卷积层的输出用表示。
[0082]
将提取的相位谱特征输入到两个二维卷积层中对相位特征进行处理,得到输出的相位谱特征表示为:
[0083][0084][0085]
其中,表示第i个双流模块中的相位模型的输入,表示第i个双流模块的相位模型中卷积层的输入,卷积层的输出用表示,当j=0时,模型的输入即为卷积层的输入,表示第i个双流模块相位模型中的第j个卷积层。
[0086]
将输出的幅度谱特征和相位谱特征输入到信息交流机制中进行交换信息,得到下一个双流模块的输入:
[0087][0088][0089]
其中,f()表示交流函数,其表示方式为:
[0090][0091]
其中,conv()表示卷积核为1
×
1的一维卷积,tanh()表示激活函数。将双流模块中幅度模型的输出输入到门控循环单元网络(gated recurrent unit networks,gru)中进行训练,预测幅度掩码m,减小网络复杂度。对双流模块中相位模型的输出经过卷积层处理,形成复值特征映射,将其幅度进行归一化,得到预测的相位信息θ,则预测的频谱图可以通过s
out
表示:
[0092][0093]
其中,abs()表示取绝对值函数。
[0094]
门控循环单元网络(gru)设置两个门函数,分别为更新门z
t
和重置门r
t
。两个门函
数的取值范围为0~1,更新门和重置门的作用是通过控制前一时刻信息与后一时刻信息量的大小来控制当前时刻“记忆”和“遗忘”的速度。当前一时刻的信息被完全“记忆”,此时更新门等于1,当前一时刻的数据信息完全被“遗忘”,此时重置门的值等于0。各门函数的更新公式如下所示:
[0095]
(18)
[0096]zt
=σ(w
xzt
x
t
+w
hztht-1
+bz);
[0097]rt
=σ(w
xrt
x
t
+w
hrtht-1
+br);
[0098][0099][0100]
其中,w
x
表示输入x
t
到门函数的权重矩阵,wh表示前一时刻h
t-1
到门函数的权重矩阵,b门函数的偏置矩阵,其中表示是不同的字母。
[0101]
请参照图1所示,s103将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。
[0102]
如图3所示,按照上述训练处来的智能模型,输入数据后,分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得.到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
[0103]
本技术还提供一种语音分离装置,包括采集模块701、训练模块702和分离模块703。
[0104]
图7是本技术中语音分离装置示意图。
[0105]
请参照图7所示,采集模块701,用于数据采集,并将采集的数据分为训练集、测试集和验证集。
[0106]
首先进行数据采集,以车载环境为例采集声音数据,使用麦克风分别采集驾驶员的纯净语音数据和行车过程中的噪声数据,将纯净数据与噪声数据按照一定的信噪比进行混合,并将数据分成训练集、测试集和验证集。
[0107]
请参照图7所示,训练模块702,用于将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型。
[0108]
本技术中,所述智能模型采用卷积注意力机制,利用语音信号的时频特性,分别沿着两个独立的维度依次推断注意力图,通道注意力显示的语音时域之间的相关性,通过学习的方式自动获取到每个特征的重要程度,从而强化重要的特征并且抑制非重要的特征。空间注意力主要用来对语音信号频域关键区域的特征进行表达,从而增强感兴趣的特定目标区域,同时弱化不相关的背景区域,两个特征图合并生成的注意力图与输入特征图相乘,以进行自适应特征优化,提取到更多的特征参数,解决特征提取不全面的问题,为训练模型提供基础。
[0109]
卷积注意力机制是一种轻量级网络,不增加模型参数量和复杂度。在训练模型时采用gru网络,gru网络根据门控对提升其学习能力的贡献不同,省略贡献小的门控和其对应的权重,简化神经网络结构并提升其学习效率,在一定程度上减少了网络的复杂度,提升语音分离效果。
[0110]
图2是本技术中智能模型训练示意图。
[0111]
请参照图2所示,当混合语音信号是目标语音信号与噪声混合时,语音分离即可看作语音增强。训练阶段首先对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征。其次,分别将提取的特征输入到不同的网络进行处理,得到处理后的幅度谱特征和相位谱特征。最后,将幅度谱特征作为先验信息进行模型训练,得到最优模型。
[0112]
具体的,获取数据后先将所述数据分为训练集,测试集和验证集,并对所述数据进行傅里叶变换,生产特征谱图,最后输入到所述智能模型中进行模型训练。
[0113]
所述智能模型是基于卷积注意力机制的相位感知语音分离模型(ca-phas en),将训练集中的数据输入到ca-phasen网络中进行模型训练,不断用验证集的数据验证模型的性能,最终得到最优的语音分离模型,并使用测试集数据测试模型性能。
[0114]
所述智能模型中包含有:卷积注意力机制模块和相位感知网络;其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。
[0115]
图4是本技术中卷积注意力机制模块示意图;图5是本技术中通道注意力模块示意图;图6是本技术中空间注意力机制模块示意图。
[0116]
请参照图4,图5,图6所示,本技术中,所述特征图谱(或者数据)是沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘,以进行自适应特征优化。类比于语音的时频特性,将其应用于语音处理。
[0117]
如图4所示,输入特征图谱为f
in
∈rc×
t
×f,将其与经通道注意力模块处理后的通道注意力特征fc进行乘法操作,如公式(1),生成空间注意力模块需要的输入特征f
′
。最后将空间注意力特征fs和其输入特征f
′
进行乘法运算得到最终生成的特征f
out
,如公式(2)。
[0118][0119][0120]
通道注意力模块如图5所示,输入的特征图谱分别经过两种不同的池化层进行池化处理,然后分别经过多层感知机。将多层感知机输出的特征进行加和操作,激活函数选取sigmoid函数,如公式(3),生成最终的通道注意力特征图。
[0121][0122]
其中,maxpool(f
in
)和avgpool(f
in
)分别表示最大池化和平均池化,mlp表示多层神经网络,σ表示sigmoid激活函数,表示对应元素进行相加。
[0123]
空间注意力模块如图6所示,输入特征f
′
输入到最大池化层中进行处理,将其输出特征依次输入到平均池化层中,得到中间特征f
″
,如公式(4),中间特征经过一个卷积核为7
×
7的卷积层操作,激活函数同样采用sigmoid函数,如公式(5),生成空间注意力特征fs。将fs与f
′
进行相乘,得到最终的特征图f
out
,如公式(6)。
[0124]f″
=avgpool(maxpool(f
′
)) (4)
[0125]fs
=σ(conv7×7(f
″
)) (5)
[0126][0127]
上述已经描述了本技术中卷积注意力机制模块的结构与工作流程,接下来将所述
卷积注意力机制与相位感知网络融合成ca-phasen网络(智能模型),如图2所示。
[0128]
对输入的语音信号进行时频分解,得到输入信号s
in
,将s
in
信号分别经过两个不同的二维卷积层进行处理,得到语音信号的幅度谱特征和相位谱特征表示为公式(7)和公式(8):
[0129][0130][0131]
其中,conva×b()表示卷积核为a
×
b的二维卷积层。
[0132]
将提取的幅度谱特征输入幅度模型进行处理,幅度模型分别使用三个二维的卷积层来处理输入特征的局部相关性,为了捕获频域的全局相关性,在卷积层前后使用卷积注意力模块,则输出的幅度谱特征表示为:
[0133][0134][0135][0136]
其中,表示第i个双流模块中的幅度模型经过卷积层前的卷积注意力机制的输出,和分别表示第i个双流模块中卷积层前和卷积层后的卷积注意力机制,表示第i个双流模块幅度模型中的第j个卷积层,第i个双流模块的幅度模型中卷积层的输入用表示,卷积层的输出用表示。
[0137]
将提取的相位谱特征输入到两个二维卷积层中对相位特征进行处理,得到输出的相位谱特征表示为:
[0138][0139][0140]
其中,表示第i个双流模块中的相位模型的输入,表示第i个双流模块的相位模型中卷积层的输入,卷积层的输出用表示,当j=0时,模型的输入即为卷积层的输入,表示第i个双流模块相位模型中的第j个卷积层。
[0141]
将输出的幅度谱特征和相位谱特征输入到信息交流机制中进行交换信息,得到下一个双流模块的输入:
[0142]
[0143][0144]
其中,f()表示交流函数,其表示方式为:
[0145][0146]
其中,conv()表示卷积核为1
×
1的一维卷积,tanh()表示激活函数。将双流模块中幅度模型的输出输入到门控循环单元网络(gated recurrent unit networks,gru)中进行训练,预测幅度掩码m,减小网络复杂度。对双流模块中相位模型的输出经过卷积层处理,形成复值特征映射,将其幅度进行归一化,得到预测的相位信息θ,则预测的频谱图可以通过s
out
表示:
[0147][0148]
其中,abs()表示取绝对值函数。
[0149]
门控循环单元网络(gru)设置两个门函数,分别为更新门z
t
和重置门r
t
。两个门函数的取值范围为0~1,更新门和重置门的作用是通过控制前一时刻信息与后一时刻信息量的大小来控制当前时刻“记忆”和“遗忘”的速度。当前一时刻的信息被完全“记忆”,此时更新门等于1,当前一时刻的数据信息完全被“遗忘”,此时重置门的值等于0。各门函数的更新公式如下所示:
[0150]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0151]zt
=ρ(w
xzt
x
t
+w
hztht-1
+bz);
[0152]rt
=ρ(w
xrt
x
t
+w
hrtht-1
+br);
[0153][0154][0155]
其中,w
x
表示输入x
t
到门函数的权重矩阵,wh表示前一时刻h
t-1
到门函数的权重矩阵,b门函数的偏置矩阵,其中表示是不同的字母。
[0156]
请参照图7所示,分离模块703,用于将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。
[0157]
如图3所示,按照上述训练处来的智能模型,输入数据后,分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得.到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
技术特征:
1.一种语音分离方法,其特征在于,包括:数据采集,并将采集的数据分为训练集、测试集和验证集;将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。2.根据权利要求1所述语音分离方法,其特征在于,所述智能模型中包含有:卷积注意力机制模块和相位感知网络;其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。3.根据权利要求2所述语音分离方法,其特征在于,所述卷积注意力机制模块和所述相位感知网络的融合计算,包括训练阶段和分离阶段两种模式,分别为:所述训练阶段对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征;将提取的特征输入所述相位感知网络的双流通道进行处理,得到处理后的幅度谱特征和相位谱特征;将幅度谱特征作为先验信息进行模型训练,得到最优模型;所述分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。4.根据权利要求1所述语音分离方法,其特征在于,所述数据采集包括:分别采集纯净数据和噪声数据,将纯净数据与噪声数据按照预设的信噪比进行混合。5.根据权利要求1所述语音分离方法,其特征在于,所述数据采集的环境为车载语音环境。6.一种语音分离装置,其特征在于,包括:采集模块,用于数据采集,并将采集的数据分为训练集、测试集和验证集;训练模块,用于将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;分离模块,用于将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。7.根据权利要求6所述语音分离装置,其特征在于,所述智能模型中包含有:卷积注意力机制模块和相位感知网络;其中,所述卷积注意力模块包括:通道注意力模块和空间注意力模块。8.根据权利要求7所述语音分离装置,其特征在于,所述卷积注意力机制模块和所述相位感知网络的融合计算,包括训练阶段和分离阶段两种模式,分别为:所述训练阶段对输入的语音信号进行时频分解,利用二维卷积层提取语音的幅度谱特征和相位谱特征;将提取的特征输入所述相位感知网络的双流通道进行处理,得到处理后的幅度谱特征和相位谱特征;将幅度谱特征作为先验信息进行模型训练,得到最优模型;所述分离阶段将带噪语音分别经过特征提取与处理,得到估计的幅度谱信息与相位谱信息,将幅度谱信息输入到训练好的模型中,得到增强的幅度谱,将幅度特征与相位特征结合得到目标语音。
9.根据权利要求6所述语音分离装置,其特征在于,所述数据采集包括:分别采集纯净数据和噪声数据,将纯净数据与噪声数据按照预设的信噪比进行混合。10.根据权利要求6所述语音分离装置,其特征在于,所述数据采集的环境为车载语音环境。
技术总结
本申请提出的一种语音分离方法,包括:数据采集,并将采集的数据分为训练集、测试集和验证集;将所述训练集的数据经过傅里叶变换生成特征谱图,并将所述特征谱图输入到智能模型中进行训练,通过测试集和验证集对所述智能模型进行测试和验证,获得语音分离模型;将获得的混合语音数据输入到所述语音分离模型中,对所述混合语音进行分离,获得识别语音。本申请融合卷积注意力机制模块(CBAM),在不增加参数量的同时可以有效提取全局特征,并对特征图进行自适应的调整,提升其学习效率。提升其学习效率。提升其学习效率。
技术研发人员:
王冬霞 余佳琪
受保护的技术使用者:
天津职业技术师范大学(中国职业培训指导教师进修中心)
技术研发日:
2022.09.28
技术公布日:
2023/3/27