一种单通道声音分离方法

阅读: 评论:0



1.本发明主要涉及单通道混合声音信号分离技术领域,具体涉及一种单通道声音分离方法。


背景技术:



2.声学技术已在产品质检、设备状态监测、医学诊断、异音异响定位等领域被广泛的研究和应用。由于其应用环境的声场可能较为复杂,采集到的声音信号可能是目标声音和环境噪声的混合信号。因此,一般需要先从混合声音信号中分离出目标声音以进行后续的信号处理和分析。此外,很可能由于体积大小、设备造价、安装问题等条件的限制,只能或者是最好安装一个声音传感器,这就要求从单一麦克风采集到的单通道混合声音信号中分离出目标声音信号。单通道混合声音信号分离是解决上述任务的常用方法。
3.机械工业第三设计研究院申请的中国发明专利“基于hilbert变换的欠定声音信号分离方法及装置”提出采用hilbert变换进行欠定声音信号分离,没有说明是针对单通道混合声音信号,且其方法不适用于频域混叠的情况。中科院嘉兴中心微系统所分中心申请的中国发明专利“无线传感器网络中基于粒子滤波的多车辆声信号分离方法”以及山东大学申请的中国发明专利“基于联合近似对角化盲源分离算法的电力设备故障音检测方法”均是针对麦克风阵列采集的多通道混合声音信号进行声音分离。广东省智能制造研究所申请的中国发明专利“一种基于半非负矩阵分解的声音信号分离方法”仅适用于分离频域重叠的单通道混合声音信号。
4.安徽理工大学王康等人发表的论文“基于变分模态分解的单通道信号盲源分离方法”提出一种基于变分模态分解的单通道信号盲源分离方法:首先采用变分模态分解实现单通道观测信号的升维,并估计源信号数目,然后再进行信号的盲源分离。该方法涉及到升维操作(即将单通道信号映射为多通道信号),且不适用于频域混叠的情况。解放军信息工程大学郭一鸣等人发表的论文“基于sic的单通道同频混合信号低复杂度盲分离算法”采用过采样构造多通道条件,进而构造出信道矩阵,利用连续干扰抵消算法实现单通道同频混合信号的盲分离。该方法同样涉及到将单通道信号映射为多通道信号后再进行信号分离,且其受时延差和接收信号过采样倍数影响较大,存在解调盲区。江南大学杨海兰等人发表的论文“单通道通信信号盲分离算法”给出了一种基于希尔伯特黄变换和独立分量分析的单通道通信信号盲源分离算法。该方法不适用于频域混叠的情况。解放军理工大学朱会杰等人发表的论文“基于移不变稀疏编码的单通道机械信号盲源分离”对特征反复出现的机械信号,提出一种基于移不变稀疏编码的单通道盲源分离方法,算法中将源信号看成多个基与系数的卷积,能够根据信号的统计分布,利用信号自身特征自适应地学习到匹配的基和稀疏的系数。该方法针对的是特征反复出现的机械信号。


技术实现要素:



5.本发明所要解决的技术问题是针对现有技术的不足,提供一种单通道声音分离方
法。
6.本发明解决上述技术问题的技术方案如下:一种单通道声音分离方法,包括如下步骤:
7.s1:导入第一单通道目标声信号x和第一单通道干扰声信号y,并对所述第一单通道目标声信号x和所述第一单通道干扰声信号y进行混合,得到第一单通道混合声信号s;
8.s2:基于半非负矩阵分解算法构建得到声音分离网络w,通过所述第一单通道目标声信号x和所述第一单通道混合声信号s对所述声音分离网络w进行训练,得到声音分离模型m;
9.s3:将第二单通道混合声信号s

输入至所述声音分离模型m进行分离,得到第二目标声信号
10.本发明解决上述技术问题的另一技术方案如下:一种单通道声音分离装置,包括:
11.信号混合模块,用于导入第一单通道目标声信号x和第一单通道干扰声信号y,并对所述第一单通道目标声信号x和所述第一单通道干扰声信号y进行混合,得到第一单通道混合声信号s;
12.模型训练模块,用于基于半非负矩阵分解算法构建得到声音分离网络w,通过所述第一单通道目标声信号x和所述第一单通道混合声信号s对所述声音分离网络w进行训练,得到声音分离模型m;
13.目标声信号获得模块,用于将第二单通道混合声信号s

输入至所述声音分离模型m进行分离,得到第二目标声信号
14.本发明解决上述技术问题的另一技术方案如下:一种单通道声音分离装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的单通道声音分离方法。
15.本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的单通道声音分离方法。
16.本发明的有益效果是:通过对第一单通道目标声信号和单通道干扰声信号的混合得到第一单通道混合声信号,基于半非负矩阵分解算法得到声音分离网络,通过第一单通道目标声信号和第一单通道混合声信号对声音分离网络的训练得到声音分离模型,将第二单通道混合声信号输入至声音分离模型进行分离得到目标声信号,能够从目标声和混合声中自动学得声音分离模型,该模型能够用于从时域混叠、频域混叠、时频域混叠的混合声中分离出目标声,此外,半非负矩阵分解具有较好的提取同种信号共性特征的优点,基于半非负矩阵分解构建声音分离网络,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
附图说明
17.图1为本发明实施例提供的一种单通道声音分离方法的流程示意图;
18.图2为本发明实施例提供的声音分离网络w的流程示意图;
19.图3为本发明实施例提供的一种单通道声音分离装置的模块框图。
具体实施方式
20.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
21.图1为本发明实施例提供的一种单通道声音分离方法的流程示意图。
22.如图1所示,一种单通道声音分离方法,包括如下步骤:
23.s1:导入第一单通道目标声信号x和第一单通道干扰声信号y,并对所述第一单通道目标声信号x和所述第一单通道干扰声信号y进行混合,得到第一单通道混合声信号s;
24.s2:基于半非负矩阵分解算法构建得到声音分离网络w,通过所述第一单通道目标声信号x和所述第一单通道混合声信号s对所述声音分离网络w进行训练,得到声音分离模型m;
25.s3:将第二单通道混合声信号s

输入至所述声音分离模型m进行分离,得到第二目标声信号
26.应理解地,所述信号(即所述目标声信号)表示对信号x(即所述单通道原始声信号x)的估计,二者具有较高的相似性。
27.应理解地,所述第一单通道干扰声信号y为单通道干扰声信号y1、y2、

、yn中任意一种或多种或全部信号的混合;
28.所述第二单通道混合声信号s

为所述第一单通道目标声信号x和第二单通道干扰声信号y

的混合信号,所述第二单通道干扰声信号y

为所述单通道干扰声信号y1、y2、

、yn中任意一种或多种或全部信号的混合;
29.所述单通道干扰声信号y1、y2、

、yn为n(n≥1)种干扰声信号;
30.所述第一单通道目标声信号x、所述第一单通道干扰声信号y、所述单通道干扰声信号y1、y2、

、yn、所述第一单通道混合声信号s、所述第二单通道混合声信号s

和所述第二目标声信号的大小均为1
×
n1。
31.上述实施例中,通过对第一单通道目标声信号和单通道干扰声信号的混合得到第一单通道混合声信号,基于半非负矩阵分解算法得到声音分离网络,通过第一单通道目标声信号和第一单通道混合声信号对声音分离网络的训练得到声音分离模型,将第二单通道混合声信号输入至声音分离模型进行分离得到目标声信号,能够从目标声和混合声中自动学得声音分离模型,该模型能够用于从时域混叠、频域混叠、时频域混叠的混合声中分离出目标声,此外,半非负矩阵分解具有较好的提取同种信号共性特征的优点,基于半非负矩阵分解构建声音分离网络,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
32.可选地,作为本发明的一个实施例,如图1和2所示,所述声音分离网络w包括输入层、傅里叶变换层、能量谱分离层、一维卷积单元c1、一维卷积单元c2和目标声重构层,
33.所述步骤s2中的过程包括:
34.s21:所述输入层输入所述第一单通道混合声信号s;
35.s22:所述傅里叶变换层对所述第一单通道混合声信号s和所述一维卷积单元c1进行卷积运算,得到傅里叶变换的实部r;
36.对所述第一单通道混合声信号s和所述一维卷积单元c2进行卷积运算,得到傅里
叶变换的虚部i;
37.对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行计算,得到傅里叶变换能量谱e和傅里叶变换相位谱p;
38.s23:所述能量谱分离层对所述傅里叶变换能量谱e进行半非负矩阵分解以及部分重构,得到能量谱e1;
39.s24:所述目标声重构层对所述能量谱e1和所述傅里叶变换相位谱p进行计算,得到实部r1和虚部i1;
40.对所述实部r1和所述虚部i1进行组合,得到复数x1;
41.对所述复数x1进行傅里叶反变换得到复数x1;
42.提取所述复数x1的实部,得到实部x2;
43.提取所述实部x2的前n1个元素作为第三目标声信号
44.其中,所述傅里叶变换的实部r、所述傅里叶变换的虚部i、所述傅里叶变换能量谱e、所述傅里叶变换相位谱p、所述能量谱e1、所述实部r1、所述虚部i1、所述复数x1、所述复数x1和所述实部x2的大小均为1
×
n2,且n2≥n1;
45.s25:通过第一式对所述第一单通道目标声信号x和所述第三目标声信号计算所述声音分离网络w的损失函数l,得到损失函数l,所述第一式为:
[0046][0047]
其中,l为损失函数,x为第一单通道目标声信号,为第三目标声信号,∑x2为对第一单通道目标声信号x中的元素先进行平方再求和,为对中的元素先进行平方再求和,log
10
为计算以10为底的对数;
[0048]
s26:根据所述损失函数l对所述声音分离网络w进行参数更新,得到声音分离模型m。
[0049]
具体地,如图2所示,基于半非负矩阵分解的声音分离网络w(即所述声音分离网络w)的具体结构与应用步骤如下:
[0050]
s21、输入层:输入所述第一单通道混合声信号s;
[0051]
s22、傅里叶变换层:将s(即所述第一单通道混合声信号s)与一维卷积单元c1进行卷积运算,得到傅里叶变换的实部r;将s(即所述第一单通道混合声信号s)与一维卷积单元c2进行卷积运算,得到傅里叶变换的虚部i;根据实部r(即所述傅里叶变换的实部r)和虚部i(即所述傅里叶变换的虚部i),计算出傅里叶变换能量谱e和傅里叶变换相位谱p;
[0052]
s23、能量谱分离层:对能量谱e(即所述傅里叶变换能量谱e)进行半非负矩阵分解和部分重构,得到能量谱e1;
[0053]
s24、目标声重构层:利用所述能量谱e1和相位谱p(即所述傅里叶变换相位谱p),计算出实部r1和虚部i1;将所述实部r1和所述虚部i1组合为复数x1,对x1(即所述复数x1)进行傅里叶反变换得到复数x1,取x1(即所述复数x1)的实部得到x2(即所述复数x2),取x2(即所述复数x2)的前n1个元素即是分离出的目标声信号(即所述第三目标声信号)。
[0054]
在本实施例中,所述r(即所述傅里叶变换的实部r)、i(即所述傅里叶变换的虚部
i)、e(即所述傅里叶变换能量谱e)、p(即所述傅里叶变换相位谱p)、e1(即所述能量谱e1)、r1(即所述实部r1)、i1(即所述虚部i1)、x1(即所述复数x1)、x1(即所述复数x1)、x2(即所述复数x2)的大小均为1
×
n2,且有n2≥n1。
[0055]
在本实施例中,基于半非负矩阵分解的声音分离网络w(即所述声音分离网络w)训练所用的损失函数l为:
[0056][0057]
其中,∑x2表示对x中的元素先进行平方再求和,表示对中的元素先进行平方再求和,log
10
表示计算以10为底的对数。
[0058]
上述实施例中,通过半非负矩阵分解算法构建得到声音分离网络,通过第一单通道目标声信号和第一单通道混合声信号对声音分离网络进行训练得到声音分离模型,具有较好的提取同种信号共性特征的优点,基于半非负矩阵分解构建声音分离网络,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
[0059]
可选地,作为本发明的一个实施例,所述一维卷积单元c1的卷积核的大小为n2×
n1,通过第二式计算所述一维卷积单元c1的卷积核的初始值,得到卷积核的初始值c1_r,所述第二式为:
[0060][0061]
其中,c1_r为一维卷积单元c1的卷积核的初始值;
[0062]
所述一维卷积单元c2的卷积核的大小为n2×
n1,通过第三式计算所述一维卷积单元c2的卷积核的初始值,得到卷积核的初始值c2_r,所述第三式为:
[0063][0064]
其中,c2_r为一维卷积单元c2的卷积核的初始值;
[0065]
所述对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行计算,得到傅里叶变换能量谱e和傅里叶变换相位谱p的过程,具体为:
[0066]
通过第四式对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行傅里叶变换能量谱e的计算,得到傅里叶变换能量谱e,所述第四式为:
[0067][0068]
其中,e为傅里叶变换能量谱,r为傅里叶变换的实部,i为傅里叶变换的虚部;
[0069]
通过第五式对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行傅里叶变换相位谱p的计算,得到傅里叶变换相位谱p,所述第五式为:
[0070][0071]
其中,p为傅里叶变换相位谱,r为傅里叶变换的实部,i为傅里叶变换的虚部。
[0072]
具体地,所述步骤s22中所述一维卷积单元c1的卷积核c1_r的大小为n2×
n1,在网络w(即所述声音分离网络w)的权值初始化过程中,c1_r的初始值是傅里叶变换的余弦三角基函数集,c1_r的初始值为:
[0073][0074]
所述步骤s22中所述一维卷积单元c2的卷积核c2_r的大小为n2×
n1,在网络w的权值初始化过程中,c2_r的初始值是傅里叶变换的正弦三角基函数集,c2_r的初始值为:
[0075][0076]
所述步骤s22中傅里叶变换能量谱e的计算公式为:
[0077][0078]
所述步骤s22中傅里叶变换相位谱p的计算公式为:
[0079][0080]
上述实施例中,通过对傅里叶变换的实部和傅里叶变换的虚部的计算得到傅里叶变换能量谱和傅里叶变换相位谱,能够从目标声和混合声中自动学得声音分离模型,该模型能够用于从时域混叠、频域混叠、时频域混叠的混合声中分离出目标声。
[0081]
可选地,作为本发明的一个实施例,所述s23的过程包括:
[0082]
s231:初始化所述声音分离网络w得到权值f1和权值f2,其中,所述权值f1和所述权值f2的初始值均在区间(-1,1)范围内;
[0083]
并初始化所述半非负矩阵分解算法的系数矩阵,得到系数矩阵g,所述系数矩阵g的初始值在区间(0,1)范围内;
[0084]
s232:将所述权值f1和所述权值f2相加,得到半非负矩阵分解的基矩阵f;
[0085]
并通过第六式以及所述半非负矩阵分解的基矩阵f和所述傅里叶变换能量谱e对所述系数矩阵g进行n次迭代更新,得到更新后的系数矩阵g,所述第六式为:
[0086][0087]
其中,g为半非负矩阵分解的系数矩阵,是一个非负矩阵,e为傅里叶变换能量谱,f为半非负矩阵分解的基矩阵,f
t
为半非负矩阵分解的基矩阵f的转置,(ef
t
)
+
为ef
t
中的正值元素,(ef
t
)-为ef
t
中的负值元素,(ff
t
)
+
为ff
t
中的正值元素,(ff
t
)-为ff
t
中的负值元素;
[0088]
s233:通过第七式对所述更新后的系数矩阵g和所述权值f1进行能量谱的计算,得到能量谱e1,所述第七式为:
[0089]
e1=g*f1,
[0090]
其中,e1为能量谱,g为更新后的系数矩阵,f1为权值。
[0091]
应理解地,步骤s232中所述n的取值可以为60~120之间的整数,具体为100。
[0092]
具体地,s231、初始化声音分离网络w的权值f1和f2,f1(即所述权值f1)和f2(即所
述权值f2)的初始值在区间(-1,1)范围;初始化半非负矩阵分解的系数矩阵g,g的初始值在区间(0,1)范围;
[0093]
s232、将f1(即所述权值f1)和f2(即所述权值f2)相加得到半非负矩阵分解的基矩阵f,利用公式对所述系数矩阵g进行n次迭代更新;
[0094]
在上述公式中,g为半非负矩阵分解的系数矩阵,是一个非负矩阵,e为傅里叶变换能量谱,f为半非负矩阵分解的基矩阵,f
t
为f的转置;(ef
t
)
+
为ef
t
中的正值元素,(ef
t
)-为ef
t
中的负值元素,(ff
t
)
+
为ff
t
中的正值元素,(ff
t
)-为ff
t
中的负值元素。
[0095]
s233、将系数矩阵g(即所述更新后的系数矩阵g)与f1(即所述权值f1)相乘,得到能量谱e1,即e1=g*f1。
[0096]
上述实施例中,通过对傅里叶变换能量谱的半非负矩阵分解以及部分重构得到能量谱,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
[0097]
可选地,作为本发明的一个实施例,所述步骤s24中,对所述能量谱e1和所述傅里叶变换相位谱p进行计算,得到实部r1和虚部i1;并对所述实部r1和所述虚部i1进行组合,得到复数x1的过程包括:
[0098]
通过第八式对所述能量谱e1和所述傅里叶变换相位谱p进行实部r1的计算,得到实部r1,所述第八式为:
[0099]
r1=e1*cos(p),
[0100]
其中,r1为实部,e1为能量谱,p为傅里叶变换相位谱;
[0101]
通过第九式对所述能量谱e1和所述傅里叶变换相位谱p进行虚部i1的计算,得到虚部i1,所述第九式为:
[0102]
i1=e1*sin(p),
[0103]
其中,i1为虚部,e1为能量谱,p为傅里叶变换相位谱;
[0104]
通过第十式对所述实部r1和所述虚部i1进行组合,得到复数x1,所述第十式为:
[0105]
x1=r1+j*i1,
[0106]
其中,x1为复数,r1为实部,i1为虚部,j为虚数符号。
[0107]
应理解地,所述步骤s24中实部r1的计算公式为:
[0108]
r1=e1*cos(p),
[0109]
所述步骤s24中虚部i1的计算公式为:
[0110]
i1=e1*sin(p),
[0111]
所述步骤s24中实部r1和虚部i1组合为复数x1的计算公式为:
[0112]
x1=r1+j*i1,
[0113]
其中,j为虚数符号。
[0114]
上述实施例中,通过对能量谱和傅里叶变换相位谱的计算得到实部和虚部,并对实部和虚部的组合得到复数,具有较好的提取同种信号共性特征的优点,基于半非负矩阵分解构建声音分离网络,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
[0115]
可选地,作为本发明的一个实施例,所述声音分离网络w中,训练的网络权值包括:所述一维卷积单元c1的卷积核、所述一维卷积单元c2的卷积核、所述权值f1和所述权值f2。
[0116]
应理解地,在所述声音分离网络w中,需要训练的网络权值包括:一维卷积单元c1的卷积核c1_r(即所述一维卷积单元c1的卷积核)、一维卷积单元c2的卷积核c2_r(即所述一维卷积单元c2的卷积核)、所述权值f1和所述权值f2。
[0117]
上述实施例中,对网络权值进行训练,从而得到更优的网络模型,实现较好的声音分离效果。
[0118]
可选地,作为本发明的另一个实施例,所述声音分离模型m与所述声音分离网络w具有相同的网络结构。
[0119]
可选地,作为本发明的另一个实施例,本发明的有益效果如下:
[0120]
本发明利用基于半非负矩阵分解的声音分离网络,从目标声和混合声中自动学得声音分离模型,该模型能用于从时域混叠、频域混叠、时频域混叠的混合声中分离出目标声。此外,半非负矩阵分解具有较好的提取同种信号共性特征的优点,基于半非负矩阵分解构建声音分离网络,可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。
[0121]
可选地,作为本发明的另一个实施例,本发明用于从单通道混合声中分离出目标声。该方法采用了基于人工智能的声音分离思路,利用目标声以及目标声与干扰声的混合声对基于半非负矩阵分解的声音分离网络进行训练,从而得到声音分离模型。
[0122]
可选地,作为本发明的另一个实施例,本发明公开了一种单通道声音分离方法,包括:将单通道目标声信号和单通道干扰声信号进行混合,得到单通道混合声信号;利用目标声信号和混合声信号对基于半非负矩阵分解的声音分离网络进行训练,得到声音分离模型;将单通道混合声信号输入声音分离模型,分离出目标声信号。本发明利用基于半非负矩阵分解的声音分离网络,从目标声和混合声中自动学得声音分离模型,该模型能用于从时域混叠、频域混叠、时频域混叠的混合声中分离出目标声。
[0123]
可选地,作为本发明的另一个实施例,本发明的效果可以通过以下实验进一步说明:
[0124]
1)实验数据
[0125]
实验数据包含3种声音,即空气压缩泵运行声(为方便表述,记为a声)、传送带运行声(为方便表述,记为b声)、人声(为方便表述,记为c声)。a声有100个训练样本、10个测试样本;b声有100个训练样本、10个测试样本;c声有10个样本。每个样本的长度为0.8秒,声音采样率为48khz;假设a声为目标声,b声和c声为干扰声;a声、b声和c声的大部分主要频段是重叠的。
[0126]
将a声的每个训练样本和与b声的每个训练样本进行两两混合,则可得到将被用于训练的10000个混合声样本(为方便表述,记为tr_ab声)。
[0127]
将a声的每个测试样本和与b声的每个测试样本进行两两混合,则可得到将被用于测试的100个混合声样本(为方便表述,记为te_ab声)。
[0128]
将a声的每个测试样本和与c声的每个样本进行两两混合,则可得到将被用于测试的100个混合声样本(为方便表述,记为te_ac声)。
[0129]
2)实验条件
[0130]
本发明的实验程序使用python3.6.5软件编写,基于tensorflow1.15.3编写声音分离网络相关的代码。s232中所述n的取值为100。利用tr_ab声对声音分离网络进行训练,得到声音分离模型。利用te_ab声和te_ac声对声音分离模型进行测试,并评估分离效果。
[0131]
3)实验结果
[0132]
以信号失真比sdr(signal distortion ratio)作为本发明分离效果的评价指标,sdr的单位是db。
[0133]
信号分离前,计算原始目标声信号(a声)和混合声信号(te_ab声或te_ac声)的sdr(记为sdr1)的公式为:
[0134][0135]
信号分离后,计算原始目标声信号(a声)和分离出的目标声信号(从te_ab声或te_ac声中分离出的目标声)的sdr(记为sdr2)的公式为:
[0136][0137]
在上述两个公式中,x表示原始目标声信号,即a声,s

是信号x和干扰声信号的混合声信号,即te_ab声和te_ac声,表示利用声音分离模型从混合声中分离出的目标声信号。综上所述,sdr2与sdr1的差值越大,说明分离效果越好;反之,如果sdr2《sdr1,则说明分离之后,信号失真度更高,即分离模型起负作用。实验结果如表1所示,
[0138]
表1为测试混合声的平均sdr1、平均sdr2和平均sdr提升的对比
[0139][0140][0141]
表1中平均sdr1表示100个混合声样本的平均sdr,平均sdr2表示100个分离出的目标声的平均sdr,平均sdr提升表示分离前后sdr的提升,即sdr
2-sdr1。从表1中的平均sdr提升数值可以看出,本发明具有较好的声音分离效果。
[0142]
图3为本发明实施例提供的一种单通道声音分离装置的模块框图。
[0143]
可选地,作为本发明的另一个实施例,如图3所示,一种单通道声音分离装置,包括:
[0144]
信号混合模块,用于导入单通道原始声信号x和单通道干扰声信号y,并对所述第一单通道目标声信号x和所述单通道干扰声信号y进行混合,得到第一单通道混合声信号s;
[0145]
模型训练模块,用于基于半非负矩阵分解算法得到声音分离网络w,根据所述第一单通道目标声信号x和所述第一单通道混合声信号s对所述声音分离网络w进行训练,得到声音分离模型m;
[0146]
目标声信号获得模块,用于将第一单通道混合声信号s

输入至所述声音分离模型
m进行分离,得到目标声信号
[0147]
可选地,作为本发明的一个实施例,所述声音分离网络w包括输入层、傅里叶变换层、能量谱分离层、一维卷积单元c1、一维卷积单元c2和目标声重构层,
[0148]
所述模型训练模块具体用于:
[0149]
所述输入层输入所述第一单通道混合声信号s;
[0150]
所述傅里叶变换层对所述第一单通道混合声信号s和所述一维卷积单元c1进行卷积运算,得到傅里叶变换的实部r;
[0151]
对所述第一单通道混合声信号s和所述一维卷积单元c2进行卷积运算,得到傅里叶变换的虚部i;
[0152]
对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行计算,得到傅里叶变换能量谱e和傅里叶变换相位谱p;
[0153]
所述能量谱分离层对所述傅里叶变换能量谱e进行半非负矩阵分解以及部分重构,得到能量谱e1;
[0154]
所述目标声重构层对所述能量谱e1和所述傅里叶变换相位谱p进行计算,得到实部r1和虚部i1;
[0155]
对所述实部r1和所述虚部i1进行组合,得到复数x1;
[0156]
对所述复数x1进行傅里叶反变换得到复数x1;
[0157]
提取所述复数x1的实部,得到实部x2;
[0158]
提取所述实部x2的前n1个元素作为第三目标声信号
[0159]
其中,所述傅里叶变换的实部r、所述傅里叶变换的虚部i、所述傅里叶变换能量谱e、所述傅里叶变换相位谱p、所述能量谱e1、所述实部r1、所述虚部i1、所述复数x1、所述复数x1和所述实部x2的大小均为1
×
n2,且n2≥n1;
[0160]
通过第一式对所述第一单通道目标声信号x和所述第三目标声信号计算所述声音分离网络w的损失函数l,得到损失函数l,所述第一式为:
[0161][0162]
其中,l为损失函数,x为第一单通道目标声信号,为第三目标声信号,∑x2为对第一单通道目标声信号x中的元素先进行平方再求和,为对中的元素先进行平方再求和,log
10
为计算以10为底的对数;
[0163]
根据所述损失函数l对所述声音分离网络w进行参数更新,得到声音分离模型m。
[0164]
可选地,本发明的另一个实施例提供一种单通道声音分离装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的单通道声音分离方法。该装置可为计算机等装置。
[0165]
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的单通道声音分离方法。
[0166]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0167]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0168]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0169]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0170]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0171]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0172]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种单通道声音分离方法,其特征在于,包括如下步骤:s1:导入第一单通道目标声信号x和第一单通道干扰声信号y,并对所述第一单通道目标声信号x和所述第一单通道干扰声信号y进行混合,得到第一单通道混合声信号s;s2:基于半非负矩阵分解算法构建得到声音分离网络w,通过所述第一单通道目标声信号x和所述第一单通道混合声信号s对所述声音分离网络w进行训练,得到声音分离模型m;s3:将第二单通道混合声信号s

输入至所述声音分离模型m进行分离,得到第二目标声信号2.根据权利要求1所述的单通道声音分离方法,其特征在于,所述声音分离网络w包括输入层、傅里叶变换层、能量谱分离层、一维卷积单元c1、一维卷积单元c2和目标声重构层,所述步骤s2中的过程包括:s21:所述输入层输入所述第一单通道混合声信号s;s22:所述傅里叶变换层对所述第一单通道混合声信号s和所述一维卷积单元c1进行卷积运算,得到傅里叶变换的实部r;对所述第一单通道混合声信号s和所述一维卷积单元c2进行卷积运算,得到傅里叶变换的虚部i;对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行计算,得到傅里叶变换能量谱e和傅里叶变换相位谱p;s23:所述能量谱分离层对所述傅里叶变换能量谱e进行半非负矩阵分解以及部分重构,得到能量谱e1;s24:所述目标声重构层对所述能量谱e1和所述傅里叶变换相位谱p进行计算,得到实部r1和虚部i1;对所述实部r1和所述虚部i1进行组合,得到复数x1;对所述复数x1进行傅里叶反变换得到复数x1;提取所述复数x1的实部,得到实部x2;提取所述实部x2的前n1个元素作为第三目标声信号其中,所述傅里叶变换的实部r、所述傅里叶变换的虚部i、所述傅里叶变换能量谱e、所述傅里叶变换相位谱p、所述能量谱e1、所述实部r1、所述虚部i1、所述复数x1、所述复数x1和所述实部x2的大小均为1
×
n2,且n2≥n1;s25:通过第一式对所述第一单通道目标声信号x和所述第三目标声信号计算所述声音分离网络w的损失函数l,得到损失函数l,所述第一式为:其中,l为损失函数,x为第一单通道目标声信号,为第三目标声信号,∑x2为对第一单通道目标声信号x中的元素先进行平方再求和,为对中的元素先进行平方再求和,log
10
为计算以10为底的对数;s26:根据所述损失函数l对所述声音分离网络w进行参数更新,得到声音分离模型m。3.根据权利要求2所述的单通道声音分离方法,其特征在于,所述一维卷积单元c1的卷
积核的大小为n2×
n1,通过第二式计算所述一维卷积单元c1的卷积核的初始值,得到卷积核的初始值c1_r,所述第二式为:其中,c1_r为一维卷积单元c1的卷积核的初始值;所述一维卷积单元c2的卷积核的大小为n2×
n1,通过第三式计算所述一维卷积单元c2的卷积核的初始值,得到卷积核的初始值c2_r,所述第三式为:其中,c2_r为一维卷积单元c2的卷积核的初始值;所述对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行计算,得到傅里叶变换能量谱e和傅里叶变换相位谱p的过程,具体为:通过第四式对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行傅里叶变换能量谱e的计算,得到傅里叶变换能量谱e,所述第四式为:其中,e为傅里叶变换能量谱,r为傅里叶变换的实部,i为傅里叶变换的虚部;通过第五式对所述傅里叶变换的实部r和所述傅里叶变换的虚部i进行傅里叶变换相位谱p的计算,得到傅里叶变换相位谱p,所述第五式为:其中,p为傅里叶变换相位谱,r为傅里叶变换的实部,i为傅里叶变换的虚部。4.根据权利要求3所述的单通道声音分离方法,其特征在于,所述s23的过程包括:s231:初始化所述声音分离网络w得到权值f1和权值f2,其中,所述权值f1和所述权值f2的初始值均在区间(-1,1)范围内;并初始化所述半非负矩阵分解算法的系数矩阵,得到系数矩阵g,所述系数矩阵g的初始值在区间(0,1)范围内;s232:将所述权值f1和所述权值f2相加,得到半非负矩阵分解的基矩阵f;并通过第六式以及所述半非负矩阵分解的基矩阵f和所述傅里叶变换能量谱e对所述系数矩阵g进行n次迭代更新,得到更新后的系数矩阵g,所述第六式为:其中,g为半非负矩阵分解的系数矩阵,是一个非负矩阵,e为傅里叶变换能量谱,f为半非负矩阵分解的基矩阵,f
t
为半非负矩阵分解的基矩阵f的转置,(ef
t
)
+
为ef
t
中的正值元素,(ef
t
)-为ef
t
中的负值元素,(ff
t
)
+
为ff
t
中的正值元素,(ff
t
)-为ff
t
中的负值元素;s233:通过第七式对所述更新后的系数矩阵g和所述权值f1进行能量谱的计算,得到能量谱e1,所述第七式为:
e1=g*f1,其中,e1为能量谱,g为更新后的系数矩阵,f1为权值。5.根据权利要求2所述的单通道声音分离方法,其特征在于,所述步骤s24中,对所述能量谱e1和所述傅里叶变换相位谱p进行计算,得到实部r1和虚部i1;并对所述实部r1和所述虚部i1进行组合,得到复数x1的过程包括:通过第八式对所述能量谱e1和所述傅里叶变换相位谱p进行实部r1的计算,得到实部r1,所述第八式为:r1=e1*cos(p),其中,r1为实部,e1为能量谱,p为傅里叶变换相位谱;通过第九式对所述能量谱e1和所述傅里叶变换相位谱p进行虚部i1的计算,得到虚部i1,所述第九式为:i1=e1*sin(p),其中,i1为虚部,e1为能量谱,p为傅里叶变换相位谱;通过第十式对所述实部r1和所述虚部i1进行组合,得到复数x1,所述第十式为:x1=r1+j*i1,其中,x1为复数,r1为实部,i1为虚部,j为虚数符号。6.根据权利要求4所述的单通道声音分离方法,其特征在于,所述声音分离网络w中,训练的网络权值包括:所述一维卷积单元c1的卷积核、所述一维卷积单元c2的卷积核、所述权值f1和所述权值f2。

技术总结


本发明提供一种单通道声音分离方法,属于单通道混合声音信号分离领域,方法包括:对第一单通道目标声信号和第一单通道干扰声信号进行混合,得到第一单通道混合声信号;基于半非负矩阵分解算法构建得到声音分离网络,通过第一单通道目标声信号和第一单通道混合声信号对声音分离网络进行训练得到声音分离模型;将第二单通道混合声信号输入至声音分离模型进行分离得到第二目标声信号。本发明可让网络具有较好的提取目标声信号成分的能力,从而更好的重构目标声,实现较好的声音分离效果。实现较好的声音分离效果。实现较好的声音分离效果。


技术研发人员:

韩威 熊志金

受保护的技术使用者:

广州铁路职业技术学院(广州铁路机械学校)

技术研发日:

2022.07.08

技术公布日:

2022/11/11

本文发布于:2022-11-27 21:08:08,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/8690.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   信号   卷积   声音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图