音频处理方法及其装置与流程

阅读: 评论:0



1.本技术属于通信技术领域,具体涉及一种音频处理方法及其装置。


背景技术:



2.人们对声音的感知不仅包括了响度、音调和音三要素,而且人们还能对声音的空间信息进行感知,比如声音的方向、距离和环境信息。
3.相比单声道的信号,立体声包括声音信号的空间信息。随着技术的发展,多麦克风的手机、平板等便携式设备逐渐普及。从而立体声录音逐渐成为一个基础的功能。
4.相关技术中,对于立体声的输出,需要输出的包含着空间信息的多路语音信号,而常规的语音增强算法,只有一路语音输出。所以不管是采用波束形成算法还是盲源分离算法,想要立体声输出一般是需要做多次空间滤波的,多次空间滤波的计算复杂度较高。
5.因此,如何更好的进行立体声输出已经成为业界亟待解决的问题。


技术实现要素:



6.本技术实施例的目的是提供一种音频处理方法及其装置,能够解决立体声输出需要进行多次空间滤波,计算复杂度较高的问题。
7.第一方面,本技术实施例提供了一种音频处理方法,该方法包括:
8.获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;
9.根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;
10.根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;
11.根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
12.第二方面,本技术实施例提供了一种音频处理装置,包括:
13.获取模块,用于获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;
14.构建模块,用于根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;
15.处理模块,用于根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;
16.输出模块,用于根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
17.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
18.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
19.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
20.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
21.在本技术实施例中,在获取音频信号后,可以将音频信号中每个音频频点对应的语音信号存在概率作为监督信息,进而根据该监督信息构造语音协方差矩阵和噪声协方差矩阵,该监督信息可以帮助选择语音协方差矩阵,能够解决盲源分离算法中的通道选择问题,且通过空间传递函数先计算音频信号对应的混合矩阵,再根据混合矩阵确定解混矩阵,进而根据解混矩阵和音频信息分别输出第一语音信号、第一噪声信号、第二语音信号和第二噪声信号,不需要多次空间滤波,有效降低了运算复杂度,提升了算法鲁棒性。
附图说明
22.图1为相关技术中人声增强示意图;
23.图2为本技术实施例中提供的音频处理方法流程示意图;
24.图3为本技术实施例提供的音频处理装置结构示意图;
25.图4为本技术实施例提供的电子设备结构示意图;
26.图5为实现本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
28.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的一种音频处理方法及其装置进行详细地说明。
30.在相关技术中,立体声人声增强是立体声的一个重要应用场景,图1为相关技术中人声增强示意图,如图1所示,以两个麦克风为例,假设声音所处的环境为噪声和混响场景,根据公式1,麦克风采集的信号可以表示为x1(n)和x2(n),
31.xm(n)=am(n)*s(n)+rm(n),
ꢀꢀꢀꢀꢀ
(1)
32.其中,m=1,2,s(n)表示音频信号声源,am(n)表示音频信号声源相对于第m个麦克风的声学传递函数(atf),*表示卷积,rm(n)表示第m个麦克对应的噪声成分。立体声人声增强是指对这两路信号做语音增强,去除这两路信号里的噪声信号,保留相应的语音成分和空间信息,分别得到增强后的y1(n)和y2(n),其中人声增强的目标是y1(n)≈a1(n)*s(n),y2(n)≈a2(n)*s(n)。
33.图2为本技术实施例中提供的音频处理方法流程示意图,如图2所示,包括:
34.步骤210,获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;
35.具体地,通过设置在电子设备中的多个麦克风获取音频信号,各个麦克风可以设置在一起组成麦克风阵列,也可以分别设置在电子设备的不同位置,每个麦克风均可以单独采集音频子信号,例如麦克风a可以采集第一音频子信号,麦克风b可以采集第二音频子信号。
36.更具体地,不同麦克风采集的音频子信号中均可能包括来自人声声源的语音信号和来自其它声源的噪声信号。
37.可以理解的是,本技术实施例中,在麦克风采集到各个音频子信号xm(n)之后,可以进一步进行分帧、加窗和傅里叶变换得到xm(k,l),m=1,2,其中k表示音频信号中的音频频点,l表示音频信号的时间帧,最终获取到音频信号x(k,l)=[x1(k,l)x2(k,l)]
t

[0038]
步骤220,根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;
[0039]
具体地,每个音频信号中存在多个音频频点,每个音频频点对应的可能是语音信号,也可能是噪声信号,而可以理解的是,语音信号存在概率vad(l)即是该音频频点可能为语音信号对应频点的概率。
[0040]
本技术实施例中每个音频频点对应的语音信号存在概率vad(l)具体可以是通过相关的深度学习神经网络进行分析得到的,即将该音频信号输入该深度学习神经网络,即可以输出该音频信号中各个音频频点对应的语音信号存在概率vad(l)。
[0041]
可以理解的是,本技术实施例中的语音信号存在概率vad(l)也可以通过其它常规方式进行分析,本技术实施例对其获取方式并不进行限定,并且本技术实施例中并不需要十分准确的语音信号存在概率vad(l),其可以是一个较为粗糙的信息。
[0042]
本技术实施例中的语音信号存在概率vad(l)可以作为一个监督信息,用于期望意义上从音频信号中筛选出语音帧,从而进行构建协方差矩阵,并且可以进一步选择哪一个协方差矩阵是语音协方差矩阵,从而解决盲源分离算法中通道选择的问题。
[0043]
更进一步地,根据该语音信号存在概率分别构造语音协方差矩阵φ
xx
(k,l)和噪声协方差矩阵φ
nn
(k,l),具体为公式2和公式3:
[0044]
φ
xx
(k,l)=(1-α)φ
xx
(k,l)+α vad(l)x(k,l)xh(k,l),
ꢀꢀꢀ
(2)
[0045]
φ
nn
(k,l)=(1-α)φ
nn
(k,l)+α(1-vad(l))x(k,l)xh(k,l),
ꢀꢀ
(3)
[0046]
其中,α为平滑因子,k为音频频点,l为时间帧,vad(l)为语音信号存在概率。
[0047]
步骤230,根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;
[0048]
在相关技术中,通常会直接求解音频信号对应的解混矩阵,但是这种计算方法较为复杂,计算量较大,在本技术实施例中通过直接计算音频信号对应的混合矩阵,然后对混合矩阵进行求逆,则可以得到音频信号的解混矩阵。
[0049]
更具体地,本技术实施例中所描述的混合矩阵的列向量ai(k,l)具有明确的物理意义,即空间传递函数,其具体可以包括语音信号通道对应的第一空间传递函数a1(k,l),以及噪声信号通道对应的第二空间传递函数a2(k,l)。
[0050]
因此,可以理解的是,本技术中求解混合矩阵具体可以是更新第一空间传递函数和第二空间传递函数,在完成第一空间传递函数和第二空间传递函数的更新后,即完成混合矩阵a(k,l)的更新和求解。
[0051]
更具体地,本技术实施例中在完成混合矩阵a(k,l)的更新后,还会进一步对其进行归一化处理,以避免盲源分离算法中幅度不确定问题,最终将归一化处理后的混合矩阵求逆,根据公式4,即可得到解混矩阵w(k,l)。
[0052]
w(k,l)=a-1
(k,l)
ꢀꢀꢀꢀꢀ
(4)。
[0053]
在本技术实施例中,假设盲源分离算法输出的分别为语音信号通道y1(k,l)和噪声信号通道n1(k,l),根据公式5,具体为:
[0054][0055]
对于立体声输入,解混矩阵w(k,l)是一个2x2的矩阵,根据公式6可以拆开为
[0056]
w(k,l)=[w1(k,l) w2(k,l)]h,
ꢀꢀꢀꢀꢀ
(6)
[0057]
其中,wi(k,l),是2维列向量,i=1,2。
[0058]
根据公式7,混合矩阵可以拆分为具体为:
[0059]
a(k,l)=[a1(k,l) a2(k,l)],
ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0060]
其中,ai(k,l),是2维列向量,i=1,2。
[0061]
步骤240,根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0062]
在本技术实施例中,根据解混矩阵和音频信号可以分别等得到第一音频子信号对应的第一语音信号和第一噪声信号,还可以分别得到第二音频子信号对应的第二语音信号和第二噪声信号,
[0063]
更进一步地,将第一语音信号、第一噪声信号、第二语音信号和第二噪声信号分别做逆fft变换、加窗、和帧变换到时域,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0064]
在本技术实施例中,在获取音频信号后,可以将音频信号中每个音频频点对应的语音信号存在概率作为监督信息,进而根据该监督信息构造语音协方差矩阵和噪声协方差
矩阵,该监督信息可以帮助选择语音协方差矩阵,能够解决盲源分离算法中的通道选择问题,且通过空间传递函数先计算音频信号对应的混合矩阵,再根据混合矩阵确定解混矩阵,进而根据解混矩阵和音频信息分别输出第一语音信号、第一噪声信号、第二语音信号和第二噪声信号,不需要多次空间滤波,有效降低了运算复杂度,提升了算法鲁棒性。
[0065]
可选地,根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,包括:
[0066]
根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数;
[0067]
根据第一空间相对传递函数和第二空间相对传递函数,分别对所述第一目标空间传递函数和第二目标空间传递函数进行归一化处理,获取所述音频信号对应的混合矩阵;
[0068]
其中,所述第一空间相对传递函数是基于第三空间传递函数与第四空间传递函数的比值确定的,所述第二空间相对传递函数是基于第五空间传递函数和第六空间传递函数的比值确定的;所述第三空间传递函数是所述语音信号相对于第一麦克风的空间传递函数,所述第四空间传递函数是所述语音信号相当于第二麦克风的空间传递函数,所述第五空间传递函数是所述噪声信号相对于所述第二麦克风的空间传递函数,所述第六空间传递函数是所述噪声信号相对于所述第一麦克风的空间传递函数。
[0069]
具体地,本技术实施例中所描述的第一空间传递函数具体可以是语音信号的声源相对于麦克风的传递函数,第二空间传递函数具体可以是噪声信号的声源相对于麦克风的传递函数,而噪声理论上可能来自多个方向,但是在本技术实施例中将噪声认为来自于一个期望意义上的方向源。
[0070]
更具体地,本技术实施例中检测到音频信号中的任一音频频点时,均进行第一空间传递函数和所述第二空间传递函数的更新。
[0071]
在另一些实施例中,为了减少更新次数,减少计算量,在音频频点可能对应有语音信号的情况下,才会更新第一空间传递函数,在音频频点可能对应有噪声信号的情况下,才会更新第二空间传递函数,
[0072]
在本技术实施例中,在更新第一空间传递函数和第二空间传递函数后,由于盲源分离算法中幅度不确定的问题,可以进一步对混合矩阵的列向量进行校准,得到具备明确物理意义的空间传递函数,解决了盲源分离算法的幅度不确定问题。
[0073]
更具体地,对列向量校正校准具体可以是通过第一空间相对传递函数对第一空间传递函数进行归一化处理,通过第二空间相对传递函数对第二空间传递函数进行归一化处理,最终得到归一化后的混合矩阵。
[0074]
本技术实施例中所描述的第一空间相对传递函数是指语音信号在第一麦克风和第二麦克风之间传递系数,第二空间相对传递函数是指噪声信号在第一麦克风和第二麦克风之间的传递系数。
[0075]
可以理解的是,根据公式8,归一化的具体过程具体可以为:
[0076]

[0077]
其中,根据公式9,第一空间相对传递函数a
1rtf
(k,l)=a
21
(k,l)/a
11
(k,l)。
[0078][0079]
其中,根据公式10第二空间相对传递函数为:
[0080]a2rtf
(k,l)=a
12
(k,l)/a
22
(k,l)。
ꢀꢀꢀꢀ
(10)
[0081]
更具体地,本技术实施例中,语音信号源相对于第一麦克风的空间传递系数为第三空间传递函数a
11
(k,l),语音信号源相对于第二麦克风的空间传递系数为第四空间传递函数a
21
(k,l),噪声信号源相对于第一麦克风的空间传递系数为第五空间传递函数a
12
(k,l),噪声信号源相对于第二麦克风的空间传递系数为第六空间传递函数a
22
(k,l)。
[0082]
在经过上述更新和归一化循环处理,遍历音频信号中所有的音频频点后,完成混合矩阵的更新,得到音频信号对应的混合矩阵。
[0083]
在本技术实施例中,在通过对于第一空间传递函数和第二空间传递函数的更新,进而实现的对于混合矩阵的更新和请求,有效简化的计算过程,同时通过语音信号和噪声信号在麦克风之间的第一空间相对传递函数和第二空间相对传递函数,实现对于第一空间传递函数和第二空间传递函数进行归一化处理,有效实现对于混合矩阵列向量的校准,解决了盲源分离算法中幅度不确定的问题。
[0084]
可选地,根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数,包括:
[0085]
在所述音频信号中检测到第一目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第一目标空间传递函数;
[0086]
在所述音频信号中检测到第二目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第二空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第二目标空间传递函数;
[0087]
其中,所述第一目标音频频点是所述音频信号中语音信号存在概率超过第一预设阈值的音频频点,所述第二目标音频频点是所述音频信号中噪声信号存在概率超过第二预设阈值的音频频点。
[0088]
具体地,为了有效减少更新次数减少运算量,本技术实施例中只在语音存在的时候,才会更新第一空间传递函数,对应地,也可以只在噪声存在的时候才会更新第二空间传递函数。
[0089]
可以理解的是,在音频频点对应的语音信号存在概率超过第一预设阈值的时候,则说明该音频频点可能对应的是语音信号,此时更新第一空间传递函数。
[0090]
在音频频点对应的噪声信号存在概率超过第二预设阈值的时候,则说明该音频频点可能对应的是噪声信号,此时更新第二空间传递函数。
[0091]
更具体地,根据公式11,本技术实施例中更新第一空间传递函数,具体为:
[0092]
当vad(l)》thr1,
[0093]
ds1=w
1h
(k,l)φ
xx
(k,l)w1(k,l),
[0094]
ds2=w
1h
(k,l)φ
nn
(k,l)w1(k,l),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0095]
us=w
2h
(k,l)φ
nn
(k,l)w1(k,l),
[0096]vs
=us/ds2,
[0097][0098]
其中,thr1为第一预设阈值,w1(k,l)为解混矩阵中语音信号通道对应的列向量,ds1、ds2、us和vs均是计算过程中的中间量。
[0099]
更具体地,根据公式12,本技术实施例中更新第二空间传递函数,具体为:
[0100]
当vad(l)》thr2,
[0101]
un=w
1h
(k,l)φ
xx
(k,l)e2(k,l),
[0102]
dn1=w
2h
(k,l)φ
xx
(k,l)w2(k,l),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0103]
dn2=w
2h
(k,l)φ
nn
(k,l)w2(k,l),
[0104]
vn=un/dn1,
[0105][0106]
其中,un、dn1、dn2和vn是计算过程中的中间量,thr2为第二预设阈值,w2(k,l)解混矩阵中噪声信号通道对应的列向量。
[0107]
在本技术实施例中,在完成音频信号中所有音频频点的遍历后,完成对于第一空间传递函数和第二空间传递函数的更新。
[0108]
在本技术实施例中,在音频信号中检测第一目标音频频点的情况下,更新第一空间传递函数,在音频信号中检测到第二目标音频频点的情况下更新第二空间传递函数,能够有效在保证更新有效率的情况下,减少更新次数,提高更新效率。
[0109]
可选地,根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号,包括:
[0110]
根据所述解混矩阵和所述音频信号的乘积,获取第一音频子信号对应的第一语音信号、第一噪声信号;
[0111]
基于所述第一语音信号、第一噪声信号、所述第一空间相对传递函数和第二空间相对传递函数,获取所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0112]
具体地,根据公式13获取第一音频子信号对应的第一语音信号、第一噪声信号,具体为:
[0113][0114]
其中,y1(k,l)为第一麦克风采集的第一音频子信号中的第一语音信号,n1(k,l)为第一音频子信号中的第一噪声信号。
[0115]
进一步,在得到第一语音信号和第一噪声信号后,可以进一步结合两个麦克风之间的相对传递系数,根据公式14,进一步确定第二麦克风采集的第二音频子信号中的第二语音信号和第二噪声信号,具体为:
[0116][0117]
其中,y2(k,l)为第二音频子信号中的第二语音信号,n2(k,l)为第二音频子信号中的第二噪声信号,a
1rtf
(k,l)是第一空间相对传递函数,a
2rtf
(k,l)是第二空间相对传递函数。
[0118]
更具体地,在得到第一语音信号、第一噪声信号、第二语音信号、第二噪声信号后,可以进一步对第一语音信号和第二语音信号进行增强。
[0119]
在本技术实施例中,通过解混矩阵和音频信号,得到了分离的第一语音信号、第一噪声信号,同时根据第一空间相对传递函数和第二空间相对传递函数,得到了分离的第二语音信号和第二噪声信号,实现了立体声的四通道输出,不需要做两次空间滤波,降低了算法的复杂度。
[0120]
可选地,所述第一空间相对传递函数受因果约束,其中,所述因果约束具体为:
[0121]
将所述第一空间相对传递函数变换到时域,得到第一时域信号;
[0122]
根据预设时域范围对所述第一时域信号进行截断处理,得到约束后的第一空间相对传递函数,其中,所述预设时域范围是基于所述第一空间传递函数对应的有限长脉冲响应确定的。
[0123]
具体地,在本技术实施例中只考虑音频信号音频对应的第一空间相对传递函数,设定第一空间相对传递函数是有效长脉冲响应,根据公式15则其对应的时域脉冲响应可以表示为:
[0124][0125]
为了使第一空间相对传递函数a
1rt
(k,l)满足h
t
(n)这个结构,可以把a
1rtf
(k,l)变换到时域,对时域信号进行截断,保留[-k
l
,kr]范围,这样就把相对传递路径进行了因果约束。
[0126]
因此,公式16具体为:
[0127][0128]
其中,表示对a
1rtf
(k,l)经过有效长脉冲响应约束后的结果再赋值给a
1rtf
(k,l)。
[0129]
在本技术实施例中,通过对语音通道的第一空间相对传递函数,能够有效提升算法的噪声抑制效果。
[0130]
可选地,本技术实施例的方案适用于多声道输入、多声道输出的人声增强场景,如录音、空间音频场景等。能够对带噪的多声道语音通过空间滤波的方式进行增强,实现每个通道的人声增强。相比于现有盲源和波束形成方法,本技术实施例的方案复杂度低,适用于时变的声学场景。
[0131]
本技术实施例提供的音频处理方法,执行主体可以为音频处理装置。本技术实施例中以音频处理装置执行音频处理的方法为例,说明本技术实施例提供的音频处理装置。
[0132]
图3为本技术实施例提供的音频处理装置结构示意图,如图3所示,包括:获取模块310、构建模块320、处理模块330和输出模块340;其中,获取模块310用于获取音频信号,所
述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;其中,构建模块320用于根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;其中,处理模块330用于根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;其中,输出模块340用于根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0133]
可选地,所述处理模块,具体用于:
[0134]
根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数;
[0135]
根据第一空间相对传递函数和第二空间相对传递函数,分别对所述第一目标空间传递函数和第二目标空间传递函数进行归一化处理,获取所述音频信号对应的混合矩阵;
[0136]
其中,所述第一空间相对传递函数是基于第三空间传递函数与第四空间传递函数的比值确定的,所述第二空间相对传递函数是基于第五空间传递函数和第六空间传递函数的比值确定的;所述第三空间传递函数是所述语音信号相对于第一麦克风的空间传递函数,所述第四空间传递函数是所述语音信号相当于第二麦克风的空间传递函数,所述第五空间传递函数是所述噪声信号相对于所述第二麦克风的空间传递函数,所述第六空间传递函数是所述噪声信号相对于所述第一麦克风的空间传递函数。
[0137]
可选地,所述处理模块,具体用于:
[0138]
在所述音频信号中检测到第一目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第一目标空间传递函数;
[0139]
在所述音频信号中检测到第二目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第二空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第二目标空间传递函数;
[0140]
其中,所述第一目标音频频点是所述音频信号中语音信号存在概率超过第一预设阈值的音频频点,所述第二目标音频频点是所述音频信号中噪声信号存在概率超过第二预设阈值的音频频点。
[0141]
可选地,所述输出模块,具体用于:
[0142]
根据所述解混矩阵和所述音频信号的乘积,获取第一音频子信号对应的第一语音信号、第一噪声信号;
[0143]
基于所述第一语音信号、第一噪声信号、所述第一空间相对传递函数和第二空间相对传递函数,获取所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0144]
可选地,所述第一空间相对传递函数受因果约束,其中,所述因果约束具体为:
[0145]
将所述第一空间相对传递函数变换到时域,得到第一时域信号;
[0146]
根据预设时域范围对所述第一时域信号进行截断处理,得到约束后的第一空间相对传递函数,其中,所述预设时域范围是基于所述第一空间传递函数对应的有限长脉冲响
应确定的。
[0147]
在本技术实施例中,在获取音频信号后,可以将音频信号中每个音频频点对应的语音信号存在概率作为监督信息,进而根据该监督信息构造语音协方差矩阵和噪声协方差矩阵,该监督信息可以帮助选择语音协方差矩阵,能够解决盲源分离算法中的通道选择问题,且通过空间传递函数先计算音频信号对应的混合矩阵,再根据混合矩阵确定解混矩阵,进而根据解混矩阵和音频信息分别输出第一语音信号、第一噪声信号、第二语音信号和第二噪声信号,不需要多次空间滤波,有效降低了运算复杂度,提升了算法鲁棒性。
[0148]
本技术实施例中的音频处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0149]
本技术实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
[0150]
本技术实施例提供的音频处理装置能够实现图1至图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0151]
可选地,图4为本技术实施例提供的电子设备结构示意图,如图4所示,本技术实施例还提供一种电子设备400,包括处理器401和存储器402,存储器402上存储有可在所述处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述音频处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0152]
需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0153]
图5为实现本技术实施例的一种电子设备的硬件结构示意图。
[0154]
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、以及处理器510等部件。
[0155]
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
[0156]
其中,输入单元504用于获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;
[0157]
处理器510用于根据所述音频信号中每个音频频点对应的语音信号存在概率,构
建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;
[0158]
处理器510用于根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;
[0159]
音频输出单元503用于根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0160]
处理器510用于根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数;
[0161]
根据第一空间相对传递函数和第二空间相对传递函数,分别对所述第一目标空间传递函数和第二目标空间传递函数进行归一化处理,获取所述音频信号对应的混合矩阵;
[0162]
其中,所述第一空间相对传递函数是基于第三空间传递函数与第四空间传递函数的比值确定的,所述第二空间相对传递函数是基于第五空间传递函数和第六空间传递函数的比值确定的;所述第三空间传递函数是所述语音信号相对于第一麦克风的空间传递函数,所述第四空间传递函数是所述语音信号相当于第二麦克风的空间传递函数,所述第五空间传递函数是所述噪声信号相对于所述第二麦克风的空间传递函数,所述第六空间传递函数是所述噪声信号相对于所述第一麦克风的空间传递函数。
[0163]
处理器510用于在所述音频信号中检测到第一目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第一目标空间传递函数;
[0164]
在所述音频信号中检测到第二目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第二空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第二目标空间传递函数;
[0165]
其中,所述第一目标音频频点是所述音频信号中语音信号存在概率超过第一预设阈值的音频频点,所述第二目标音频频点是所述音频信号中噪声信号存在概率超过第二预设阈值的音频频点。
[0166]
处理器510用于根据所述解混矩阵和所述音频信号的乘积,获取第一音频子信号对应的第一语音信号、第一噪声信号;
[0167]
基于所述第一语音信号、第一噪声信号、所述第一空间相对传递函数和第二空间相对传递函数,获取所述第二音频子信号对应的第二语音信号、第二噪声信号。
[0168]
处理器510用于将所述第一空间相对传递函数变换到时域,得到第一时域信号;
[0169]
根据预设时域范围对所述第一时域信号进行截断处理,得到约束后的第一空间相对传递函数,其中,所述预设时域范围是基于所述第一空间传递函数对应的有限长脉冲响应确定的。
[0170]
在本技术实施例中,在获取音频信号后,可以将音频信号中每个音频频点对应的语音信号存在概率作为监督信息,进而根据该监督信息构造语音协方差矩阵和噪声协方差矩阵,该监督信息可以帮助选择语音协方差矩阵,能够解决盲源分离算法中的通道选择问
题,且通过空间传递函数先计算音频信号对应的混合矩阵,再根据混合矩阵确定解混矩阵,进而根据解混矩阵和音频信息分别输出第一语音信号、第一噪声信号、第二语音信号和第二噪声信号,不需要多次空间滤波,有效降低了运算复杂度,提升了算法鲁棒性。
[0171]
应理解的是,本技术实施例中,输入单元504可以包括图形处理器(graphics processing unit,gpu)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元506可包括显示面板5061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板5061。用户输入单元507包括触控面板5071以及其他输入设备5072中的至少一种。触控面板5071,也称为触摸屏。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0172]
存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器509可以包括易失性存储器或非易失性存储器,或者,存储器509可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器509包括但不限于这些和任意其它适合类型的存储器。
[0173]
处理器510可包括一个或多个处理单元;可选的,处理器510集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
[0174]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0175]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0176]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0177]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0178]
本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0179]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0180]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0181]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。

技术特征:


1.一种音频处理方法,其特征在于,包括:获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。2.根据权利要求1所述的音频处理方法,其特征在于,根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,包括:根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数;根据第一空间相对传递函数和第二空间相对传递函数,分别对所述第一目标空间传递函数和第二目标空间传递函数进行归一化处理,获取所述音频信号对应的混合矩阵;其中,所述第一空间相对传递函数是基于第三空间传递函数与第四空间传递函数的比值确定的,所述第二空间相对传递函数是基于第五空间传递函数和第六空间传递函数的比值确定的;所述第三空间传递函数是所述语音信号相对于第一麦克风的空间传递函数,所述第四空间传递函数是所述语音信号相当于第二麦克风的空间传递函数,所述第五空间传递函数是所述噪声信号相对于所述第二麦克风的空间传递函数,所述第六空间传递函数是所述噪声信号相对于所述第一麦克风的空间传递函数。3.根据权利要求2所述的音频处理方法,其特征在于,根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数,包括:在所述音频信号中检测到第一目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第一目标空间传递函数;在所述音频信号中检测到第二目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第二空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第二目标空间传递函数;其中,所述第一目标音频频点是所述音频信号中语音信号存在概率超过第一预设阈值的音频频点,所述第二目标音频频点是所述音频信号中噪声信号存在概率超过第二预设阈值的音频频点。4.根据权利要求2所述的音频处理方法,其特征在于,根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号,包括:根据所述解混矩阵和所述音频信号的乘积,获取第一音频子信号对应的第一语音信
号、第一噪声信号;基于所述第一语音信号、第一噪声信号、所述第一空间相对传递函数和第二空间相对传递函数,获取所述第二音频子信号对应的第二语音信号、第二噪声信号。5.根据权利要求2所述的音频处理方法,其特征在于,所述第一空间相对传递函数受因果约束,其中,所述因果约束具体为:将所述第一空间相对传递函数变换到时域,得到第一时域信号;根据预设时域范围对所述第一时域信号进行截断处理,得到约束后的第一空间相对传递函数,其中,所述预设时域范围是基于所述第一空间传递函数对应的有限长脉冲响应确定的。6.一种音频处理装置,其特征在于,包括:获取模块,用于获取音频信号,所述音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;构建模块,用于根据所述音频信号中每个音频频点对应的语音信号存在概率,构建所述音频信号对应的语音协方差矩阵和噪声协方差矩阵;处理模块,用于根据所述语音协方差矩阵和所述噪声协方差矩阵获得所述音频信号对应的混合矩阵,并对所述混合矩阵求逆,确定所述音频信号的解混矩阵;其中,所述混合矩阵包括所述音频信号中语音信号通道对应的第一空间传递函数和所述音频信号中噪声信号通道对应的第二空间传递函数;输出模块,用于根据所述解混矩阵和所述音频信号,分别输出所述第一音频子信号对应的第一语音信号、第一噪声信号、所述第二音频子信号对应的第二语音信号、第二噪声信号。7.根据权利要求6所述的音频处理装置,其特征在于,所述处理模块,具体用于:根据所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数和所述第二空间传递函数,得到第一目标空间传递函数和第二目标空间传递函数;根据第一空间相对传递函数和第二空间相对传递函数,分别对所述第一目标空间传递函数和第二目标空间传递函数进行归一化处理,获取所述音频信号对应的混合矩阵;其中,所述第一空间相对传递函数是基于第三空间传递函数与第四空间传递函数的比值确定的,所述第二空间相对传递函数是基于第五空间传递函数和第六空间传递函数的比值确定的;所述第三空间传递函数是所述语音信号相对于第一麦克风的空间传递函数,所述第四空间传递函数是所述语音信号相当于第二麦克风的空间传递函数,所述第五空间传递函数是所述噪声信号相对于所述第二麦克风的空间传递函数,所述第六空间传递函数是所述噪声信号相对于所述第一麦克风的空间传递函数。8.根据权利要求7所述的音频处理装置,其特征在于,所述处理模块,具体用于:在所述音频信号中检测到第一目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第一空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第一目标空间传递函数;在所述音频信号中检测到第二目标音频频点的情况下,基于所述语音协方差矩阵和所述噪声协方差矩阵更新所述第二空间传递函数,直至遍历所述音频信号中的所有音频频点,得到第二目标空间传递函数;
其中,所述第一目标音频频点是所述音频信号中语音信号存在概率超过第一预设阈值的音频频点,所述第二目标音频频点是所述音频信号中噪声信号存在概率超过第二预设阈值的音频频点。9.根据权利要求7所述的音频处理装置,其特征在于,所述输出模块,具体用于:根据所述解混矩阵和所述音频信号的乘积,获取第一音频子信号对应的第一语音信号、第一噪声信号;基于所述第一语音信号、第一噪声信号、所述第一空间相对传递函数和第二空间相对传递函数,获取所述第二音频子信号对应的第二语音信号、第二噪声信号。10.根据权利要求7所述的音频处理装置,其特征在于,所述第一空间相对传递函数受因果约束,其中,所述因果约束具体为:将所述第一空间相对传递函数变换到时域,得到第一时域信号;根据预设时域范围对所述第一时域信号进行截断处理,得到约束后的第一空间相对传递函数,其中,所述预设时域范围是基于所述第一空间传递函数对应的有限长脉冲响应确定的。

技术总结


本申请公开了一种音频处理方法及其装置,属于通信技术领域。包括:获取音频信号,音频信号包括电子设备的不同麦克风采集的第一音频子信号和第二音频子信号;根据音频信号中每个音频频点对应的语音信号存在概率,构建音频信号对应的语音协方差矩阵和噪声协方差矩阵;根据语音协方差矩阵和噪声协方差矩阵获得音频信号对应的混合矩阵,并对混合矩阵求逆,确定音频信号的解混矩阵;其中,混合矩阵包括音频信号中语音信号通道对应的第一空间传递函数和音频信号中噪声信号通道对应的第二空间传递函数;根据解混矩阵和音频信号,输出第一音频子信号对应的第一语音信号、第一噪声信号、第二音频子信号对应的第二语音信号、第二噪声信号。信号。信号。


技术研发人员:

王少华

受保护的技术使用者:

维沃移动通信有限公司

技术研发日:

2022.11.16

技术公布日:

2023/3/28

本文发布于:2023-03-30 16:40:29,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/81614.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   信号   音频   函数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图