一种基于多滤波器组的语音数据增强方法和装置与流程

阅读: 评论:0



1.本发明涉及语音信号增强的技术领域,尤其涉及一种基于多滤波器组的语音数据增强方法和装置。


背景技术:



2.随着语音增强技术的快速发展,语音增强模型越来越多地应用于移动场景。移动场景条件下,语音增强模型所处的噪声环境会经常性发生改变,为了使语音增强模型在新的噪音环境中取得较好的表现,常见的做法是使用微调方法对模型进行调整,一般使用迁移学习的方式调整模型。然而,这种方式会使模型只关注于当前的噪声种类,而对曾经学习过的噪声产生遗忘,因此当模型再次遇到曾经学习过的噪声时,需要浪费大量的时间调整模型以再次适应该噪声。同时,在模型调整结束前,其在该噪声环境中的性能将一直处于一个较低的水平,此时语音增强模型基本处于不可用状态。在实际应用场景中,语音增强模型所面对的噪声环境变化比较频繁,且之前学习过的噪声在之后再次出现的概率非常大,上述两个问题将会造成大量的资源浪费。为了解决模型对历史噪音场景的遗忘问题,本专利提出一种基于多滤波器组的语音数据持续增强方法,使得语音增强模型在学习当前任务的同时,尽可能少的遗忘关于历史噪音场景的知识。


技术实现要素:



3.有鉴于此,本发明提供一种基于多滤波器组的语音数据增强方法和装置,目的在于使用历史环境的噪声数据训练得到适用于新环境的多滤波器组参数,避免模型对历史噪声的遗忘问题;分别从语音信号时域以及频域构建评价语音增强效果的时频联合目标函数,通过对目标函数进行求解,所得多滤波器组参数可以分别从语音信号时域以及频域对语音信号进行增强处理;采用lru策略对采集数据进行采样,使得多轮未被采样的数据有较高概率在下一轮被采样,提高所采样数据的广泛性,所训练模型可以适用于多种噪音场景的语音增强,并使用l-bfgs对目标函数进行求解,能够快速得到可用的多滤波器组参数,实现语音信号增强处理。
4.实现上述目的,本发明提供的一种基于多滤波器组的语音数据增强方法,包括以下步骤:
5.s1:采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;
6.s2:构建时频联合目标函数,所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标;
7.s3:利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件;
8.s4:利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数;
9.s5:基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数;
10.s6:基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音进行快速增强。
11.作为本发明的进一步改进方法:
12.可选地,所述s1步骤中采集历史噪音环境下的历史语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,包括:
13.采集历史噪音环境下的历史语音信号,所述历史语音信号包括纯净语音信号以及噪声信号,在本发明实施例中,所述噪声信号均为低频噪声,所述低频噪声包括车辆胎噪声、机械制动声、音响声以及热水器发出的声音等,所采集的历史语音信号集合x为:
14.x={xi(n)|i∈[0,l]}
[0015]
其中:
[0016]
xi(n)表示ti时刻的语音信号,t0表示历史语音信号采集的初始时刻,t
l
表示历史语音信号采集的截止时刻,当前时刻为t,t》t
l
,n表示所采集语音信号的时域信息,即表示所采集语音信号在第n个采样点的信号值,n∈[1,n],n表示所采集语音信号的信号长度;
[0017]
将所采集的历史语音信号作为含噪语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,所述含噪语音信号xi(n)的分帧处理流程为:
[0018]
s11:构建汉明窗函数:
[0019][0020]
其中:
[0021]
w(n)为窗函数;
[0022]
a表示窗函数系数,将其设置为0.43;
[0023]
n表示待加窗语音信号的长度;
[0024]
s12:利用汉明窗函数对含噪语音信号进行加窗,所述加窗处理公式为:
[0025]
x
′i(n)=xi(n)
×
w(n)
[0026]
其中:
[0027]
x
′i(n)为含噪语音信号的加窗处理后结果;
[0028]
s13:设置每帧长为len,将加窗处理后的含噪语音信号划分为帧,每帧语音信号互不重叠,得到加窗处理后含噪语音信号x
′i(n)的分帧结果集合其中x

i,j
(n)表示x
′i(n)的第j个含噪语音信号帧。
[0029]
可选地,所述s1步骤中对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据,包括:
[0030]
对分帧处理后的含噪语音信号帧进行特征提取,所述任意含噪语音信号x
′i(n)的第j个含噪语音信号帧x

i,j
(n)的特征提取流程为:
[0031]
对含噪语音信号帧进行快速傅里叶变换处理,所述快速傅里叶变换处理的公式
为:
[0032][0033]
其中:
[0034]
x
ij
(k)表示x

i,j
(n)在k点的快速傅里叶变换结果;
[0035]
k为快速傅里叶变换的点数,将其设置为64,c表示虚数单位,c2=-1;
[0036]
将快速傅里叶变换结果转换为信号帧的频域谱特征,所述频域谱特征的转换公式为:
[0037]eij
=|x
ij
(k)|2[0038]
其中:
[0039]eij
为含噪语音信号帧x

i,j
(n)的频域谱特征,将频域谱特征作为含噪语音信号帧的特征提取结果;
[0040]
所述任意含噪语音信号x
′i(n)的特征提取结果为
[0041]
可选地,所述s2步骤中构建时频联合目标函数,包括:
[0042]
构建时频联合目标函数,其中所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标,所述时频联合目标函数的形式为:
[0043][0044]
其中:
[0045]
x

i,j
(n)为所采集的历史语音信号集合x中的含噪语音信号帧,e
ij
为含噪语音信号帧x

i,j
(n)的频域谱特征;
[0046]
为语音增强后的含噪语音信号帧,所述语音增强方式为将含噪语音信号帧输入到多滤波器组,基于多滤波器组完成语音信号数据增强,多滤波器组的参数为θ;
[0047]
为的频域谱特征;
[0048]
在本发明实施例中,为语音增强前后的信号时域误差,为语音增强前后的信号频域误差。
[0049]
可选地,所述s3步骤中利用lru策略对历史采集得到的含噪语音信号帧进行采样,包括:
[0050]
所述历史采集得到的含噪语音信号帧集合为:
[0051][0052]
其中所述含噪语音信号帧集合d中的含噪语音信号帧数目为所述基于lru策略的含噪语音信号帧的采样流程为:
[0053]
s31:对含噪语音信号帧集合d中的所有含噪语音信号帧添加计数标签,计数标签的初始值为1;
[0054]
s32:统计含噪语音信号帧集合d中的所有含噪语音信号帧的计数标签之和count;
[0055]
s33:计算每个含噪语音信号帧被采样的概率,所述概率计算公式为:计数标签/含噪语音信号帧集合中计数标签之和count;
[0056]
s34:对含噪语音信号帧集合d中的含噪语音信号帧进行第u轮采样,u的初始值为1,
[0057]
每轮的采样数随机,共采样得到k个含噪语音信号帧;
[0058]
s35:若含噪语音信号帧在第u轮未被采样,则该含噪语音信号帧的计数标签+1,对所有含噪语音信号帧的计数标签进行更新,更新后令u=u+1,返回步骤s32,直到采样得到k个含噪语音信号帧;
[0059]
将采样得到的k个含噪语音信号帧构成训练数据集合data,并提取data中含噪语音信号帧的频域谱特征。
[0060]
可选地,所述s3步骤中以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,包括:
[0061]
以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,所述时频联合目标函数的约束条件为:
[0062]
f(data,θ)≤f(data-1
,θ)
[0063]
其中:
[0064]
data表示用于求解得到多滤波器组参数的训练数据集合,data-1
表示部分训练数据集合;
[0065]
所述约束条件表示训练数据越多,时频联合目标函数的值越小,得到的参数优化求解结果越优。
[0066]
可选地,所述s4步骤中利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,包括:
[0067]
利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数la(data,θ,λ):
[0068][0069][0070]
其中:
[0071]
λ表示拉格朗日乘子;
[0072]
k表示训练数据集合data中训练数据的数量,所述data中包含k个含噪语音信号帧,x
′k(n)表示data中第k个含噪语音信号帧,ek为x
′k(n)的频域谱特征。
[0073]
可选地,所述s5步骤中基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行求解,得到当前噪音环境下的最优语音增强模型参数,包括:
[0074]
基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数,所述当前噪音环境下的最优语音增强模型参数即为多滤波器组参数θ,所述多滤波器组包含m个滤波器,多滤波器组中第m个滤波
器的中心频率为fm,多滤波器组参数θ=(f1,f2,...,fm,...,fm),所述总体最终目标函数的优化求解流程为:
[0075]
s51:随机生成一组多滤波器组参数θ0作为初始解;
[0076]
s52:设置算法迭代次数为z,z的初始值为0,算法最大迭代次数为max;
[0077]
s53:若z=0,则更新第z+1次算法迭代的求解结果:
[0078]
θ
z+1
=θ
z-d
zgz
[0079][0080]
其中:
[0081]dz
为单位矩阵;
[0082]
并令z=z+1,返回步骤s53;
[0083]
若z《max,z》0,则更新第z+1次算法迭代的求解结果:
[0084]
θ
z+1
=θ
z-d
zgz
[0085][0086][0087]
其中:
[0088]
i为单位矩阵;
[0089]
sz=θ
z+1-θz;
[0090]bz
=g
z+1-gz;
[0091]
z表示算法迭代次数;
[0092]
t表示转置;
[0093]
并令z=z+1,返回步骤s53;
[0094]
若z=max,将θz作为当前噪音环境下的最优语音增强模型参数θ。
[0095]
可选地,所述s6步骤中基于当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强,包括:
[0096]
基于所述当前噪音环境下的最优语音增强模型参数θ调整多滤波器组中滤波器的中心频率,利用调整后的多滤波器组设备对移动环境下的语音信号数据进行增强处理,所述语音增强方法为使用不同中心频率的滤波器过滤掉不同频率的低频噪声。
[0097]
为了解决上述问题,本发明提供一种基于多滤波器组的语音数据增强装置,其特征在于,所述装置包括:
[0098]
特征提取模块,用于采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;
[0099]
参数求解装置,用于利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数,基于训练数据集合,利用l-bfgs快速优化算法对
总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数;
[0100]
语音增强模块,用于基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强。
[0101]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0102]
存储器,存储至少一个指令;及
[0103]
处理器,执行所述存储器中存储的指令以实现上述所述的基于多滤波器组的语音数据增强方法。
[0104]
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于多滤波器组的语音数据增强方法。
[0105]
相对于现有技术,本发明提出一种基于多滤波器组的语音数据增强方法,该技术具有以下优势:
[0106]
首先,本方案提出一种时频联合目标函数,其中所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标,所述时频联合目标函数的形式为:
[0107][0108]
其中:x

i,j
(n)为所采集的历史语音信号集合x中的含噪语音信号帧,e
ij
为含噪语音信号帧x

i,j
(n)的频域谱特征;为语音增强后的含噪语音信号帧,所述语音增强方式为将含噪语音信号帧输入到多滤波器组,基于多滤波器组完成语音信号数据增强,多滤波器组的参数为θ;为的频域谱特征;为语音增强前后的信号时域误差,为语音增强前后的信号频域误差。本方案所提出目标函数分别从语音信号时域以及频域构建评价语音增强效果的时频联合目标函数,通过对目标函数进行求解,所得多滤波器组参数可以分别从语音信号时域以及频域对语音信号进行增强处理,同时本方案使用历史环境的噪声数据训练得到适用于新环境的多滤波器组参数,避免模型对历史噪声的遗忘问题。
[0109]
同时,本方案提出一种数据采样方法以及目标函数求解方法,所述基于lru策略的含噪语音信号帧的采样流程为:对含噪语音信号帧集合d中的所有含噪语音信号帧添加计数标签,计数标签的初始值为1;统计含噪语音信号帧集合d中的所有含噪语音信号帧的计数标签之和count;计算每个含噪语音信号帧被采样的概率,所述概率计算公式为:计数标签/含噪语音信号帧集合中计数标签之和count;对含噪语音信号帧集合d中的含噪语音信号帧进行第u轮采样,u的初始值为1,每轮的采样数随机,共采样得到k个含噪语音信号帧;若含噪语音信号帧在第u轮未被采样,则该含噪语音信号帧的计数标签+1,对所有含噪语音信号帧的计数标签进行更新,更新后令u=u+1,返回上述步骤,直到采样得到k个含噪语音信号帧;将采样得到的k个含噪语音信号帧构成训练数据集合data,并提取data中含噪语音信号帧的频域谱特征。以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,所述时频联合目标函数的约束条件为:
[0110]
f(data,θ)≤f(data-1
,θ)
[0111]
其中:data表示用于求解得到多滤波器组参数的训练数据集合,data-1
表示部分训练数据集合;利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数la(data,θ,λ):
[0112][0113][0114]
其中:λ表示拉格朗日乘子;k表示训练数据集合data中训练数据的数量,所述data中包含k个含噪语音信号帧,x
′k(n)表示data中第k个含噪语音信号帧,ek为x
′k(n)的频域谱特征。基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数,所述当前噪音环境下的最优语音增强模型参数即为多滤波器组参数θ,所述多滤波器组包含m个滤波器,多滤波器组中第m个滤波器的中心频率为fm,多滤波器组参数θ=(f1,f2,...,fm,...,fm),所述总体最终目标函数的优化求解流程为:随机生成一组多滤波器组参数θ0作为初始解;设置算法迭代次数为z,z的初始值为0,算法最大迭代次数为max;若z=0,则更新第z+1次算法迭代的求解结果:
[0115]
θ
z+1
=θ
z-d
zgz
[0116][0117]
其中:dz为单位矩阵;并令z=z+1,返回该步骤;若z《max,z》0,则更新第z+1次算法迭代的求解结果:
[0118]
θ
z+1
=θ
z-d
zgz
[0119][0120][0121]
其中:i为单位矩阵;sz=θ
z+1-θz;bz=g
z+1-gz;z表示算法迭代次数;t表示转置;并令z=z+1,返回该步骤;若z=max,将θz作为当前噪音环境下的最优语音增强模型参数θ。本方案通过基于所述当前噪音环境下的最优语音增强模型参数θ调整多滤波器组中滤波器的中心频率,利用调整后的多滤波器组设备对移动环境下的语音信号数据进行增强处理,所述语音增强方法为使用不同中心频率的滤波器过滤掉不同频率的低频噪声。本方案采用lru策略对采集数据进行采样,使得多轮未被采样的数据有较高概率在下一轮被采样,提高所采样数据的广泛性,所训练模型可以适用于多种噪音场景的语音增强,并使用l-bfgs对目标函数进行求解,能够快速得到可用的多滤波器组参数,实现语音信号增强处理。
附图说明
[0122]
图1为本发明一实施例提供的一种基于多滤波器组的语音数据增强方法的流程示
意图;
[0123]
图2为图1实施例其中一个步骤的流程示意图;
[0124]
图3为本发明一实施例提供的基于多滤波器组的语音数据增强装置的功能模块图;
[0125]
图4为本发明一实施例提供的实现基于多滤波器组的语音数据增强方法的电子设备的结构示意图。
[0126]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0127]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0128]
本技术实施例提供一种基于多滤波器组的语音数据增强方法。所述基于多滤波器组的语音数据增强方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于多滤波器组的语音数据增强方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集、云端服务器或云端服务器集等。
[0129]
实施例1:
[0130]
s1:采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据。
[0131]
所述s1步骤中采集历史噪音环境下的历史语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,包括:
[0132]
采集历史噪音环境下的历史语音信号,所述历史语音信号包括纯净语音信号以及噪声信号,在本发明实施例中,所述噪声信号均为低频噪声,所述低频噪声包括车辆胎噪声、机械制动声、音响声以及热水器发出的声音等,所采集的历史语音信号集合x为:
[0133]
x={xi(n)|i∈[0,l]}
[0134]
其中:
[0135]
xi(n)表示ti时刻的语音信号,t0表示历史语音信号采集的初始时刻,t
l
表示历史语音信号采集的截止时刻,当前时刻为t,t》t
l
,n表示所采集语音信号的时域信息,即表示所采集语音信号在第n个采样点的信号值,n∈[1,n],n表示所采集语音信号的信号长度;
[0136]
将所采集的历史语音信号作为含噪语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,所述含噪语音信号xi(n)的分帧处理流程为:
[0137]
s11:构建汉明窗函数:
[0138][0139]
其中:
[0140]
w(n)为窗函数;
[0141]
a表示窗函数系数,将其设置为0.43;
[0142]
n表示待加窗语音信号的长度;
[0143]
s12:利用汉明窗函数对含噪语音信号进行加窗,所述加窗处理公式为:
[0144]
x
′i(n)=xi(n)
×
w(n)
[0145]
其中:
[0146]
x
′i(n)为含噪语音信号的加窗处理后结果;
[0147]
s13:设置每帧长为len,将加窗处理后的含噪语音信号划分为帧,每帧语音信号互不重叠,得到加窗处理后含噪语音信号x
′i(n)的分帧结果集合其中x

i,j
(n)表示x
′i(n)的第j个含噪语音信号帧。
[0148]
所述s1步骤中对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据,包括:
[0149]
对分帧处理后的含噪语音信号帧进行特征提取,所述任意含噪语音信号x
′i(n)的第j个含噪语音信号帧x

i,j
(n)的特征提取流程为:
[0150]
对含噪语音信号帧进行快速傅里叶变换处理,所述快速傅里叶变换处理的公式为:
[0151][0152]
其中:
[0153]
x
ij
(k)表示x

i,j
(n)在k点的快速傅里叶变换结果;
[0154]
k为快速傅里叶变换的点数,将其设置为64,c表示虚数单位,c2=-1;
[0155]
将快速傅里叶变换结果转换为信号帧的频域谱特征,所述频域谱特征的转换公式为:
[0156]eij
=|x
ij
(k)|2[0157]
其中:
[0158]eij
为含噪语音信号帧x

i,j
(n)的频域谱特征,将频域谱特征作为含噪语音信号帧的特征提取结果;
[0159]
所述任意含噪语音信号x
′i(n)的特征提取结果为
[0160]
s2:构建时频联合目标函数,所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标。
[0161]
所述s2步骤中构建时频联合目标函数,包括:
[0162]
构建时频联合目标函数,其中所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标,所述时频联合目标函数的形式为:
[0163][0164]
其中:
[0165]
x

i,j
(n)为所采集的历史语音信号集合x中的含噪语音信号帧,e
ij
为含噪语音信号帧x

i,j
(n)的频域谱特征;
[0166]
为语音增强后的含噪语音信号帧,所述语音增强方式为将含噪语音信号帧输入到多滤波器组,基于多滤波器组完成语音信号数据增强,多滤波器组的参数为θ;
[0167]
为的频域谱特征。
[0168]
s3:利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件。
[0169]
所述s3步骤中利用lru策略对历史采集得到的含噪语音信号帧进行采样,包括:
[0170]
所述历史采集得到的含噪语音信号帧集合为:
[0171][0172]
其中所述含噪语音信号帧集合d中的含噪语音信号帧数目为所述基于lru策略的含噪语音信号帧的采样流程为:
[0173]
s31:对含噪语音信号帧集合d中的所有含噪语音信号帧添加计数标签,计数标签的初始值为1;
[0174]
s32:统计含噪语音信号帧集合d中的所有含噪语音信号帧的计数标签之和count;
[0175]
s33:计算每个含噪语音信号帧被采样的概率,所述概率计算公式为:计数标签/含噪语音信号帧集合中计数标签之和count;
[0176]
s34:对含噪语音信号帧集合d中的含噪语音信号帧进行第u轮采样,u的初始值为1,
[0177]
每轮的采样数随机,共采样得到k个含噪语音信号帧;
[0178]
s35:若含噪语音信号帧在第u轮未被采样,则该含噪语音信号帧的计数标签+1,对所有含噪语音信号帧的计数标签进行更新,更新后令u=u+1,返回步骤s32,直到采样得到k个含噪语音信号帧;
[0179]
将采样得到的k个含噪语音信号帧构成训练数据集合data,并提取data中含噪语音信号帧的频域谱特征。
[0180]
所述s3步骤中以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,包括:
[0181]
以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,所述时频联合目标函数的约束条件为:
[0182]
f(data,θ)≤f(data-1
,θ)
[0183]
其中:
[0184]
data表示用于求解得到多滤波器组参数的训练数据集合,data-1
表示部分训练数据集合。
[0185]
s4:利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数。
[0186]
所述s4步骤中利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,包括:
[0187]
利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合
目标函数,得到总体最终目标函数la(data,θ,λ):
[0188][0189][0190]
其中:
[0191]
λ表示拉格朗日乘子;
[0192]
k表示训练数据集合data中训练数据的数量,所述data中包含k个含噪语音信号帧,x
′k(n)表示data中第k个含噪语音信号帧,ek为x

k(n)的频域谱特征。
[0193]
s5:基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数。
[0194]
所述s5步骤中基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行求解,得到当前噪音环境下的最优语音增强模型参数,包括:
[0195]
基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数,所述当前噪音环境下的最优语音增强模型参数即为多滤波器组参数θ,所述多滤波器组包含m个滤波器,多滤波器组中第m个滤波器的中心频率为fm,多滤波器组参数θ=(f1,f2,...,fm,...,fm),所述总体最终目标函数的优化求解流程为:
[0196]
s51:随机生成一组多滤波器组参数θ0作为初始解;
[0197]
s52:设置算法迭代次数为z,z的初始值为0,算法最大迭代次数为max;
[0198]
s53:若z=0,则更新第z+1次算法迭代的求解结果:
[0199]
θ
z+1
=θ
z-b
zgz
[0200][0201]
其中:
[0202]dz
为单位矩阵;
[0203]
并令z=z+1,返回步骤s53;
[0204]
若z《max,z》0,则更新第z+1次算法迭代的求解结果:
[0205]
θ
z+1
=θ
z-d
zgz
[0206][0207][0208]
其中:
[0209]
i为单位矩阵;
[0210]
sz=θ
z+1-θz;
[0211]bz
=g
z+1-gz;
[0212]
z表示算法迭代次数;
[0213]
t表示转置;
[0214]
并令z=z+1,返回步骤s53;
[0215]
若z=max,将θz作为当前噪音环境下的最优语音增强模型参数θ。
[0216]
s6:基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音进行快速增强。
[0217]
所述s6步骤中基于当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强,包括:
[0218]
基于所述当前噪音环境下的最优语音增强模型参数θ调整多滤波器组中滤波器的中心频率,利用调整后的多滤波器组设备对移动环境下的语音信号数据进行增强处理,所述语音增强方法为使用不同中心频率的滤波器过滤掉不同频率的低频噪声。
[0219]
实施例2:
[0220]
如图3所示,是本发明一实施例提供的基于多滤波器组的语音数据增强装置的功能模块图,其可以实现实施例1中的语音数据增强方法。
[0221]
本发明所述基于多滤波器组的语音数据增强装置100可以安装于电子设备中。根据实现的功能,所述基于多滤波器组的语音数据增强装置可以包括特征提取模块101、参数求解装置102及语音增强模块103。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0222]
特征提取模块101,用于采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;
[0223]
参数求解装置102,用于利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数,基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数;
[0224]
语音增强模块103,用于基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强。
[0225]
详细地,本发明实施例中所述基于多滤波器组的语音数据增强装置100中的所述各模块在使用时采用与上述的图1中所述的基于多滤波器组的语音数据增强方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0226]
实施例3:
[0227]
如图4所示,是本发明一实施例提供的实现基于多滤波器组的语音数据增强方法的电子设备的结构示意图。
[0228]
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如程序12。
[0229]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘
等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0230]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(用于实现语音数据增强的程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0231]
所述总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0232]
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0233]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0234]
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0235]
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0236]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0237]
所述电子设备1中的所述存储器11存储的程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
[0238]
采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;
[0239]
构建时频联合目标函数,所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标;
[0240]
利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件;
[0241]
利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数;
[0242]
利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数;
[0243]
基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音进行快速增强。
[0244]
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图4对应实施例中相关步骤的描述,在此不赘述。
[0245]
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0246]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0247]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种基于多滤波器组的语音数据增强方法,其特征在于,所述方法包括:s1:采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;s2:构建时频联合目标函数,所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标;s3:利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件;s4:利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数;s5:基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数,其中所述优化求解流程,包括:基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数,所述当前噪音环境下的最优语音增强模型参数即为多滤波器组参数θ,所述多滤波器组包含m个滤波器,多滤波器组中第m个滤波器的中心频率为f
m
,多滤波器组参数θ=(f1,f2,...,f
m
,...,f
m
),所述总体最终目标函数的优化求解流程为:s51:随机生成一组多滤波器组参数θ0作为初始解;s52:设置算法迭代次数为z,z的初始值为0,算法最大迭代次数为max;s53:若z=0,则更新第z+1次算法迭代的求解结果:θ
z+1
=θ
z-d
z
g
z
其中:d
z
为单位矩阵;并令z=z+1,返回步骤s53;若z<max,z>0,则更新第z+1次算法迭代的求解结果:θ
z+1
=θ
z-d
z
g
zz
其中:i为单位矩阵;s
z
=θ
z+1-θ
z
;b
z
=g
z+1-g
z
;z表示算法迭代次数;t表示转置;并令z=z+1,返回步骤s53;若z=max,将θ
z
作为当前噪音环境下的最优语音增强模型参数θ;
s6:基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音进行快速增强。2.如权利要求1所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s1步骤中采集历史噪音环境下的历史语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,包括:采集历史噪音环境下的历史语音信号,所述历史语音信号包括纯净语音信号以及噪声信号,所采集的历史语音信号集合x为:x={x
i
(n)|i∈[0,l]}其中:x
i
(n)表示t
i
时刻的语音信号,t0表示历史语音信号采集的初始时刻,t
l
表示历史语音信号采集的截止时刻,当前时刻为t,t>t
l
,n表示所采集语音信号的时域信息,即表示所采集语音信号在第n个采样点的信号值,n∈[1,n],n表示所采集语音信号的信号长度;将所采集的历史语音信号作为含噪语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,所述含噪语音信号x
i
(n)的分帧处理流程为:s11:构建汉明窗函数:其中:w(n)为窗函数;a表示窗函数系数,将其设置为0.43;n表示待加窗语音信号的长度;s12:利用汉明窗函数对含噪语音信号进行加窗,所述加窗处理公式为:x

i
(n)=x
i
(n)
×
w(n)其中:x

i
(n)为含噪语音信号的加窗处理后结果;s13:设置每帧长为len,将加窗处理后的含噪语音信号划分为帧,每帧语音信号互不重叠,得到加窗处理后含噪语音信号x

i
(n)的分帧结果集合其中x

i,j
(n)表示x

i
(n)的第j个含噪语音信号帧。3.如权利要求2所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s1步骤中对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据,包括:对分帧处理后的含噪语音信号帧进行特征提取,所述任意加窗处理后含噪语音信号x

i
(n)的第j个含噪语音信号帧x

i,j
(n)的特征提取流程为:对含噪语音信号帧进行快速傅里叶变换处理,所述快速傅里叶变换处理的公式为:其中:
x
ij
(k)表示x

i,j
(n)在k点的快速傅里叶变换结果;k为快速傅里叶变换的点数,将其设置为64,c表示虚数单位,c2=-1;将快速傅里叶变换结果转换为信号帧的频域谱特征,所述频域谱特征的转换公式为:e
ij
=|x
ij
(k)|2其中:e
ij
为含噪语音信号帧x

i,j
(n)的频域谱特征,将频域谱特征作为含噪语音信号帧的特征提取结果;所述任意含噪语音信号x

i
(n)的特征提取结果为4.如权利要求1所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s2步骤中构建时频联合目标函数,包括:构建时频联合目标函数,其中所述时频联合目标函数以提取得到的含噪语音信号帧特征数据为输入,以时频最小均方误差为优化目标,所述时频联合目标函数的形式为:其中:x

i,j
(n)为所采集的历史语音信号集合x中的含噪语音信号帧,e
ij
为含噪语音信号帧x

i,j
(n)的频域谱特征;为语音增强后的含噪语音信号帧,所述语音增强方式为将含噪语音信号帧输入到多滤波器组,基于多滤波器组完成语音信号数据增强,多滤波器组的参数为θ;为的频域谱特征。5.如权利要求1所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s3步骤中利用lru策略对历史采集得到的含噪语音信号帧进行采样,包括:所述历史采集得到的含噪语音信号帧集合为:其中所述含噪语音信号帧集合d中的含噪语音信号帧数目为所述基于lru策略的含噪语音信号帧的采样流程为:s31:对含噪语音信号帧集合d中的所有含噪语音信号帧添加计数标签,计数标签的初始值为1;s32:统计含噪语音信号帧集合d中的所有含噪语音信号帧的计数标签之和count;s33:计算每个含噪语音信号帧被采样的概率,所述概率计算公式为:计数标签/含噪语音信号帧集合中计数标签之和count;s34:对含噪语音信号帧集合d中的含噪语音信号帧进行第u轮采样,u的初始值为1,每轮的采样数随机,共采样得到k个含噪语音信号帧;s35:若含噪语音信号帧在第u轮未被采样,则该含噪语音信号帧的计数标签+1,对所有含噪语音信号帧的计数标签进行更新,更新后令u=u+1,返回步骤s32,直到采样得到k个含
噪语音信号帧;将采样得到的k个含噪语音信号帧构成训练数据集合data,并提取data中含噪语音信号帧的频域谱特征。6.如权利要求5所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s3步骤中以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,包括:以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,所述时频联合目标函数的约束条件为:f(data,θ)≤f(data-1
,θ)其中:data表示用于求解得到多滤波器组参数的训练数据集合,data-1
表示部分训练数据集合。7.如权利要求6所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s4步骤中利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,包括:利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联合目标函数,得到总体最终目标函数la(data,θ,λ):函数,得到总体最终目标函数la(data,θ,λ):其中:λ表示拉格朗日乘子;k表示训练数据集合data中训练数据的数量,所述data中包含k个含噪语音信号帧,x

k
(n)表示data中第k个含噪语音信号帧,e
k
为x

k
(n)的频域谱特征。8.如权利要求1所述的一种基于多滤波器组的语音数据增强方法,其特征在于,所述s6步骤中基于当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强,包括:基于所述当前噪音环境下的最优语音增强模型参数θ调整多滤波器组中滤波器的中心频率,利用调整后的多滤波器组设备对移动环境下的语音信号数据进行增强处理,所述语音增强方法为使用不同中心频率的滤波器过滤掉不同频率的低频噪声。9.一种基于多滤波器组的语音数据增强装置,其特征在于,所述装置包括:特征提取模块,用于采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取,得到含噪语音信号帧特征数据;参数求解装置,用于利用lru策略对历史采集得到的含噪语音信号帧进行采样,得到训练数据集合,以历史噪音环境下时频联合目标函数的优化效果构建得到时频联合目标函数的约束条件,利用拉格朗日法混合历史噪音环境下的时频联合目标函数约束条件和时频联
合目标函数,得到总体最终目标函数,基于训练数据集合,利用l-bfgs快速优化算法对总体最终目标函数进行优化求解,得到当前噪音环境下的最优语音增强模型参数;语音增强模块,用于基于计算得到的当前噪音环境下的最优语音增强模型参数调整多滤波器组设备,对移动环境下的语音信号进行增强,以实现如权利要求1-8所述的一种基于多滤波器组的语音数据增强方法。

技术总结


本发明涉及语音数据增强的技术领域,揭露了一种基于多滤波器组的语音数据增强方法,所述方法包括:采集历史噪音环境下的语音信号,采用汉明窗函数对采集的含噪语音信号进行分帧处理,并对分帧处理后的含噪语音信号帧进行特征提取;利用LRU策略对历史采集得到的含噪语音信号帧进行采样,基于多滤波器组的历史优化效果构建得到时频联合目标函数的约束条件;利用拉格朗日法混合约束条件和时频联合目标函数得到总体最终目标函数;利用L-BFGS快速优化算法对总体最终目标函数进行优化求解,并基于求解的参数调整多滤波器组设备。本发明实现基于历史噪声的多滤波器组参数快速优化求解,实现从语音信号时域以及频域对语音信号进行增强处理。增强处理。增强处理。


技术研发人员:

杨金枝 王强 黄鹏

受保护的技术使用者:

深圳市新弘途科技有限公司

技术研发日:

2022.08.18

技术公布日:

2022/11/15

本文发布于:2022-11-27 05:12:11,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/6850.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   信号   所述   滤波器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图