1.本发明涉及
语音干扰技术领域,特别涉及一种对拾取语音的干扰方法、装置和计算机设备。
背景技术:
2.声源体发生振动会引起四周空气振荡,那种振荡方式就是声波。声波是传输在空气中的一种特殊的机械波,其传播特性满足波传播的一切规律,即其在传播过程中将发生干涉、衍射等现象。声波借助空气向四面八方传播,在开阔空间的空气中那种传播方式像逐渐吹大的肥皂泡,是一种球形的阵面波。声波传递到人的耳朵里引起耳膜的振动被人类接收称其为声音;人类的语言通过声音的强弱、语调的变化组合等使得声音中承载了一定的信息称其为语音。
3.语音的波动特性给我们带来了巨大方便的同时也给我们带来了许多尴尬和不便。例如在公众场合接听电话时不想谈话内容被周围其他人听见时,一般人采用两种保密通话方式:第一种为压低声音谈话;第二种为打开收音机开到较大音量,在噪音的掩护下进行通话。这样两种方式都会对正常的通话质量造成影响:压低声音或者收音机的干扰都会使得通话方很难从嘈杂的背景噪声中分辩出你的声音,尤其是大收音机音量下的通话会引起周围其他人的反感。或者在隔音不好的办公室内讨论机密问题时可能存在着泄密的危险。因此,需要一种对语音进行干扰的方法以满足保护隐私的需求。
技术实现要素:
4.本发明提供了一种对拾取语音的干扰方法、装置和计算机设备,能够对特定区域进行大范围或者精确方向干扰,达到压制语音信号的目的,以淹没特定人的语音,使其语义难以辨识。
5.本发明提供了一种对拾取语音的干扰方法,包括:获取初始语音
数据,以及获取选定人物的特定语音数据;其中,
所述初始语音数据和特定语音数据均通过麦克风进行录音采集;对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc
参数;其中,所述mfcc参数为语音静态特性参数;将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。
6.进一步地,所述对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数的步骤,包括:
对所述特定语音数据进行预处理;其中,所述预处理包括预加重、s变换和分帧处理;对预处理后的所述特定语音数据从s变换的频率域的各帧范围内积分计算各帧谱能量,其公式为:其中,为s变换的视频信号,为每帧点数,为采样频率,为一帧的时长;对各帧谱能量采用mel滤波器进行mel滤波;其中,mel滤波器为m个反映mel标度的三角函数滤波器组,将每帧功率谱通过mel标度的三角形滤波器组,得到:其中,为对滤波器的定义;对每个滤波器组的输出取对数,得到:其中,;通过mel滤波器后对能量对数的dct倒谱,得到mfcc参数,其公式为:其中,得到l阶mfcc系数,n维mfcc特征向量,m为mel滤波器序列的下标,n为dct后的谱线。
7.进一步地,所述对所述特定语音数据进行预处理的步骤,包括:对所述特定语音数据通过一阶fir高通数字滤波器进行预加重,其传递函数为:其中,a为预加重系数,其取值范围为0.9<a<1.0;进行加重信号的s变换,所述s变换为通过变换短时傅里叶变换的窗函数,其公式为:其中,p为窗函数的归一化参数;在s变换的时间域上进行分帧处理,其中,分帧时按10-30ms取帧,帧移和帧长的比取在1/2~1/3之间。
8.进一步地,所述将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段的步骤,包括:对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练;
将所述初始语音数据的目标mfcc参数输入训练完成的动态贝叶斯网络模型中计算得到最大似然值;判断所述最大似然值是否小于设定值;若所述最大似然值小于设定值,则选取对应的语音数据段;若所述最大似然值大于等于设定值,则删除对应的语音数据段。
9.进一步地,所述对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练的步骤,包括:选取动态贝叶斯网络模型中的hmm模型,并定义节点为:并定义节点为:其中,q为音素的状态节点,传递两帧语音之间的状态,每帧中的显节点y表示mfcc特征值;建立交叉树,并将交叉树进行1
½
帧交叉树展开;输入选定人物的语音数据的mfcc参数,并通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值;判断所述最大似然值与上一次似然值是否相同;若所述最大似然值与上一次似然值不相同,则更新似然值,并更新概率网络参数,返回通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值的步骤;若所述最大似然值与上一次似然值相同,则选定人物的动态贝叶斯网络模型训练结束。
10.进一步地,动态贝叶斯网络推导算法中前向遍历第一帧交叉树并不存在似然值估计,后向遍历最后一帧交叉树亦不存在似然值估计,采用em学习算法中计算的最大似然值为动态贝叶斯网络的总和,计算平均每帧对数最大似然值的公式为:计算平均每帧对数最大似然值的公式为:其中,为动态贝叶斯网络的值,当有m个语音数据进行测试时,修正系数从1改为m。
11.进一步地,所述采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声的步骤,包括:对选取的多个语音数据段采用双门限法进行语音端点检测;将多个语音数据段进行随机排序,得到语音段序列;对语音段序列进行数据叠接以使拼接的语音平滑过度,得到一段语音;得到设定段语音后,将设定段的语音叠加得到具有语音信号特征的干扰噪声。
12.本发明还提供了一种对拾取语音的干扰装置,包括:获取模块,用于获取初始语音数据,以及获取选定人物的特定语音数据;其中,所述初始语音数据和特定语音数据均通过麦克风进行录音采集;提取模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的
mfcc参数;其中,所述mfcc参数为语音静态特性参数;差分模块,用于将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;筛选模块,用于将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;合成模块,用于采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。
13.本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
14.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
15.本发明的有益效果为:本发明生成具有干扰对象特征的噪声并以适当方式发射,对需要进行语音干扰对象特征的提取,进而从大量的语音数据中筛选与干扰对象特征相似的语音片段,基于这些语音片段合成干扰噪声并以适当的方式发射实现语音的相干干扰,能够对特定区域进行大范围或者精确方向干扰,达到压制语音信号的目的,以淹没特定人的语音,使其语义难以辨识。
附图说明
16.图1为本发明一实施例的方法流程示意图。
17.图2为本发明一实施例的装置结构示意图。
18.图3为本发明一实施例的计算机设备内部结构示意图。
19.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
20.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
21.如图1所示,本发明提供了一种对拾取语音的干扰方法,包括:s1、获取初始语音数据,以及获取选定人物的特定语音数据;其中,所述初始语音数据和特定语音数据均通过麦克风进行录音采集;如上述步骤s1所示,初始语音数据为大量包含多种声音的语音数据,特定语音数据为干扰对象的语音数据,特定语音数据在安静的环境下进行录制,录音时记录说话人的姓名、年龄、性别等信息,录音内容分别为说话人信息、数字、省份以及短文等。将一部分特定语音数据作为测试数据,其余语音数据用于模型训练和干扰噪声合成。说话人信息包括性别、爱好等生活使用频率较高的词,这类具备较高使用频率的词汇作为训练数据、测试可靠性的数据以及作为灵巧噪声合成的基础语音数据,具有较高的普适性。
22.s2、对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数;其中,所述mfcc参数为语音静态特性参数;如上述步骤s2所述,人的声道可以近似为一根具有非均匀界面的管道,由短时平稳的脉冲激励在管道中共振产生声音。声门处发出准周期脉冲激励时,声道会产生共鸣现
象,此时声道所具有的特有频率为一组共振频率,又称为共振峰频率。共振峰参数包含了频率与带宽,一般频谱包络的最大值即为共振峰,由于不同人发声时声道模型有一定的区别,人与人的共振峰也有一定差别,并且共振峰是最能反映语音特征的参数。而mfcc 参数是基于人的听觉特性利用人听觉的临界带效应,在mel 标度频率域提取出来的倒谱特征参数,能较好地反映语音的共振峰特征。
23.步骤s2具体包括:s21、对所述特定语音数据进行预处理;其中,所述预处理包括预加重、s变换和分帧处理;步骤s21具体包括:s211、人物在发声时,声门脉冲频率响应曲线接近于一个二阶低通滤波器,口腔的辐射响应也接近于一个一阶高通滤波器,为弥补高频因发声方式的损失,采用预加重来提升高频部分的能量,使信号的频谱变得平坦,保证低频到高频的整个频带中,能用同样的信噪比求频谱,同时,还能突出高频的共振峰。因而,对所述特定语音数据通过一阶fir高通数字滤波器进行预加重,其传递函数为:其中,a为预加重系数,其取值范围为0.9<a<1.0,通常取a=0.97;s212、经过对语音信号的预加重后,进行加重信号的s变换,所述s变换为通过变换短时傅里叶变换的窗函数,对于窗函数的短时傅里叶变换,其公式为:其中,p为窗函数的归一化参数,窗函数为高斯窗,频率f为窗函数的变量,即,增加时延。
24.s213、在s变换的时间域上进行分帧处理,其中,分帧时按10-30ms取帧,帧移和帧长的比取在1/2~1/3之间。
25.s22、对预处理后的所述特定语音数据从s变换的频率域的各帧范围内积分计算各帧谱能量,其公式为:其中,为s变换的视频信号,为每帧点数,为采样频率,为一帧的时长;s23、对各帧谱能量采用mel滤波器进行mel滤波;其中,mel滤波器为m个反映mel标度的三角函数滤波器组,滤波器定义为:
其中,第一项,第二项,第三项,第四项,为第m滤波器的中心频率,m=1,2
…
,m,k为频率,m通常为22-26,并且,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
26.将每帧功率谱通过mel标度的三角形滤波器组,得到:对功率谱作三角带通滤波主要目的是平滑功率谱,并消除谐波的作用,突显原先语音的共振峰。因而一段语音的音调或音高,不会呈现在mfcc 参数内,即以mfcc 为特征的语音辨识,不会受到输入语音的音调不同的影响。
27.s24、对每个滤波器组的输出取对数,得到:其中,。对能量进行对数计算,反映人耳对语音信号反应的特征,且对数计算使人们能够进行倒谱系数抽取。
28.s25、通过mel滤波器后对能量对数的dct倒谱,得到mfcc参数,其公式为:其中,由上式得到l阶mfcc系数(在12-16之间)、n维mfcc特征向量,m为mel滤波器序列的下标,n为dct后的谱线。
29.s3、将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;如上述步骤s3所述,上述的mfcc 参数仅是一种语音静态特性参数,用这些静态特征参数的差分谱可以描述语音的动态特性参数。对静态特性参数取差分,得到动态特性参数表示为:其中,第一项为,第二项为其他,第三项为,表示第t个一阶差分,表示第t个倒谱系数,q表示倒谱系数的阶数,k表示一阶导数的时间差。
30.s4、将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;预设的动态贝叶斯网络模型为通过实际语音信号样本训练学习,建立语音干扰噪声辨识的动态贝叶斯网络模型。
31.步骤s4具体包括:s41、对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练;当具有多个选定人物时,对每一人建立一个动态贝叶斯网络模
型,从采用每个人的特定语音数据进行网络训练。
32.步骤s41具体包括:s411、选取动态贝叶斯网络模型中的hmm模型,即hmm隐马尔科夫模型,包括两个显节点y1和y2、两个隐节点q1和q2,在语音识别中,可简单明确的标识两帧语音信号之间的关系,q为音素的状态节点,传递两帧语音之间的状态,每帧中的显节点y表示mfcc特征值,定义节点为:义节点为:s412、建立交叉树,并将交叉树进行1
½
帧交叉树展开;s413、输入选定人物的语音数据的mfcc参数,并通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值;前向遍历方法为条件概率计算,在一个交叉树j
t
中,节点的条件概率密度为其父节点的条件概率密度和转移矩阵、权重的乘积。
33.转移矩阵的形式与节点的类型相关,当节点为制表型节点时,其概率密度转移矩阵为am´n,其中m和n为子节点和父节点的长度,即即其中,为待更新的节点概率密度,等号右边分别为概率密度转移矩阵am´n,父节点的概率密度以及子节点与父节点的权重,权重值取值范围为[0,1],且同一个子节点的权重加权为1。
[0034]
采用em的学习算法进行训练,给定m个训练样本,样本相互独立,对于所有隐节点z的最大对数似然估计()为:最大似然估计的范围为[0,1],最大对数似然估计的范围为[-∞,0],数值越接近0,其相似程度越高。由于并不能最大化,因而通过e(expectation)过程以及m(maximization)过程不断优化,达到接近最大值。
[0035]
似然值为主要的判断依据,与动态贝叶斯网络的值相关的参数有帧数以及语音信号和贝叶斯网络的相似程度,为消除语音信号mfcc 参数帧数不一致的影响,采用每帧对数似然值的均值作为判断依据。动态贝叶斯网络推导算法中前向遍历第一帧交叉树并不存在似然值估计,后向遍历最后一帧交叉树亦不存在似然值估计,采用em学习算法中计算的最大似然值为动态贝叶斯网络的总和,定义计算平均每帧对数最大似然值的公式为:
其中,为动态贝叶斯网络的值,当有m个语音数据进行测试时,修正系数从1改为m。
[0036]
s414、判断所述最大似然值与上一次似然值是否相同;s415、若所述最大似然值与上一次似然值不相同,则更新似然值,并更新概率网络参数,返回通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值的步骤;s416、若所述最大似然值与上一次似然值相同,则选定人物的动态贝叶斯网络模型训练结束。将待测试的数据输入训练好的动态贝叶斯网络进行辨识,可得出待测数据的每帧对数似然值。
[0037]
s42、将所述初始语音数据的目标mfcc参数输入训练完成的动态贝叶斯网络模型中计算得到最大似然值;s43、判断所述最大似然值是否小于设定值;s44、若所述最大似然值小于设定值,则选取对应的语音数据段;s45、若所述最大似然值大于等于设定值,则删除对应的语音数据段。
[0038]
如上述步骤s42-s45所述,初始语音数据筛选即筛选出与选定人物的网络模型最为接近的语音数据,即语音数据与网络模型的似然值小于设定值,设定值可以根据具体情况进行调整,在此不做限定。
[0039]
s5、采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。
[0040]
步骤s5具体包括:s51、对选取的多个语音数据段采用双门限法进行语音端点检测;s52、将多个语音数据段进行随机排序,得到语音段序列;s53、对语音段序列进行数据叠接以使拼接的语音平滑过度,得到一段语音;s54、得到设定段语音后,将设定段的语音叠加得到具有语音信号特征的干扰噪声。
[0041]
如上述步骤s51-s54所述,合成的主动干扰噪声信号对语音信号的干扰具备噪声的压制性干扰和欺骗性干扰,体现在声压级的压制以及信息熵的干扰中。主动干扰噪声具有干扰对象,能减少噪声的带宽,提高干扰的能量利用率。运用语音端点检测方法以及数据叠接方法来合成一段语音,把多段语音合成为干扰噪声信号,生成具有语音信号特征的干扰噪声,以使人耳不易区分干扰语音与实际语音语义,可采用多组(如15组)语音进行叠加。
[0042]
如图2所示,本发明还提供了一种对拾取语音的干扰装置,包括:获取模块1,用于获取初始语音数据,以及获取选定人物的特定语音数据;其中,所述初始语音数据和特定语音数据均通过麦克风进行录音采集;提取模块2,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数;其中,所述mfcc参数为语音静态特性参数;差分模块3,用于将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;筛选模块4,用于将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述
初始语音数据进行筛选,得到多个语音数据段;合成模块5,用于采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。
[0043]
在一个实施例中,提取模块2,包括:预处理单元,用于对所述特定语音数据进行预处理;其中,所述预处理包括预加重、s变换和分帧处理;变换单元,用于对预处理后的所述特定语音数据从s变换的频率域的各帧范围内积分计算各帧谱能量,其公式为:其中,为s变换的视频信号,为每帧点数,为采样频率,为一帧的时长;滤波单元,用于对各帧谱能量采用mel滤波器进行mel滤波;其中,mel滤波器为m个反映mel标度的三角函数滤波器组,将每帧功率谱通过mel标度的三角形滤波器组,得到:其中,为对滤波器的定义;对数单元,用于对每个滤波器组的输出取对数,得到:其中,;mfcc参数单元,用于通过mel滤波器后对能量对数的dct倒谱,得到mfcc参数,其公式为:其中,得到l阶mfcc系数,n维mfcc特征向量,m为mel滤波器序列的下标,n为dct后的谱线。
[0044]
在一个实施例中,预处理单元,包括:预加重子单元,用于对所述特定语音数据通过一阶fir高通数字滤波器进行预加重,其传递函数为:其中,a为预加重系数,其取值范围为0.9<a<1.0;s变换子单元,用于进行加重信号的s变换,所述s变换为通过变换短时傅里叶变换的窗函数,其公式为:其中,p为窗函数的归一化参数;
分帧子单元,用于在s变换的时间域上进行分帧处理,其中,分帧时按10-30ms取帧,帧移和帧长的比取在1/2~1/3之间。
[0045]
在一个实施例中,筛选模块4,包括:构建单元,用于对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练;训练单元,用于将所述初始语音数据的目标mfcc参数输入训练完成的动态贝叶斯网络模型中计算得到最大似然值;判断单元,用于判断所述最大似然值是否小于设定值;选取单元,用于当所述最大似然值小于设定值时,选取对应的语音数据段;删除单元,用于当所述最大似然值大于等于设定值时,删除对应的语音数据段。
[0046]
在一个实施例中,构建单元,包括:定义子单元,用于选取动态贝叶斯网络模型中的hmm模型,并定义节点为:并定义节点为:其中,q为音素的状态节点,传递两帧语音之间的状态,每帧中的显节点y表示mfcc特征值;建立子单元,用于建立交叉树,并将交叉树进行1
½
帧交叉树展开;计算子单元,用于输入选定人物的语音数据的mfcc参数,并通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值;判断子单元,用于判断所述最大似然值与上一次似然值是否相同;更新子单元,用于当所述最大似然值与上一次似然值不相同时,更新似然值,并更新概率网络参数,返回通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值的步骤;结束子单元,用于当所述最大似然值与上一次似然值相同时,选定人物的动态贝叶斯网络模型训练结束。
[0047]
在一个实施例中,动态贝叶斯网络推导算法中前向遍历第一帧交叉树并不存在似然值估计,后向遍历最后一帧交叉树亦不存在似然值估计,采用em学习算法中计算的最大似然值为动态贝叶斯网络的总和,计算平均每帧对数最大似然值的公式为:计算平均每帧对数最大似然值的公式为:其中,为动态贝叶斯网络的值,当有m个语音数据进行测试时,修正系数从1改为m。
[0048]
在一个实施例中,合成模块5,包括:端点检测单元,用于对选取的多个语音数据段采用双门限法进行语音端点检测;排序单元,用于将多个语音数据段进行随机排序,得到语音段序列;平滑过度单元,用于对语音段序列进行数据叠接以使拼接的语音平滑过度,得到一段语音;
叠加单元,用于得到设定段语音后,将设定段的语音叠加得到具有语音信号特征的干扰噪声。
[0049]
上述各模块、单元、子单元均是用于对应执行上述对拾取语音的干扰方法中的各个步骤,其具体实现方式参照上述方法实施例所述,在此不再进行赘述。
[0050]
如图3所示,本发明还提供了一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对拾取语音的干扰方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现对拾取语音的干扰方法。
[0051]
本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定。
[0052]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个对拾取语音的干扰方法。
[0053]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0054]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0055]
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种对拾取语音的干扰方法,其特征在于,包括:获取初始语音数据,以及获取选定人物的特定语音数据;其中,所述初始语音数据和特定语音数据均通过麦克风进行录音采集;对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数;其中,所述mfcc参数为语音静态特性参数;将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。2.根据权利要求1所述的对拾取语音的干扰方法,其特征在于,所述对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数的步骤,包括:对所述特定语音数据进行预处理;其中,所述预处理包括预加重、s变换和分帧处理;对预处理后的所述特定语音数据从s变换的频率域的各帧范围内积分计算各帧谱能量,其公式为:其中,为s变换的视频信号,为每帧点数,为采样频率,为一帧的时长;对各帧谱能量采用mel滤波器进行mel滤波;其中,mel滤波器为m个反映mel标度的三角函数滤波器组,将每帧功率谱通过mel标度的三角形滤波器组,得到:其中,为对滤波器的定义;对每个滤波器组的输出取对数,得到:其中,;通过mel滤波器后对能量对数的dct倒谱,得到mfcc参数,其公式为:其中,得到l阶mfcc系数,n维mfcc特征向量,m为mel滤波器序列的下标,n为dct后的谱线。3.根据权利要求2所述的对拾取语音的干扰方法,其特征在于,所述对所述特定语音数据进行预处理的步骤,包括:对所述特定语音数据通过一阶fir高通数字滤波器进行预加重,其传递函数为:
其中,a为预加重系数,其取值范围为0.9<a<1.0;进行加重信号的s变换,所述s变换为通过变换短时傅里叶变换的窗函数,其公式为:其中,p为窗函数的归一化参数;在s变换的时间域上进行分帧处理,其中,分帧时按10-30ms取帧,帧移和帧长的比取在1/2~1/3之间。4.根据权利要求1所述的对拾取语音的干扰方法,其特征在于,所述将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段的步骤,包括:对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练;将所述初始语音数据的目标mfcc参数输入训练完成的动态贝叶斯网络模型中计算得到最大似然值;判断所述最大似然值是否小于设定值;若所述最大似然值小于设定值,则选取对应的语音数据段;若所述最大似然值大于等于设定值,则删除对应的语音数据段。5.根据权利要求4所述的对拾取语音的干扰方法,其特征在于,所述对选定人物构建动态贝叶斯网络模型,并采用选定人物的特定语音数据提取的mfcc参数进行模型训练的步骤,包括:选取动态贝叶斯网络模型中的hmm模型,并定义节点为:并定义节点为:其中,q为音素的状态节点,传递两帧语音之间的状态,每帧中的显节点y表示mfcc特征值;建立交叉树,并将交叉树进行1
½
帧交叉树展开;输入选定人物的语音数据的mfcc参数,并通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值;判断所述最大似然值与上一次似然值是否相同;若所述最大似然值与上一次似然值不相同,则更新似然值,并更新概率网络参数,返回通过前向遍历和后向遍历进行概率网络前后向推导,计算最大似然值的步骤;若所述最大似然值与上一次似然值相同,则选定人物的动态贝叶斯网络模型训练结束。6.根据权利要求5所述的对拾取语音的干扰方法,其特征在于,动态贝叶斯网络推导算法中前向遍历第一帧交叉树并不存在似然值估计,后向遍历最后一帧交叉树亦不存在似然值估计,采用em学习算法中计算的最大似然值为动态贝叶斯网络的总和,计算平均每帧对数最大似然值的公式为:
其中,为动态贝叶斯网络的值,当有m个语音数据进行测试时,修正系数从1改为m。7.根据权利要求4所述的对拾取语音的干扰方法,其特征在于,所述采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声的步骤,包括:对选取的多个语音数据段采用双门限法进行语音端点检测;将多个语音数据段进行随机排序,得到语音段序列;对语音段序列进行数据叠接以使拼接的语音平滑过度,得到一段语音;得到设定段语音后,将设定段的语音叠加得到具有语音信号特征的干扰噪声。8.一种对拾取语音的干扰装置,其特征在于,包括:获取模块,用于获取初始语音数据,以及获取选定人物的特定语音数据;其中,所述初始语音数据和特定语音数据均通过麦克风进行录音采集;提取模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的mfcc参数;其中,所述mfcc参数为语音静态特性参数;差分模块,用于将所述mfcc参数取差分,得到目标mfcc参数;其中,所述目标mfcc参数为语音动态特性参数;筛选模块,用于将所述目标mfcc参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;合成模块,用于采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本发明涉及语音干扰技术领域,公开了一种对拾取语音的干扰方法,包括:获取初始语音数据,以及获取选定人物的特定语音数据;对所述特定语音数据进行特征提取,得到所述特定语音数据的MFCC参数;将所述MFCC参数取差分,得到目标MFCC参数;其中,所述目标MFCC参数为语音动态特性参数;将所述目标MFCC参数输入预设的动态贝叶斯网络模型,以对所述初始语音数据进行筛选,得到多个语音数据段;采用数据叠接方法将多个语音数据段进行合成,得到具有语音信号特征的干扰噪声。本发明提供的对拾取语音的干扰方法、装置和计算机设备,能够对特定区域进行大范围或者精确方向干扰,达到压制语音信号的目的,以淹没特定人的语音,使其语义难以辨识。辨识。辨识。
技术研发人员:
高雷 王小龙
受保护的技术使用者:
北京金锐世纪高科技有限公司
技术研发日:
2022.09.22
技术公布日:
2022/11/2