一种基于主成分GFCC与声道振动频谱参数的语种识别方法

阅读: 评论:0


一种基于主成分gfcc与声道振动频谱参数的语种识别方法
技术领域
1.本发明涉及一种基于主成分gfcc与声道振动频谱参数的语种识别方法,属于语音识别技术领域。


背景技术:



2.随着经济全球化的发展以及科技的进步,全球各地区各民族之间的交流变得更加频繁与密切,因此语种识别问题也越来越被重视。全球各地区各民族之间要进行交流不仅仅满足于通过文字与翻译软件,而是非常需要以一种更加自然、更加智能方便的方式进行交流,因此将语音传入计算机相比于传统的打字交流越来越普遍,越来越多的工程项目或者是设备加入了语音控制模块,让机器能够听懂人话,或者说用语音控制机器是最方便的,也是一直以来的一个备受关注的研究课题。要用语音控制机器,最基础的也是最开始的一步就是要让机器判断出所说的语言是什么,才能正确识别语音的指令并进行后续操作。目前,语种识别技术已经大量运用在军事以及多语种信息服务行业。语种识别在纯净或者小噪声环境下的识别率已经很好,但是现实环境中很少有不含噪声的环境,所以低信噪比下的语种识别率还需要提升。


技术实现要素:



3.本发明要解决的技术问题是提供一种基于主成分gfcc与声道振动频谱参数的语种识别方法,用来解决在低信噪比环境下语种识别率低的问题,减小噪声对语种识别的硬性,提高识别率。
4.本发明在低信噪比下基于fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,最后将特征融合后通过高斯混合通用背景模型进行语种识别并评定方法性能。
5.本发明的技术方案是:
6.一种基于主成分gfcc与声道振动频谱参数的语种识别方法,首先在低信噪比下基于fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,将两种特征进行融合得到融合特征集,最后将融合特征集输入到语种识别模型中训练出对应语种识别模型。
7.具体步骤为:
8.step1:获取语料集数据。
9.step2:对每条语音进行gfcc系数提取。
10.step3:根据fisher准则计算分析在低信噪比环境下传统13维静态gfcc特征每一维的贡献度,并将贡献度最高的5维组成主成分伽玛通频率倒谱系数(principle component of gammatone frequency cepstral coefficients,pcgfcc)。
11.step4:对每条语音提取其声道振动频谱参数(spectral parameters of channel vibration,spcv)。
12.step5:对提取的语音pcgfcc特征融合提取的语音的声道振动频谱特征。
13.step6:将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型。
14.step7:将要识别的语音输入语种识别系统,提取其融合特征并与提取出来的语种模型进行对比判决打分,最后输出识别结果。
15.所述step1具体为:
16.step1.1:从数据库中(例如中国国际广播电视台)获取不同语种的广播音频。
17.step1.2:用获取的纯净语音合成带噪语音以供检测。
18.所述step2具体为:
19.step2.1:对语音进行预处理,以去除非语音音素带来的干扰。
20.预处理包括预加重、分帧、语音能量的归一化等操作,语音能量的归一化目的是去除数据集音量大小对识别的影响,使得训练集与测试集的语音能量都在同一标准下。预加重则是提高语音的高频分量,减少高频部分的损失,更全面地记录语音信息。
21.step2.2:求取语音谱线能量。
22.step2.3:将语音通过savitzky-golay滤波平滑以去除尖锐噪声引起的频谱突变。
23.step2.4:将平滑后的信号通过gammatone滤波器滤波,再取对数并进行离散余弦变换得到对应的倒谱,即gfcc系数。
24.取倒谱能够将声道振动响应与声门激励脉冲分离开。选取倒谱区间因子m,构成声道振动倒谱序列,以便于把声道振动分离出来,也不会造成其中语种信息的损失。进行fft并取实数部分并重采样,这样保留了大部分语种信息的同时还去除了部分冗余的信息,可以加快训练与识别的速度。
25.所述step3具体为:
26.step3.1:基于fisher准则分别计算13维静态gfcc每一维的贡献度。
27.step3.2:选择在不同信噪比下都有较大贡献度的5维组成pcgfcc。
28.所述step4具体为:
29.step4.1:对语音进行预处理,以去除非语音音素带来的干扰。
30.step4.2:计算语音功率谱并进行savitzky-golay滤波。
31.step4.3:对滤波后的信号取倒谱,并将声道振动响应与声门激励脉冲分离。
32.step4.4:对声道振动倒谱序列做fft取实数部分,重采样得到spvc。
33.所述step7具体为:
34.step7.1:确定训练与测试语料集具体情况
35.step7.2:使用大量语音测试性能,即对输入的语音提取声学与运动学两个方面的特征,将两种特征进行融合作为融合特征,再和训练好的模型进行对比打分判决,最后输出识别结果。
36.本发明的有益效果是:将运动学特征与声学特征相结合,不仅更全面地记录了语音信息,也使得语种信息得到进一步加强。若噪声对其中某一个特征影响较大,另一个特征还能有较高的辨识度,使得融合特征的鲁棒性更强。在四种不同信噪比下的识别率相比于
传统方法都有一定的提高,为低信噪比下的语种识别提供了一种有效的方案。
附图说明
37.图1是本发明不同信噪比下的语音波形图;
38.图2是本发明gfcc提取流程图;
39.图3是本发明4种信噪比等级下静态13维gfcc各维特征的f比图;
40.图4是本发明声道振动频谱参数提取流程图;
41.图5是本发明gmm-ubm训练与识别过程图;
42.图6是本发明4种信噪比不同特征方法识别率对比图;
43.图7是本发明识别结果图。
具体实施方式
44.下面结合附图和具体实施方式,对本发明作进一步说明。
45.实施例1:一种基于主成分gfcc与声道振动频谱参数的语种识别方法,具体步骤为:
46.step1:语料集数据的获取;
47.训练与识别所使用的语料均为中国国际广播电视台的广播音频,单条音频的采样率fs=8000hz,时长为10秒,包含5个语种:汉语、藏语、维吾尔族语、英语、哈萨克斯坦语。
48.对非纯净语音需要了解其语音质量,通常使用信噪比(signal-to-noise ratio,snr)来衡量一段语音质量的好坏。一段带噪语音的snr定义如下:
[0049][0050]
其中,表示在语音持续时间内信号的总能量,表示语音持续时间内的噪声的总能量,n为语音的总采样点数。因为主要针对的是低信噪比下的语种识别,本发明的snr范围设置为[-5,10]db,每组间隔为5db。
[0051]
本发明采用的噪声为加性噪声,则带噪语音可以表示为:x(n)=s(n)+w(n),其中x(n)为带噪语音本身,s(n)为有效信号,w(n)为噪声。不同snr等级下的语音波形如图1所示。随着信噪比等级降低,语音的波形逐渐被噪声覆盖,使得语种识别更加困难,且实际生活中很少有纯净语音的情况,所以在低信噪比下进行语种识别更有必要。
[0052]
step2:对每条语音进行gfcc系数提取;
[0053]
不同的语音特征能够从不同的角度表征语音,所以对特征参数进行组合有助于提高语种识别率,但是直接组合不同的特征只会增加特征的维度与计算量,且在低信噪比环境下并不是所有的特征分量都有较好的识别度,所以特征参数的选取就显得尤为重要。因此基于fisher准则来分析在低信噪比环境下传统13维静态gfcc特征每一维的贡献度,并选取贡献度最高的5维组成pcgfcc特征,pcgfcc从声学特征方面记录并表征了语音。
[0054]
首先提取出语音13维的gfcc特征,即先对语音进行分帧、加窗、预加重等预处理操作,再对每一帧数据进行fft并计算对应的谱线能量,再通过savitzky-golay滤波以去除尖锐噪声引起的频谱突变,接着把滤波平滑后的信号通过gammatone滤波器进行滤波,再取对
数并进行离散余弦变换得到对应的倒谱,即gfcc特征。gfcc的具体提取流程如图2所示。
[0055]
step3:根据fisher准则计算分析在低信噪比环境下传统13维静态gfcc特征每一维的贡献度,并将贡献度最高的5维组成pcgfcc;
[0056]
fisher准则的计算公式如式(2)所示:
[0057][0058]
其中,sb为类间散度矩阵,表示语种的第i维特征分量在不同语种间散度之和,表示第i维特征在不同语种之间的区分性,sb越大说明这一维特征越能表示出不同语种的差别,即sb越大越具有辨识度。sw为类内散度矩阵,表示语种的第i维特征分量的语种内散度之和,表示第i维特征分量的聚散程度,sw越小这一维特征在语种内部越稳定,受噪声影响越小,能更好的表征语种信息。类间散度矩阵sb定义为:
[0059][0060]
其中,m表示语种个数,为第j个语种的特征的第k维分量的均值,mk表示数据集中所有语种的特征的第k维分量的均值。类内散度矩阵sw定义为:
[0061][0062]
其中,nj为第j个语种在数据集上的语音条数,表示第j个语种的特征矩阵的第k维特征分量。
[0063]
基于fisher准则计算出来的某一维特征对识别的贡献度也叫做该维特征的f比,图3显示了在snr=[-5,0,5,10]db下静态13维gfcc各维特征基于fisher准则得出的f比。
[0064]
图3的横轴编号对应静态13维gfcc特征的某一维的编号,纵轴为计算出的f比,表征某一维特征在不同信噪比下对识别的贡献度。观察图4可知,在不同的信噪比等级下,13维的静态gfcc特征每一维对识别都有不同的贡献度,即有不同的辨识度,选择在4种信噪比等级下都有较大贡献度的第3、6、7、8、9维gfcc特征构成pcgfcc,得到5
×
1的第l帧语音的pcgfcc特征:
[0065][0066]
其中,分别表示第l帧语音的第3、6、7、8、9维静态gfcc特征。
[0067]
step4:对每条语音提取其声道振动频谱参数spcv;
[0068]
语音的产生是人体多个器官共同的结果,语音中最明显的信息是说话人信息,但其中还包含了语种信息与语义信息等,部分非语种信息会对语种识别带来一定的干扰,降低识别率。已有语音学研究指出,不同语言的声道形态存在差异,在水平和垂直方向都有不同。声道在人的发声系统中的作用可以看作一个对声门激励进行响应的系统,所以一条语音的声道响应频谱包含了说话人的共振峰等信息,但也包含了发声方式、声道收缩程度及口型上的多种语种发声信息,可以看作区分语种的依据。
[0069]
声门振动激励频谱中包含较多的说话人信息,更适合用于说话人的识别,因此在实验中只提取声道振动频谱参数特征作为语种区分特征,且spcv作为语音的运动学特征与
作为声学特征的pcgfcc一同作为组合特征提高语种的识别率。spcv的具体提取流程如图4所示,具体提取流程如下:
[0070]
设语音信号为x(n),对x(n)进行预加重、分帧等预处理操作,帧长为b=256,帧移δ=128,分帧之后得到f帧信号,第j帧的信号为s
(j)
(n);进行语音能量的归一化,目的是去除音量大小对识别的影响,使训练集与测试集的语音能量在同一标准下;预加重提高语音的高频分量,减少高频部分的损失。
[0071]
对s
(j)
(n)做fft得到s
(j)
(k),并求得其功率谱
[0072]
对u
(j)
(k)进行savitzky-golay滤波,目的是去除带噪语音中突然出现的尖锐噪声,避免其引起的频谱突变,通过平滑滤波之后的信号为:
[0073][0074]
其中,h(l)为savitzky-golay滤波器的离散冲激响应;m为滤波器平滑窗口的一半长度,且根据多次实验观察可知,当m=5时实验效果较好。
[0075]
对y
(j)
(k)取对数:
[0076]
t
(j)
(k)=10lg|y
(j)
(k)|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0077]
对t
(j)
(k)进行ifft变换,得到倒谱c
(j)
(n),以便将声道振动响应与声门激励脉冲分离开。
[0078]
选取倒谱区间因子m,构成声道振动倒谱序列:
[0079][0080]
其中,m=30时有较好的实验效果,可以较好把声道振动分离出来,也不会造成其中语种信息的损失。倒谱本身是前后对称的且帧长为256,所以选择首尾各m个数据构成声道振动倒谱序列。构建的g
(j)
(n)是长度为256的声道振动倒谱序列。
[0081]
对g
(j)
(n)进行fft并取实数部分。因为fft具有对称性,所以只用取计算结果的前半部分,得到声道振动频谱v
(j)
(k)。
[0082]
对v
(j)
(k)重采样。得到第j帧的spcv特征向量:
[0083]y(j)
=[v
(j)
(1),v
(j)
(c),v
(j)
(2c),v
(j)
(3c),

,v
(j)
(d)]
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0084]
其中d为最后一个采样点对应的v
(j)
(k)的位置。反复实验可知,取采样间隔点数c=6时有较好的实验效果。重采样在减少特征维度的同时还记录了声道振动的变化,保留了大部分语种信息的同时还去除了部分冗余的信息,可以加快训练与识别的速度。因为采样间隔点数c=6,所以得到22
×
1的第j帧重新取样后的spcv特征向量。
[0085]
step5:对提取的语音pcgfcc特征融合提取的语音的声道振动频谱特征;
[0086]
因为单个特征不具备较好的鲁棒性,不能很好地表征语音,所以需要将运动学特征与声学特征结合起来,即将spcv与pcgfcc相结合形成更具有鲁棒性、记录更完善、更能表征语音的特征集。pcgfcc与spcv进行融合,得到pcgfcc和spcv融合参数(pcgfcc and spcv,pcgfcc-spcv),该融合特征从两个方向记录了语音,弥补了在低信噪比下单一语种特征容易受到噪声干扰的不足,更全面地记录了语音。融合特征的具体提取过程如下:
[0087]
提取第i帧的f(i)与y(i),两种特征大小分别为5
×
1、22
×
1,将两种特征进行拼接得
到27
×
1的第i帧融合特征向量:
[0088][0089]
将每一帧信号的特征向量按照时间顺序进行拼接,即得到一条语音的融合特征矩阵:
[0090]
y=[y
(1)

,y
(2)

,

,y(i)′
,

,y
(f)

]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0091]
最后将该矩阵送入gmm-ubm进行训练与识别。
[0092]
step6:将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型;
[0093]
模型识别与训练过程见图5,gmm-ubm可以确定待识别语言模型与gmm-ubm之间的差别,判断待识别语音模型是否与训练好的模型匹配,一方面有更高的鲁棒性,另一方面是在训练数据集较少的情况下得到更加适应大部分情况的模型。若有n个语种要进行训练与判断,提取出语种特征之后将训练好的ubm与目标语种通过模型自适应得到n个语种模型,将待测试语音与得出的模型进行匹配打分,最后判定为某一语种。实验中共选取了5种语言进行识别实验,所以n=5。模型采用的混合高斯数为32。
[0094]
step7:将要识别的语音输入语种识别系统,提取其融合特征并与提取出来的语种模型进行对比判决打分,最后输出识别结果。
[0095]
本发明中所使用的语料库为中国国际广播电视台的广播音频,单条音频的采样率fs=8000hz,时长为10秒,包含5个语种:汉语、藏语、维吾尔族语、英语、哈萨克斯坦语。所采用的训练语料:五个语种各600条语音,从其中选取100条语音不进行处理,其余500条按照snr间隔为5db,与noisex-92公开噪声库中的白噪声构成snr=[5,10,15,20,25]db的带噪语音,每个snr等级下各有100条语音。
[0096]
对应于训练集的五个语种,每个语种171条,5个语种共855条语音。采取noisex-92公开噪声库的白噪声作为背景噪声,构成snr=[-5,0,5,10]db的带噪语音,即形成4种snr等级下的测试集,每个测试集都包含了855条语音。ubm自适应语料集随机选取1675条另外的广播音频。选取识别率作为方法的评价指标。
[0097]
为了验证所提出的融合特征方法在低信噪比环境下的识别率与鲁棒性并对其进行分析,实验在下,设置了6组实验。实验1:提取13维静态mfcc作为语种特征。实验2:提取13维静态gfcc作为语种特征,相比于mfcc的三角滤波器,使用了更符合人耳听觉特性的gammatone滤波器。实验3:提取64维的对数mel尺度滤波器能量(log mel-scale filter bankenergies,fbank)特征作为语种特征,输入到残差神经网络进行识别。实验4:提取你灰度语谱图特征作为语种特征,输入到残差神经网络进行实验。实验5:提取spcv作为语种特征,验证该特征的有效性与可行性。实验6:提取pcgfcc-spcv作为语种特征,验证对比于单一spcv特征的有效性与鲁棒性。其中除了实验3与实验4采用残差神经网络进行训练与识别,其余实验均采用gmm-ubm进行训练与识别。实验结果如表1所示:
[0098][0099]
表1:各个特征的语种识别率(单位/%)
[0100]
pcgfcc-spcv特征方法将运动学特征与声学特征相结合,不仅更全面地记录了语音信息,也使得语种信息得到进一步加强。若噪声对其中某一个特征影响较大,另一个特征还能有较高的辨识度,使得融合特征的鲁棒性更强。融合进来的pcgfcc已经去除了原gfcc中对识别作用不大甚至有反作用的几维特征,降低了特征矩阵维度的同时更突显语音的语种信息,还增强了融合特征的鲁棒性,使得最后得到的融合特征在四种信噪比下都有比其余5组实验更高的识别率,因此pcgfcc-spcv特征方法适用于低信噪比下的语种识别。图6为在不同信噪比下的pcgfcc-spcv特征方法与其余5种特征方法的识别率对比。可以看出在四种信噪比下,pcgfcc-spcv特征方法识别率均高于其余5种特征方法的识别率,但是在不同信噪比下对识别率的提升却不一样,这主要是因为不同特征方法受噪声的干扰程度不同,对语种信息的表征程度也不同,而且在不同信噪比下提升相同识别率的难度也不同,因此同样的特征方法的提升也不同。从实验结果来看,pcgfcc-spcv特征方法在四种不同信噪比下依然能够提高识别率,且鲁棒性也有一定的提升。
[0101]
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术特征:


1.一种基于主成分gfcc与声道振动频谱参数的语种识别方法,其特征在于:step1:获取语料集数据;step2:对语料集数据中的每条语音进行gfcc系数提取;step3:根据fisher准则计算分析在低信噪比环境下传统13维静态gfcc特征每一维的贡献度,并将贡献度最高的5维组成主成分伽玛通频率倒谱系数;step4:对每条语音提取其声道振动频谱参数;step5:对提取的语音pcgfcc特征融合提取的语音的声道振动频谱特征;step6:将提取的融合特征集输入到语种识别模型训练,生成对应的语种识别模型;step7:将要识别的语音输入语种识别系统,提取其融合特征并与提取出来的语种模型进行对比判决打分,最后输出识别结果。2.根据权利要求1所述的基于主成分gfcc与声道振动频谱参数的语种识别方法,其特征在于,所述step1具体为:step1.1:从数据库中获取不同语种的广播音频;step1.2:用获取的纯净语音合成带噪语音以供检测。3.根据权利要求1所述的基于主成分gfcc与声道振动频谱参数的语种识别方法,其特征在于,所述step2具体为:step2.1:对语音进行预处理,以去除非语音音素带来的干扰;step2.2:求取语音谱线能量;step2.3:将语音通过savitzky-golay滤波平滑以去除尖锐噪声引起的频谱突变;step2.4:将平滑后的信号通过gammatone滤波器滤波,再取对数并进行离散余弦变换得到对应的倒谱,即gfcc系数。4.根据权利要求1所述的基于主成分gfcc与声道振动频谱参数的语种识别方法,其特征在于,所述step3具体为:step3.1:分别计算13维静态gfcc每一维的贡献度;step3.2:选择在不同信噪比下贡献度大的5维组成pcgfcc。5.根据权利要求1所述的基于主成分gfcc与声道振动频谱参数的语种识别方法,其特征在于,所述step4具体为:step4.1:对语音进行预处理,以去除非语音音素带来的干扰;step4.2:计算语音功率谱并进行savitzky-golay滤波;step4.3:对滤波后的信号取倒谱,并将声道振动响应与声门激励脉冲分离;step4.4:对声道振动倒谱序列做fft取实数部分,重采样得到spvc。

技术总结


本发明涉及一种基于主成分GFCC与声道振动频谱参数的语种识别方法,属于语音识别技术领域。本发明在训练阶段首先在低信噪比下基于Fisher准则对伽玛通频率倒谱系数各维特征进行分析比较,筛选出最具有识别度的五维作为主成分伽玛通频率倒谱系数,再基于信号倒谱提取声道振动特征参数,将两种特征进行融合得到融合特征集,最后将融合特征集输入到语种识别模型中训练出对应语种识别模型。在识别阶段对要识别的语音提取融合特征并与训练好的语种模型进行打分判决,最后输出识别结果。经过测试,本发明可以提高语种识别在低信噪比环境下准确率,且运行速度快,计算量少。计算量少。计算量少。


技术研发人员:

邵玉斌 张昊阁 周大春 段云

受保护的技术使用者:

昆明理工大学

技术研发日:

2022.08.14

技术公布日:

2022/12/8

本文发布于:2022-12-19 16:41:25,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/38497.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语种   特征   语音   声道
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图