声纹识别特征MFCC的提取方法研究

阅读: 评论:0

  作者简介 王华朋(1979— ),男,山东人,助教。
2008年第1期No 112008 Journal of Chinese Peop le πs Public Security University (Science and Technol ogy ) 总第55期Su m55
声纹识别特征MFCC 的提取方法研究
王华朋,杨洪臣
(中国刑事警察学院公安视听技术系,辽宁沈阳 110035)
摘 要 目的:研究声纹识别在人的个体生物特征识别中的应用。方法:利用符合人听觉特性的
语音特征参量MFCC 作为识别特征,并且在Matlab 平台上对MFCC 的提取算法进行了详细的阐述和程序设计。结果:在实际应用中取得了较高的识别率。结论:采用MFCC 作为特征参数进行声纹识别,其正确率比用LPC 等作为特征参数有较大的改善。关键词 声纹识别;MFCC;特征提取中图分类号 D91819   
0 引言
随着社会的发展,安全问题日趋重要。用人类
生物特征(声纹、指纹、人脸、虹膜)并结合计算机技术进行安全验证是当今的热门课题。声纹识别技术是生物识别技术的一种,与其他生物识别技术相比,声纹识别具有更为简便、准确、经济及非接触性识别等众多优势。
声纹识别是一项根据声纹中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。声纹识别过程中最主要的两部分内容是特征提取和模式匹配。特征提取,就是从声音中选取唯一表现说话人身份的有效且稳定可靠的特征;模式匹配就是对训练和鉴别时的特征模式做相似性匹配。基于人耳听觉特性的语音特征Mel 频率倒谱系数(Mel frequency cep strum coefficient,MFCC ),可以作为声纹识别的重要特征参数之一。1 语音特征参数的提取111 预处理
对模拟语音信号进行量化和采样,获得数字化的语音信号;再将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是50Hz 或60Hz 的工频干扰,提升语
音信号的高频部分,而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。降噪后,通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC 、MFCC 等特征参数非常有用的浊音信号。112 特征提取
在语音信号预处理后,接着是特征参数的提取。特征提取的任务就是提取语音信号中表征人的基本特征。选取的特征必须能够有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。语音的特征提取本质上是起降维作用,用较少的维数表现了说话人的特征。常用的语音特征包括基于发声器官如声门、声道和鼻腔的生理结构而提取的参数,如谱包络、基音、共振峰等。基于声道特征模型,通过线性预测分析得到的参数,如线性预测倒
谱系数(LPCC )、LSP 线谱对、线性预测残差等。基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的特征参数,如美尔倒谱系数(MF 2CC )等。
通过研究,人们发现人耳对不同频率的语音具有不同的感知能力,这个感知能力并不是随着频率的增加而线性增加。通过大量的实验,人们根据人耳在不同频率下的音调感知能力,提出了Mel 频率
82・中国人民公安大学学报(自然科学版)
的概念,这里的Mel 就是人耳所感知到音调的度量
单位。由于汉语是有调语言,Mel 频率正是对人耳所听到的汉语音调的度量。这个参数可以很好地描述人耳对汉语语音音调的感知情况。很多研究也证明,由于Mel 频率特性反映了人耳的听觉特性,因而
尼龙螺杆在用于代替人耳来分析语音时,其性能和鲁棒性都是最符合实际听音效果的。MFCC 参数与基于线性预测的倒谱分析相比,突出的优点是不依赖全极点语音产生模型的假定,在与文本无关的说话人识别系统中,MFCC 参数能够比LPCC 参数更好地提高系统的识别性能。
113 Mel 频率倒谱系数提取过程
人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC 是一种能够比较充分利用人耳感知特性的参数。MFCC 和线性频率的转换关系如下:
f m el =2595l
g 1+
f
700
可控硅焊机  MFCC 参数是按帧计算的,其提取过程可以用
框图表示(见图1)。因为不同的说话人声道具有区别于他人的特异性特征,所以在实际信号分析中常采
用预加重技术,即在对信号取样之后,插入一个一阶的高通滤波器,这样,就加强了声道部分的特征,便于对声道参数进行分析;Mel 滤波的作用是利用同人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑;对数操作(lg )的用途至少有两点,其一是压缩语音谱的动态范围,其二是将频域中的乘性成分变成对数谱域中的加性成分
,以便滤除乘性噪声;离散余弦变换(DCT )主要用来对不同频段的频谱成份进行解相关处理,使得各向量之间相互独立。
图1 M FCC 提取流程
由于相对于声波信号,人的发音器官运动速度显得非常慢,所以一般认为人类的语音信号是短时平稳信号,可以对其进行短时分析。首先要对信号进行分帧,然后再进行分析处理,就是用一个有限长度的窗序列w (n )截取一段语音信号来分析。提取某帧信号的美尔倒谱首先要通过FFT 得到预加重过的一帧信号的功率谱S (n ),转换为Mel 频率下的功率谱。这需要在计算之前先在语音
的频谱范围内设置若干个带通滤波器Hm (n ),m
=0,1,…,M -1,n =0,1,…,N /2-1。其
中,M 为滤波器的个数,通常取24;N 为一帧语音信号的点数,为了计算FFT 的方便,通常取N 为256。滤波器在频域上为简单的三角形,其中心频率为f m ,它们在Mel 频率轴上的分布是均匀的。每个滤波器的三角形的两个底点的频率分别等于相邻的两个滤波器的中心频率,即每两个相邻的滤波器的过渡带相互搭接,且频率响应之和为1。在线性频率上,当m 较小时,相邻f m 间隔很小,随着m 的增加,相邻的f m 间隔逐渐拉开。另外在频率
较低的区域f m 和f 之间有一段是线性的。带通滤波器的参数事先计算好,在计算MFCC 参数时直接使用。MFCC 参数的计算通常采用以下流程:
(1)首先确定每一帧语音采样序列的点数,本系统取N =256点。对每帧序列S (n )进行预加重处理后再经过离散FFT 变换,取模的平方得到离散功率谱S (n )。
(2)计算S (n )通过M 个Hm (n )后得到的功率值,即计算S (n )和Hm (n )在各离散频率点上乘积之和,得到M 个参数P m ,m =0,1,…,M -1。
(3)计算P m 的自然对数,得到Lm ,m =0,1,…,M -1。
(4)对L0,L1,…,计算其离散余弦变换,得到Dm ,m =0,1,…,M -1。舍去代表直流成分的D0,取D1,D2,…
,Dk 作为MFCC 参数。
MFCC 参数的个数K 通常取最低的12~16。在谱失真测度定义中通常不用0阶倒谱系数,因为它是反映频谱能量的。上文所说的在频域进行带通滤波是对能量谱进行滤波,而不是对幅度谱进行滤波。
2 Matlab 中实现MFCC 的提取
本文采用了哈明窗函数来对语音分帧,每帧的长度为256,步长为128,即每相邻两帧之间有半帧是重叠的。计算中利用了Matlab 中哈明窗函数(ha mm ing )。采用Matlab 的语音分析工具箱Voice 2Box,可以很容易地对语音进行分帧处理。其分帧函数调用为:f =enfra me (x,ha mm ing (256),128)。
在Matlab 语音分析工具箱Voice Box 中没有MFCC 特征参数的直接计算函数,但是包含Mel 频率滤波器系数处理函数MELBANK M 。本文应用了24个三角形滤波器序列,构成了Mel 频率滤波器
92・
组,如图2所示。除了提取MFCC 参数外,为了描
述语音帧之间的相关性,在计算中引入了一阶差分MFCC 的特征参数,并且与MFCC 参数一起构成语音的特征参数
图2 Mel 频率滤波器组
下面是语音信号MFCC 参数提取的具体实现:
functi on get m fcc =mfcc (s )%设定mel 滤波器系数
bank =melbank m (24,256,fs,0,015,′m ′)bank =full (bank );
财务报销管理系统bank =bank /max (bank (:))%设定DCT 系数for k =1:12
 n =0:23
 dct (k,:)=cos ((23n +1)3k 3pi/(2324));end
8700g
%设置归一化的倒谱提升窗口w =1+63sin (p i 3[1:12].
/12);
w =w /max (w );%设置预加重滤波器ss =double (x );
ss =filter ([1-019375],1,ss )%对语音信号进行分帧
ss =enfra me (ss,ha mm ing (256),128);%计算每帧的mfcc 参数for i =1:size (ss,1)
 s =ss (i,:);
 %对信号s 进行fft 计算
 t =abs (fft (s )); t =t .
^2;
%对fft 参数进行mel 滤波取对数再计算倒谱 c1=dct 3l og (bank 3t (1:129)′
); c2=c1.3w ′; %mfcc 参数
 m (i,:)=c2′end
%计算mfcc 参数的一阶差分dt m =zer os (size (m ));for i =3:size (m ,1)
-2
dt m (i,:)=-23m (i -2,:)-m (i -1,:)+
电石生产工艺
m (i +1,:)+23m (i +2,:);end dt m =dt m /3;
%合并mfcc 参数和一阶差分参数c =[m dt m ];
%去除首尾两帧,因为这两帧一阶差分参数为0c2=c (3:size (m ,1)-2,:);
通过计算MFCC 参数,获得了声纹识别的特征参数。由于MFCC 参数是对人耳听觉特征的描述,因此,可以认为,不同声纹的MFCC 参数距离,能够代表人耳对两个语音听觉上的差异,可以为声纹的识别提供可靠的依据。3 结束语
提前放电避雷针本文给出了一个比较通用的MFCC 的提取方法,并且列出了在Matlab 中实现的步骤。用这些系数组成语音信号的特征矢量,就可以建立声纹的模型参考集,进行声纹识别。它的提取与一般倒谱的提取过程的差别就在于:MFCC 模拟了人的听觉特性,在其求解过程中,FFT 的谱线在频率轴上是不等间隔分布的,而在Mel 频率轴上是等间隔分布的,在有噪声和频谱变形的情况下,采用MFCC 作为特征参数识别,其正确率比用LPC 等作为特征参数有比较大的改善。
参考文献
[1]Ah med Mezghani,Douglas .Speaker verificati on using a
ne w rep resentati on based on a C MFCC and f or mants [J ]1I EEE Electrical and Computer Engineering,2005,22:1469-1472.
[2]M inh N Do .An aut omatic apeaker recogniti on syste m
[J ]1S wiss Federal I nstitute of Technol ogy,2001,6:122-1241
[3]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用
[M ]1北京:清华大学出版社,2003.
[4]赵红怡,张常年.数字信号处理及其MAT LAB 实现
[M ]1北京:化学工业出版社,2002.
(责任编辑 李记松)
03・

本文发布于:2023-05-17 17:08:18,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/103044.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   参数   信号
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图