语音识别(三)——声学模型,解码器技术

阅读: 评论:0

语⾳识别(三)——声学模型,解码器技术
声源定位(续)
波束形成
声源定位的⽅法包括波束形成,超分辨谱估计和TDOA,分别将声源和阵列之间的关系转变为空间波束,空间谱和到达时间差,并通过相应的信息进⾏定位。
波束形成是通⽤的信号处理⽅法,这⾥是指将⼀定⼏何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的⽅法。波束形成主要是抑制主瓣以外的声⾳⼲扰,这⾥也包括⼈声,⽐如⼏个⼈围绕Echo谈话的时候,Echo只会识别其中⼀个⼈的声⾳。
波束形成可分为常规的波束形成CBF(Conventional Beam Forming)、CBF+Adaptive Filter和⾃适应波束形成ABF(Adaptive Beam Forming)。
超分辨谱估计
如MUSIC,ESPRIT等,对其协⽅差矩阵(相关矩阵)进⾏特征分解,构造空间谱,关于⽅向的频谱,谱峰对应的⽅向即为声源⽅向。适合多个声源的情况,且声源的分辨率与阵列尺⼨⽆关,突破了物理限
制,因此成为超分辨谱⽅案。这类⽅法可以拓展到宽带处理,但是对误差⼗分敏感,如麦克风单体误差,通道误差,适合远场模型,矩阵运算量巨⼤。
TDOA
TDOA(time difference of arrival)是先后估计声源到达不同麦克风的时延差,通过时延来计算距离差,再利⽤距离差和麦克风阵列的空间⼏何位置来确定声源的位置。分为TDOA估计和TDOA定位两步:
TDOA估计紫砂电饭锅
常⽤的有⼴义互相关GCC(Generalized Cross Correlation)和LMS⾃适应滤波。
TDOA定位
TDOA估值进⾏声源定位,三颗麦克风阵列可以确定空间声源位置,增加麦克风会增⾼数据精度。定位的⽅法有MLE最⼤似然估计,最⼩⽅差,球形差值和线性相交等。
TDOA相对来讲应⽤⼴泛,定位精度⾼,且计算量最⼩,实时性好,可⽤于实时跟踪,在⽬前⼤部分的智能定位产品中均采⽤TDOA技术做为定位技术。
参考
基于传声器阵列的声源定位
MIT提出像素级声源定位系统PixelPlayer:⽆监督地分离视频中的⽬标声源
揭秘武林绝学——“听声辨位”
其他前端问题5g通讯模块
语⾳增强
语⾳增强是指当语⾳信号被各种各样的噪声(包括语⾳)⼲扰甚⾄淹没后,从含噪声的语⾳信号中提取出纯净语⾳的过程。
混响(Dereverberation)
⼀般我们听⾳乐时,希望有混响的效果,这是听觉上的⼀种享受。合适的混响会使得声⾳圆润动听、富有感染⼒。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语⾳相互叠加,带来了⾳素的交叠掩蔽效应(Phoneme Overlap Effect),从⽽严重影响语⾳识别效果。
影响语⾳识别的部分⼀般是晚期混响部分,所以去混响的主要⼯作重点是放在如何去除晚期混响上⾯,多年来,去混响技术抑制是业界研究的热点和难点。利⽤麦克风阵列去混响的主要⽅法有以下⼏种:
(1)基于盲语⾳增强的⽅法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上⾯应⽤语⾳增强算法。
(2)基于波束形成的⽅法(Beamforming based approach),通过将多麦克风对收集的信号进⾏加权相加,在⽬标信号的⽅向形成⼀个拾⾳波束,同时衰减来⾃其他⽅向的反射声。
(3)基于逆滤波的⽅法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(
Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
声源信号提取
家⾥⼈说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声⾳才是指令。⽽麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声⾳信号中提取出⽬标信号,声源信号分离技术则是将需要将多个混合声⾳全部提取出来。
利⽤麦克风阵列做信号的提取和分离主要有以下⼏种⽅式:
(1)基于波束形成的⽅法,即通过向不同⽅向的声源分别形成拾⾳波束,并且抑制其他⽅向的声⾳,来进⾏语⾳提取或分离;
(2)基于传统的盲源信号分离(Blind Source Separation)的⽅法进⾏,主要包括主成分分析(Principal Component Analysis,PCA)和基于独⽴成分分析(Independent Component Analysis,ICA)的⽅法。
回声抵消
严格来说,这⾥不应该叫回声,应该叫“⾃噪声”。回声是混响的延伸概念,这两者的区别就是回声的
时延更长。⼀般来说,超过100毫秒时延的混响,⼈类能够明显区分出,似乎⼀个声⾳同时出现了两次,我们就叫做回声,⽐如天坛著名的回声壁。
实际上,这⾥所指的是语⾳交互设备⾃⼰发出的声⾳,⽐如Echo⾳箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的⾳乐和⽤户所叫的Alexa声⾳,显然语⾳识别⽆法识别这两类声⾳。回声抵消就是要去掉其中的⾳乐信息⽽只保留⽤户的⼈声,之所以叫回声抵消,只是延续⼤家的习惯⽽已,其实是不恰当的。
参考
极限元:智能语⾳前端处理中的⼏个关键问题
远场语⾳交互中的麦克风阵列技术解读
⾃然的语⾳交互——麦克风阵列
语⾔模型
语⾔模型是针对某种语⾔建⽴的概率模型,⽬的是建⽴⼀个能够描述给定词序列在语⾔中的出现的概率的分布。
给定下边两句话:
定义机器⼈时代的⼤脑引擎,让⽣活更便捷、更有趣、更安全。
代时⼈机器定义引擎的⼤脑,⽣活让更便捷,有趣更,安更全。
语⾔模型会告诉你,第⼀句话的概率更⾼,更像⼀句”⼈话”。
语⾔模型技术⼴泛应⽤于语⾳识别、OCR、机器翻译、输⼊法等产品上。语⾔模型建模过程中,包括词典、语料、模型选择,对产品的性能有⾄关重要的影响。Ngram模型是最常⽤的建模技术,采⽤了马尔科夫假设,⽬前⼴泛地应⽤于⼯业界。
语⾔模型属于NLP的范畴,这⾥不再赘述。
参考:
语⾔模型技术
声学模型
声学模型主要有两个问题,分别是特征向量序列的可变长和⾳频信号的丰富变化性。
可变长特征向量序列问题在学术上通常有动态时间规划(Dynamic Time Warping, DTW)和隐马尔科夫模型(Hidden Markov Model, HMM)⽅法来解决。
防爆voc在线监测系统
⾳频信号的丰富变化性是由说话⼈的各种复杂特性或者说话风格与语速、环境噪声、信道⼲扰、⽅⾔差异等因素引起的。声学模型需要⾜够的鲁棒性来处理以上的情况。
在过去,主流的语⾳识别系统通常使⽤梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)或者线性感知预测(Perceptual Linear Prediction, PLP)作为特征,使⽤混合⾼斯模型-隐马尔科夫模型(GMM-HMM)作为声学模型。
在近些年,区分性模型,⽐如深度神经⽹络(Deep Neural Network, DNN)在对声学特征建模上表现出更好的效果。基于深度神经⽹络的声学模型,⽐如上下⽂相关的深度神经⽹络-隐马尔科夫模型(CD-DNN-HMM)在语⾳识别领域已经⼤幅度超越了过去的GMM-HMM模型。
参考:
声学模型
解码器技术
解码器模块主要完成的⼯作包括:给定输⼊特征序列的情况下,在由声学模型、声学上下⽂、发⾳词典和语⾔模型等四种知识源组成的搜索空间(Search Space)中,通过维特⽐(Viterbi)搜索,寻最佳词串,使得满⾜:
在解码过程中,各种解码器的具体实现可以是不同的。按搜索空间的构成⽅式来分,有动态编译和静态编译两种⽅式。
静态编译,是把所有知识源统⼀编译在⼀个状态⽹络中,在解码过程中,根据节点间的转移权重获得概率信息。由AT&T提出的Weighted Finite State Transducer(WFST)⽅法是⼀种有效编译搜索空间并消除冗余信息的⽅法。
动态编译,预先将发⾳词典编译成状态⽹络构成搜索空间,其他知识源在解码过程中根据活跃路径上携带的历史信息动态集成。
参考:
语⾳识别之解码器技术简介
⼈类声⾳
成年男性:80-140 Hz
成年⼥性:130-220 Hz
⼉童:180-320 Hz
编织袋折边器
从信号处理的⾓度,⼈类声⾳的处理⽅式和普通的雷达信号处理并⽆本质差异,主要的区别在于:雷达信号经过了载波调制,⽽⼈类声⾳则没有这个步骤。
参考:
⼈声频率范围及各频段⾳⾊效果
建模单元
建模单元是指声⾳建模的最⼩单元。从细到粗,⼀般有state、phoneme、character三级。
描述⼀种语⾔的基本单位被称为⾳素phoneme,例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个⾳素构成的。这种模式也叫做单⾳素monophone模式。
然⽽语⾳没有图像识别那么简单,因为我们再说话的时候很多发⾳都是连在⼀起的,很难区分,所以⼀般⽤左中右三个HMM state来描述⼀个⾳素,也就是说BRYAN这个词中的R⾳素就变成了⽤B-R, R, R-AY三个HMM state来表⽰。这种模式⼜被称作三⾳素triphone模式。
character显然是个最粗的划分,尽管英语是表⾳⽂字,然⽽⼀个字母有多个发⾳,仍然是个普遍现象。模拟温度传感器
在GMM-HMM时代,⼈们倾向于细粒度建模,因为模型越细,效果越好。但DL时代,⼈们更倾向于粗粒度建模,因为这样做,可以加快语⾳识别的解码速度,从⽽可以使⽤更深、更复杂的神经⽹络建模声学模型。

本文发布于:2023-05-18 12:28:38,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/104050.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   模型   声源   混响   空间   形成   技术   波束
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图