语音识别技术文献综述

阅读: 评论:0

行线槽语音识别技术综述
The summarization of speech recognition
张永双
苏州大学 苏州 江苏
摘要
本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。
关键词:语音识别;特征;匹配
Abstact
This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the d
irection and the issues which speech recognition technology development may confront with.
Key words: speech recognition;character;matching
引言
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科所涉及的领域信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。
1.语音识别技术的发展历史
语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。
60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning, DP)和线性预测分析(Linear Predict, LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。
70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding, LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠定了重要的基础。
80年代,连续语音识别成为语音识别的研究重点之一。Meyers和Rabiner研究出多级动态规划语音识别算法(Level Building,LB)这一连续语音识别算法。80年代另一个重要的发展是概率统计方法成为语音识别研究方法的主流,其显著特征是HMM模型在语音识别中的成功应用。1988年,美国卡内基-梅隆大学(CMU)用VQ/HMM方法实现了997词的非特定人连续语音识别系统SPHINX。在这一时期,人工神经网络在语音识别中也得到成功应用。
进入90年代后,随着多媒体时代的来临,迫切要求语音识别系统从实验走向实用,许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统实用化的开发研究投以巨资。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dectate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率。
当前,美国在非特定人大词汇表连续语音隐马尔可夫模型识别方面起主导作用,而日本则在大词汇表连续语音神经网络识别、模拟人工智能进行语音后处理方面处于主导地位。
国在七十年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段。直到八十年代后期,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,四川大学和西北工业大学等科研机构和高等院校,大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于起步晚、基础薄弱,计算机水平不发达,导致在整个八十年代,我国在语音识别研究方面并没有形成自己的特,更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了,在“八五”、“九五”国家科技攻关
计划、国家自然科学基金、国家863计划的支持下,我国在中文语音技术的基础研究方面也取得了一系列成果。在语音合成技术方面,中国科大讯飞公司已具有国际上最领先的核心技术;中科院声学所也在长期积累的基础上,研究开发出颇具特的产品:在语音识别技术方面,中科院自动化所具有相当的技术优势:社科院语言所在汉语言学及实验语言科学方面同样具有深厚的积累。但是,这些成果并没有得到很好的应用,没有转化成产业;相反,中文语音技术在技术、人才、市场等方面正面临着来自国际竞争环境中越来越严峻的挑战和压力。
2.语音识别系统的结构
主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分,图2-1给出了语音识别系统的基本结构。
图2-1 语音识别系统的基本结构图
语音识别的过程是一个模式识别匹配的过程。在这个过程中,首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模式。而在识别过程中要根据语音识别的整体模型,将输入的语音信号的特征与已经存在的语音模式进行比较,根据一定的搜索和匹配策略,出一系列最优的与输入的语音相匹配的模式。然后,根据此模式号的定义,通过查表就可以给出计算机的识别结果。
3.语音识别系统的分类
根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
4.语音识别系统的基本识别方法
一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。
4.1基于语音学和声学的方法
该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段还没有达到实用的阶段。
4.2模式匹配的方法
模式匹配方法的发展比较成熟,目前已达到实用阶段。在模式匹配方法中,需经过四个步骤:特征提取、模式训练、模式识别和判决。
4.2.1特征提取
特征提取方法主要采用以下三种: 基于LPC的倒谱参数(LPCC)分析法,基于Mel系数的Mel频标倒谱系数(MPCC)分析法,基于现代处理技术的小波变换系数分析法。在这些方法中,MFCC方法比LPCC方法的识别效果稍好一些,而且MFCC符合人们的听觉特性,在有信道噪声和频谱失真的情况下具有较好的稳健性,其不足之处是MFCC方法中多次用到FFT,故算法的复杂程度远大于LPCC方法。因此,在安静的环境下,目前比较成熟和最常用的语音特征提取方法还是LPCC方法。在条件不好的环境下,则宜选用MFCC方法。而小波变换法则是一种新兴的理论工具,要获得较高的识别率还有许多问题有待研究,但与经典的方法相比,小波变换法有着计算量小、复杂程度低、识别效果好等许多优点,研究前景十分乐观,是研究发展的一个方向。
4.2.2模式识别
模式识别常用技术有三种:动态时间规整(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)。
(1)动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤扬声器结构它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置从语音信号中排除无声段。在早期挤压爆破进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60 年代日本学者Itakura 提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短直到与参考模式的长度一致。在这一过程中未知单词的时间轴要不均匀地扭曲或弯折以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时在小词汇量、孤立字() 识别系统中也已有许多改进的DTW 算法提出。
(2)隐马尔可夫模型(HMM)
隐马尔可夫模型是20世纪70年代引入语音识别理论的它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HM
M 模型的。HMM是对语音信号的时间序列结构建立统计模型将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程语音信号本身是一个可观测的时变序列是由大脑根据语法知识和言语需要(机器人电主轴不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程很好地描述了语音信号的整体非平稳性和局部平稳性是较为理想的一种语音模型。
(3)矢量量化(VQ)
矢量量化是一种重要的信号压缩方法。与HMM 相比矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k 石膏增强剂个样点的每一帧或有k 个参数的每一参数帧构成k维空间中的一个矢量然后对矢量进行量化。量化时k 维无限空间划分为M 个区域边界然后将输入矢量与这些边界进行比较并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书从实际效果出发寻到好的失真测度定义公式设计出最佳的矢量量化系统用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。
4.3人工神经网络的方法
高尔夫球场围网利用人工神经网络的方法是80 年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统模拟了人类神经活动的原理具有自适应性、并行性、鲁棒性、容错性和学习特性其强的分类能力和输入- 输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点目前仍处于实验探索阶段。由于ANN 不能很好的描述语音信号的时间动态特性所以常把ANN 与传统识别方法结合分别利用各自优点来进行语音识别。

本文发布于:2023-06-27 04:49:09,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/153980.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   识别   技术   方法   信号   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图