语音识别的端点检测

阅读: 评论:0

语⾳识别的端点检测
端点检测的概念
端点检测,也叫语⾳活动检测,Voice Activity Detection,VAD,它的⽬的是对语⾳和⾮语⾳的区域进⾏区分。通俗来理解,端点检测就是为了从带有噪声的语⾳中准确的定位出语⾳的开始点,和结束点,去掉静⾳的部分,去掉噪声的部分,到⼀段语⾳真正有效的内容。
在噪声环境下使⽤语⾳识别系统,或者讲话⼈产⽣情绪或⼼⾥上的变化,导致发⾳失真、发⾳速度和⾳调改变,都会产⽣Lombard/Loud 效应。研究表明,即使在安静的环境下,语⾳识别系统⼀半以上的识别错误来⾃端点检测器。
端点检测的分类
VAD 算法可以粗略的分为三类:基于阈值的 VAD、作为分类器的 VAD、模型 VAD。
基于阈值的 VAD:通过提取时域(短时能量、短期过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语⾳和⾮语⾳的⽬的。这是传统的 VAD ⽅法。
作为分类器的 VAD:可以将语⾳检测视作语⾳/⾮语⾳的两分类问题,进⽽⽤机器学习的⽅法训练分类器,达到检测语⾳的⽬的。
模型 VAD:可以利⽤⼀个完整的声学模型(建模单元的粒度可以很粗),在解码的基础,通过全局信息,判别语⾳段和⾮语⾳段。
VAD 作为整个流程的最前端,需要在本地实时的完成。由于计算资源⾮常有限,因此,VAD ⼀般会采⽤阈值法中某种算法;经过⼯程优化的分类法也可能被利⽤;⽽模型 VAD ⽬前难以在本地部署应⽤。
教室直播系统端点检测处理的好,不仅将处理的时间序列变⼩,还能消除⽆声段道噪声。
钩子程序端点检测的原理
为了能更清楚说明端点检测的原理,录制了⼀段⾳频,并且将语⾳信号截取了⼏部分。
开始,有⽚刻的准备⼯作,并未发出声⾳
脱墨纸
第⼀次讲”你好”
第⼆次讲”你好”
第三次伪装了声⾳讲”你好”
可以看到如下特点:
1. ⾸尾的静⾳部分声波的振幅很⼩,⽽有效语⾳”你好”部分的振幅⽐较⼤。
2. ⼀个信号的振幅表⽰了信号能量的⼤⼩,从直观上明显看出静⾳的部分能量值较⼩,有效语⾳部分的能量值较⼤。
金玻璃
3. ⾸尾没有讲话,缺依然有能量值,并且能量值有变化。
4. 在没有特别的伪装和⼲扰的情况下,两次讲你好的振幅,即信号是⼀样的。
人脸识别数据标注5. 第三次由于伪装了声⾳,所以导致振幅同上⾯两次不⼀样,并且由于刻意的伪装,导致第三次的波长度和前两次明显不⼀样。
由此可以了解到端点检测中涉及到的⼀些概念:
噪声:背景⾳称之为噪声。有外界环境的噪声,也有设备本⾝的噪声。在实际使⽤中,如果出现长时间的静默,会使⽤户感到很不⾃然。因此接收端常常会在静⾳期间发送⼀些分组,从⽽⽣成使⽤户感觉舒服⼀些的背景噪声,即所谓的舒适噪声。
静⾳:连续若⼲帧能量值持续维持在低⽔平。理想情况下静⾳能量值为0,但实际⽆法做到,因为⼀般有背景⾳,⽽背景⾳有基础能量值。
4g视频监控端点:静⾳和有效语⾳信号变化临界点。
在实际应⽤中,⽐如说电话通话时,⽤户没有讲话时,就没有语⾳分组的发送,从⽽可以进⼀步降低语⾳⽐特率。当⽤户的语⾳信号能量低于⼀定门限值时就认为是静默状态,也不发送语⾳分组。当检测到突发的活动声⾳时才⽣成语⾳信号,并加以传输。运⽤这种技术能够获得⼤于50%的带宽。
同理,在实际测试过程中我们也需要考虑⾮连续性说话,⽐如⼝吃、犹豫、吞吞吐吐时,语⾔的识别准确性,避免断点检测环节处理出现异常或者不合理的情况。

本文发布于:2023-05-18 12:27:05,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/104424.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   端点   能量   噪声   信号   部分
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图