玻璃砖墙2020.10
焗油机1概述
随着电子通信设备的普及和自媒体行业的迅速壮
大,图像、视频、音频等多媒体信息在生活中无处不在。在音频信息处理领域,音频分割是指在一段音频中区分出噪声和语音,来确定语音的起止点。音频分割工作是对音频最基本的处理,对后续的分类、进一步检测等操作起着非常重要的作用。传统的音频分割仅靠人工来识别,简单枯燥、用时长、效率低而且耗时耗力,难以面对信息世界的大爆炸。随着科技快速发展,人们的生活越来越离不开计算机,它不但能够完成音频数据的传输,还能够实现音频识别、场景分类等工作。在计算机的帮助下,人们可以快速大量地进行音频信号的处理。 现在国内外的分割方法主要有以下4类。第一类是基于距离的音频分割方法,主要通过调整阈值来判断分割点,该方法需要设定阈值,推广性不好,但对实时音频友好,可以随时检测并调整外界环境的度量因子[1]。第二类是基于贝叶斯信息准则的音频分割方法,也叫做基于模型选择的分割方法,该方法应用效果较好,但缺点也十分明显,容易产生误差导致误检,并且计算时间长,不具备实时性[2]。第三类方法是基于模型的,可依据声学特征建立不同类别的音频模型,但需事先训练模型,对未知的场景没有检验能力,难以推广使用。最后一类是解码器分割算法,主要用于检测音频中的静音片段,来确定有声片段
和无声片段的间断点,并没有利用到汉字中语音的声学特点,所以这种方法在有噪声的情况下和有背景音乐的情况下不能很好地完成检测,故应用相对较少。
选取若干段长度不等的语音录音作为研究对象,选用3种方法进行分割实验:双门限检测法、频带方差端点检测法和自相关函数最大值的端点检测,最后对结果
进行比较及分析。
2音频分割
基于端点检测的音频分割算法,是在一段语音信号
摇摇棒震动开关
中,到有效语音段的起始点和终止点的位置,并在此基础上,完成语音片段的分离。主要是利用说话人在讲话时音频信号发生的变化,通过提取信号中的特征参数并与临界值进行比较,把说话人的片段与空白片段或噪音片段区分开。包括以下4步:
(1)对音频信号进行预处理,分帧加窗。(2)对音频片段进行特征提取,并比较语音和噪声的差异。
(3)每个参数选择门限值,用于检测、分割。(4)进行端点检测,出语音段和静音段。
2.1双门限检测法
直排溜冰鞋教程
一次性杯架一般的音频信号在刚开始的一小段时间内,没有掺
杂任何语音信号,但是存在背景音,不会是绝对的静音片段。双门限检测法利用语音信号短时能量和短时过零率两个特征,通过观察语音信号图,来区分静音部分和噪音部分[3]。声波的振幅一般都很小,而语音部分的振幅会相对增大,一个信号的振幅可以直接反映信号能量的大小。由此得出:语音片段的短时能量比较大。另一方面,汉语中一个字的发音包括声母和韵母,韵母中的元音能量较大,可以通过短时能量到语音中的韵母;声母由辅音构成,辅音的频率较高,故声母的短时过零率较大,进而可以利用上述原理到整个音节[4]。基金项目:太原师范学院教学质量工程项目(KC⁃SZ2024);山西省高等学校科技创新项目(2019L0800)。作者简介:王琳(1992-),女,助教,硕士,研究方
向:声音信号处理;阴桂梅,副教授,硕士。
基于端点检测的语音分割方法
王琳,阴桂梅,陈国梅
(太原师范学院计算机系,山西晋中030619)
摘
要:在音频信息处理领域,音频分割对音频的分类、识别等工作有着重要的影响。采用3种端点检测方法进行实验,分别是双门限检测法、频带方差端点检测法和自相关函数最大值端点检测法。结果证明,双门限检测法效果更优,可将语音音频中的语音片段和非语音片段进行有效分割。关键词:
音频分割;端点检测;双门限检测法
151
>直链烷基苯