一种语音端点检测方法、装置、计算机设备及存储介质与流程

阅读: 评论:0



1.本技术涉及人工智能中的音频处理技术领域,尤其涉及一种针对震动音频的语音端点检测方法、装置、计算机设备及存储介质。


背景技术:



2.vad(针对震动音频的语音端点检测)目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用。然而,非人声噪声会被误检测识别成人声,导致通信带宽资源增加,不仅造成资源浪费,还影响下游语音识别系统识别准确率。
3.现有一种针对震动音频的语音端点检测方法,从声学模型着手,优化声学模型学习方法,输入不同类型的训练数据,使其不断学习非人声噪声语音特征,模型经过多轮迭代推理可以具备更好的非人声噪声学习能力,从而进一步解决模型识别率降低的问题。
4.然而,申请人发现传统的针对震动音频的语音端点检测方法并未从源头解决非人声噪音带来的影响,因为vad模型仍会误检测到非人声片段,而造成带宽资源浪费,由此可见,传统的针对震动音频的语音端点检测方法存在无法识别非人声噪音,从而降低针对震动音频的语音端点检测的准确性。


技术实现要素:



5.本技术实施例的目的在于提出一种针对震动音频的语音端点检测方法、装置、计算机设备及存储介质,以解决传统的针对震动音频的语音端点检测方法存在无法识别非人声噪音,从而降低针对震动音频的语音端点检测的准确性的问题。
6.为了解决上述技术问题,本技术实施例提供一种针对震动音频的语音端点检测方法,采用了如下所述的技术方案:
7.获取与目标场景对应的震动音频数据;
8.对所述震动音频数据进行数据增强操作,得到音频增强数据;
9.根据开源语音识别工具对所述音频增强数据进行特征提取操作,得到音频特征数据;
10.根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述音频特征数据进行特征标注操作,得到音频标注数据;
11.在所述音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;
12.根据所述模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;
13.获取待识别音频;
14.将所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。
15.为了解决上述技术问题,本技术实施例还提供一种针对震动音频的语音端点检测
装置,采用了如下所述的技术方案:
16.震动音频模块,用于获取与目标场景对应的震动音频数据;
17.数据增强模块,用于对所述震动音频数据进行数据增强操作,得到音频增强数据;
18.特征提取模块,用于根据开源语音识别工具对所述音频增强数据进行特征提取操作,得到音频特征数据;
19.特征标注模块,用于根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述音频特征数据进行特征标注操作,得到音频标注数据;
20.训练数据获取模块,用于在所述音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;
21.模型训练模块,用于根据所述模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;
22.待识别音频获取模块,用于获取待识别音频;
23.待识别音频检测模块,用于将所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。
24.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
25.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的针对震动音频的语音端点检测方法的步骤。
26.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
27.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的针对震动音频的语音端点检测方法的步骤。
28.本技术提供了一种针对震动音频的语音端点检测方法,包括:获取与目标场景对应的震动音频数据;对所述震动音频数据进行数据增强操作,得到音频增强数据;根据开源语音识别工具对所述音频增强数据进行特征提取操作,得到音频特征数据;根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述音频特征数据进行特征标注操作,得到音频标注数据;在所述音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;根据所述模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;获取待识别音频;将所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。与现有技术相比,本技术利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本技术应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非人声影响,使vad检测更加精确,提高语音识别准确率,降低带宽资源消耗。
附图说明
29.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1是本技术可以应用于其中的示例性系统架构图;
31.图2是本技术实施例一提供的针对震动音频的语音端点检测方法的实现流程图;
32.图3是图2中步骤s201的一种具体实施方式的流程图;
33.图4是本技术实施例一提供的人声音频特征获取方法的一种具体实施方式的流程图;
34.图5是本技术实施例一提供的梅尔滤波器组获取方法的一种具体实施方式的流程图;
35.图6是图5中步骤s503的一种具体实施方式的流程图;
36.图7是本技术实施例二提供的针对震动音频的语音端点检测装置的结构示意图;
37.图8是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
38.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
39.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
40.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
41.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
42.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
43.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
44.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
45.需要说明的是,本技术实施例所提供的针对震动音频的语音端点检测方法一般由
服务器/终端设备执行,相应地,针对震动音频的语音端点检测装置一般设置于服务器/终端设备中。
46.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
47.实施例一
48.继续参考图2,示出了本技术实施例一提供的针对震动音频的语音端点检测方法的实现流程图,为了便于说明,仅示出与本技术相关的部分。
49.上述的针对震动音频的语音端点检测方法,包括以下步骤:
50.步骤s201:获取与目标场景对应的震动音频数据。
51.在本技术实施例中,震动音频数据指的是以震动的形式存在的非人声噪声,作为示例,例如手机来电时手机震动发出的噪声。
52.步骤s202:对震动音频数据进行数据增强操作,得到音频增强数据。
53.在本技术实施例中,由于手机震动音频片段不足,先将音频复制10倍,此外我们采用了音速扰动、音量扰动以及加噪音等数据增强方法来进一步扩充数据。其中,音速扰动,利用sox命令来完成,主要是在原音频基础上,加快或者减慢语速的方式来生成不同语速的音频,本技术训练数据共设置三个语速系数,分别为0.9,1.0,1.1。音量扰动的操作方法如音速扰动,也是利用sox命令,在原始音频基础上,通过随机音量系数,来加大或较小音量,生成音量大小不一的新音频。最后,基于原始音频叠加噪音,生成含有背景噪音的手机震动音频。
54.步骤s203:根据开源语音识别工具对音频增强数据进行特征提取操作,得到音频特征数据。
55.在本技术实施例中,对新生成的手机震动数据利用kaldi提供的脚本提取13维mfcc特征,生成feats.scp文件,此方法是语音任务中较主流的特征提取方式。
56.步骤s204:根据预设的标准音频特征以及与标准音频特征对应的特征标签对音频特征数据进行特征标注操作,得到音频标注数据。
57.在本技术实施例中,标准音频特征包括静音音频特征、人声音频特征以及震动音频特征,与静音音频特征对应的特征标签为0,与人声音频特征对应的特征标签为1,与震动音频特征对应的特征标签为2。
58.在本技术实施例中,本技术问题背景是手机震动音频片段被vad模型判别成人声发音,因此在处理震动音频对应的样本标签时,需要将其设置为静音。此算法主要思想是,mfcc特征提取以帧为单位,首先计算每通音频中手机震动片段所占的帧数,对于手机震动片段每帧特征对应的标签设定为2(0-静音,1-人声,2-噪声),其他静音帧设定为0,人声帧设定为1。如此生成target文件ali.ark。
59.步骤s205:在音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据。
60.在本技术实施例中,数据处理完后,需要调整数据比例,再作为训练数据输入到模型去学习,其中,训练数据分为三部分,分别为手机震动数据、业务语音数据和人声噪音数据。
61.步骤s206:根据模型训练数据对初始vad模型进行模型训练操作,得到目标vad模
型。
62.步骤s207:获取待识别音频。
63.步骤s208:根据待识别音频输入至目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。
64.在本技术实施例中,提供了一种针对震动音频的语音端点检测方法,包括:获取与目标场景对应的震动音频数据;对震动音频数据进行数据增强操作,得到音频增强数据;根据开源语音识别工具对音频增强数据进行特征提取操作,得到音频特征数据;根据预设的标准音频特征以及与标准音频特征对应的特征标签对增强音频特征进行特征标注操作,得到音频标注数据,其中,标准音频特征包括静音音频特征、人声音频特征以及震动音频特征,与静音音频特征对应的特征标签为0,与人声音频特征对应的特征标签为1,与震动音频特征对应的特征标签为2;在音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;根据模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;获取待识别音频;根据待识别音频输入至目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。与现有技术相比,本技术利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本技术应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非人声影响,使vad检测更加精确,提高语音识别准确率,降低带宽资源消耗。
65.继续参阅图3,示出了图2中步骤s201的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
66.在本实施例的一些可选的实现方式中,步骤s201具体包括:
67.步骤s301:获取与目标场景相对应的场景音频数据;
68.步骤s302:根据ffmpeg工具对场景音频数据进行切割操作,得到震动音频数据。
69.在本技术实施例中,ffmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用lgpl或gpl许可证。它提供了录制、转换以及流化音视频的完整解决方案。
70.在本实施例的一些可选的实现方式中,所述标准音频特征包括震动音频特征、人声音频特征以及静音音频特征,预设比例为:
71.p1∶p2∶p3=1∶(30~50)∶4
72.其中,p1表示震动音频特征;p2表示人声音频特征;p3表示静音音频特征。
73.在本技术实施例中,经过多次实验,调整参数尝试不同数据比例,手机震动、业务语音数据和人声噪音数据效果最优比例为1∶33∶4。此前尝试只加手机震动音频去基于basevad微调,发现效果并不明显,也尝试震动、噪音和业务语音以比例1∶14∶2,对安静情况下的手机震动可以很好的检测准确,嘈杂环境手机震动不能识别准确,且由于finetune训练时,业务语音数据比例并不足够,导致业务测试集准确率下降了10个点左右。于是想到增大噪音数据和业务语音数据比值,经过vad模型训练学习,测试发现既可以在安静环境下准确的检测到手机震动,也可以在嘈杂环境精准识别到震动音,且该业务asr识别率提升1.2个点。最后回归测试20多个业务测试集准确率,和basevad对比,使用我们新训练的vad语音
识别准确率整体上下浮动0.1个点。说明新训练vad模型在不影响其他业务准确率情况下,可以很好的解决震动音误识别问题个,从而提高该业务的识别率,降低不必要的带宽资源浪费。
74.继续参阅图4,示出了本技术实施例一提供的人声音频特征获取方法的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
75.在本实施例的一些可选的实现方式中,在步骤s204之前,还包括:
76.步骤s401:获取与目标场景对应的常规人声音频;
77.步骤s402:根据快速傅里叶变换将常规人声音频的时间域转换为频率域;
78.步骤s403:根据梅尔滤波器组对转换后的常规人声音频进行滤波处理,得到人声音频特征。
79.在本技术实施例中,在获取常规人声音频后,对音频信息进行预处理,以达到加强语音信号性能的目的,之后对音频信息进行快速傅里叶变换,以使音频信息由时间域转换为频率域,并将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理,从而得到音频信息的音频特征向量。
80.继续参阅图5,示出了本技术实施例一提供的梅尔滤波器组获取方法的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
81.在本实施例的一些可选的实现方式中,在步骤s402之前,还包括:
82.步骤s501:获取与训练音频数据相对应的训练语种信息。
83.步骤s502:调用与训练语种信息相对应的预设数量个调用滤波器进行顺序排列,得到初始梅尔滤波器组。
84.步骤s503:确定初始梅尔滤波器组中每个调用滤波器的起始梅尔频率以及终止梅尔频率,得到梅尔滤波器组。
85.在本技术实施例中,在获取音频信息后,进行音频信息的预处理的同时,还会对音频信息的语种进行分析,从而确定音频信息对应的语种信息,即当前音频信息是通过哪一种语种输出的,是英语还是汉语,或者日语等。
86.在本技术实施例中,在获取语种信息后,由于不同的语种信息,其音频的发音频响侧重点不同,因此,在获取语种信息后,需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率,以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后,能够将音频信息的语种特点突出,以达到基于语种信息的特点对音频信息的音频特征向量经过获取,从而达到对音频信息精确识别的目的。
87.继续参阅图6,示出了图5中步骤s503的一种具体实施方式的流程图,为了便于说明,仅示出与本技术相关的部分。
88.在本实施例的一些可选的实现方式中,步骤s503具体包括:
89.步骤s601:根据训练语种信息确定第一起始频率算法以及第二起始频率算法,其中,所述第一起始频率算法表示为:
[0090][0091]
所述第二起始频率算法表示为:
[0092][0093]
其中,f表示转换为梅尔频谱后的最大频率;i=1,2,

,m,当确定某个梅尔滤波器的中心频率时,公式中的fi即表示第i个梅尔滤波器的中心频率;当确定某个梅尔滤波器的特定初始梅尔频率时,公式中的fi-1表示第i个梅尔滤波器的特定初始梅尔频率;当确定某个梅尔滤波器的特定终止梅尔频率时,通过fi+1表示第i个梅尔滤波器的特定终止梅尔频率。
[0094]
在本技术实施例中,作为示例,例如:确定第k个梅尔滤波器的中心频率时,公式中的i与k相等,当确定第k个梅尔滤波器的特定终止梅尔频率时,公式中的i与k-1相等。
[0095]
步骤s602:根据第一起始频率算法确定梅尔滤波器组中第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率,并根据第二起始频率算法确定梅尔滤波器组中第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率,其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数;
[0096]
步骤s603:根据第一起始频率算法确定梅尔滤波器组中第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率,并根据第二起始频率算法确定梅尔滤波器组中第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率,其中,每个梅尔滤波器的特定终止梅尔频率为梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
[0097]
需要强调的是,为进一步保证上述目标语音端点的私密和安全性,上述目标语音端点还可以存储于一区块链的节点中。
[0098]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0099]
本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0100]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0101]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤
的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0102]
实施例二
[0103]
进一步参考图7,作为对上述图2所示方法的实现,本技术提供了一种针对震动音频的语音端点检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0104]
如图7所示,本实施例所述的针对震动音频的语音端点检测装置200包括:震动音频模块210、数据增强模块220、特征提取模块230、特征标注模块240、训练数据获取模块250、模型训练模块260、待识别音频获取模块270以及待识别音频检测模块280。其中:
[0105]
震动音频模块210,用于获取与目标场景对应的震动音频数据;
[0106]
数据增强模块220,用于对震动音频数据进行数据增强操作,得到音频增强数据;
[0107]
特征提取模块230,用于根据开源语音识别工具对音频增强数据进行特征提取操作,得到音频特征数据;
[0108]
特征标注模块240,用于根据预设的标准音频特征以及与标准音频特征对应的特征标签对音频特征数据进行特征标注操作,得到音频标注数据;
[0109]
训练数据获取模块250,用于在音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;
[0110]
模型训练模块260,用于根据模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;
[0111]
待识别音频获取模块270,用于获取待识别音频;
[0112]
待识别音频检测模块280,用于将待识别音频输入至目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。
[0113]
在本技术实施例中,震动音频数据指的是以震动的形式存在的非人声噪声,作为示例,例如手机来电时手机震动发出的噪声。
[0114]
在本技术实施例中,由于手机震动音频片段不足,先将音频复制10倍,此外我们采用了音速扰动、音量扰动以及加噪音等数据增强方法来进一步扩充数据。其中,音速扰动,利用sox命令来完成,主要是在原音频基础上,加快或者减慢语速的方式来生成不同语速的音频,本技术训练数据共设置三个语速系数,分别为0.9,1.0,1.1。音量扰动的操作方法如音速扰动,也是利用sox命令,在原始音频基础上,通过随机音量系数,来加大或较小音量,生成音量大小不一的新音频。最后,基于原始音频叠加噪音,生成含有背景噪音的手机震动音频。
[0115]
在本技术实施例中,对新生成的手机震动数据利用kaldi提供的脚本提取13维mfcc特征,生成feats.scp文件,此方法是语音任务中较主流的特征提取方式。
[0116]
在本技术实施例中,本技术问题背景是手机震动音频片段被vad模型判别成人声发音,因此在处理震动音频对应的样本标签时,需要将其设置为静音。此算法主要思想是,mfcc特征提取以帧为单位,首先计算每通音频中手机震动片段所占的帧数,对于手机震动片段每帧特征对应的标签设定为2(0-静音,1-人声,2-噪声),其他静音帧设定为0,人声帧
设定为1。如此生成target文件ali.ark。
[0117]
在本技术实施例中,数据处理完后,需要调整数据比例,再作为训练数据输入到模型去学习,其中,训练数据分为三部分,分别为手机震动数据、业务语音数据和人声噪音数据。
[0118]
在本技术实施例中,提供了一种针对震动音频的语音端点检测装置200,包括:震动音频模块210,用于获取与目标场景对应的震动音频数据;数据增强模块220,用于对震动音频数据进行数据增强操作,得到音频增强数据;特征提取模块230,用于根据开源语音识别工具对音频增强数据进行特征提取操作,得到音频特征数据;特征标注模块240,用于根据预设的标准音频特征以及与标准音频特征对应的特征标签对增强音频特征进行特征标注操作,得到音频标注数据,其中,标准音频特征包括静音音频特征、人声音频特征以及震动音频特征,与静音音频特征对应的特征标签为0,与人声音频特征对应的特征标签为1,与震动音频特征对应的特征标签为2;训练数据获取模块250,用于在音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;模型训练模块260,用于根据模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;待识别音频获取模块270,用于获取待识别音频;待识别音频检测模块280,用于根据待识别音频输入至目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。与现有技术相比,本技术利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本技术应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非人声影响,使vad检测更加精确,提高语音识别准确率,降低带宽资源消耗。
[0119]
在本实施例的一些可选的实现方式中,上述针对震动音频的语音端点检测装置100还包括:人声音频获取模块、域转换模块以及滤波处理模块,其中:
[0120]
人声音频获取模块,用于获取与目标场景对应的常规人声音频;
[0121]
域转换模块,用于根据快速傅里叶变换将常规人声音频的时间域转换为频率域;
[0122]
滤波处理模块,用于根据梅尔滤波器组对转换后的常规人声音频进行滤波处理,得到人声音频特征。
[0123]
在本实施例的一些可选的实现方式中,所述标准音频特征包括震动音频特征、人声音频特征以及静音音频特征,预设比例为:
[0124]
p1∶p2∶p3=1∶(30~50)∶4
[0125]
其中,p1表示震动音频特征;p2表示人声音频特征;p3表示静音音频特征。
[0126]
在本技术实施例中,经过多次实验,调整参数尝试不同数据比例,手机震动、业务语音数据和人声噪音数据效果最优比例为1∶33∶4。此前尝试只加手机震动音频去基于basevad微调,发现效果并不明显,也尝试震动、噪音和业务语音以比例1:14:2,对安静情况下的手机震动可以很好的检测准确,嘈杂环境手机震动不能识别准确,且由于finetune训练时,业务语音数据比例并不足够,导致业务测试集准确率下降了1o个点左右。于是想到增大噪音数据和业务语音数据比值,经过vad模型训练学习,测试发现既可以在安静环境下准确的检测到手机震动,也可以在嘈杂环境精准识别到震动音,且该业务asr识别率提升1.2个点。最后回归测试20多个业务测试集准确率,和basevad对比,使用我们新训练的vad语音
识别准确率整体上下浮动0.1个点。说明新训练vad模型在不影响其他业务准确率情况下,可以很好的解决震动音误识别问题个,从而提高该业务的识别率,降低不必要的带宽资源浪费。
[0127]
在本实施例的一些可选的实现方式中,上述针对震动音频的语音端点检测装置100还包括:语种信息获取子模块、顺序排列子模块以及频率确定子模块,其中:
[0128]
语种信息获取子模块,用于获取与训练音频数据相对应的训练语种信息;
[0129]
顺序排列子模块,用于调用与训练语种信息相对应的预设数量个调用滤波器进行顺序排列,得到初始梅尔滤波器组;
[0130]
频率确定子模块,用于确定初始梅尔滤波器组中每个调用滤波器的起始梅尔频率以及终止梅尔频率,得到梅尔滤波器组。
[0131]
在本技术实施例中,在获取音频信息后,进行音频信息的预处理的同时,还会对音频信息的语种进行分析,从而确定音频信息对应的语种信息,即当前音频信息是通过哪一种语种输出的,是英语还是汉语,或者日语等。
[0132]
在本技术实施例中,在获取语种信息后,由于不同的语种信息,其音频的发音频响侧重点不同,因此,在获取语种信息后,需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率,以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后,能够将音频信息的语种特点突出,以达到基于语种信息的特点对音频信息的音频特征向量经过获取,从而达到对音频信息精确识别的目的。
[0133]
在本实施例的一些可选的实现方式中,上述频率确定子模块包括:方式确定单元、起始频率确定单元以及终止频率确定单元,其中:
[0134]
方式确定单元,用于根据训练语种信息确定第一起始频率算法以及第二起始频率算法;
[0135]
起始频率确定单元,用于根据第一起始频率算法确定梅尔滤波器组中第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率,并根据第二起始频率算法确定梅尔滤波器组中第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率,其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数;
[0136]
终止频率确定单元,用于根据第一起始频率算法确定梅尔滤波器组中第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率,并根据第二起始频率算法确定梅尔滤波器组中第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率,其中,每个梅尔滤波器的特定终止梅尔频率为梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
[0137]
在本技术实施例中,所述第一起始频率算法表示为:
[0138][0139]
所述第二起始频率算法表示为:
[0140][0141]
其中,f表示转换为梅尔频谱后的最大频率;i=1,2,

,m,当确定某个梅尔滤波器的中心频率时,公式中的fi即表示第i个梅尔滤波器的中心频率;当确定某个梅尔滤波器的特定初始梅尔频率时,公式中的fi-1表示第i个梅尔滤波器的特定初始梅尔频率;当确定某
个梅尔滤波器的特定终止梅尔频率时,通过fi+1表示第i个梅尔滤波器的特定终止梅尔频率,例如:确定第k个梅尔滤波器的中心频率时,公式中的i与k相等,当确定第k个梅尔滤波器的特定终止梅尔频率时,公式中的i与k-1相等。
[0142]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
[0143]
所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0144]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0145]
所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如针对震动音频的语音端点检测方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0146]
所述处理器320在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据,例如运行所述针对震动音频的语音端点检测方法的计算机可读指令。
[0147]
所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
[0148]
本技术提供的计算机设备,利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本技术应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非
人声影响,使vad检测更加精确,提高语音识别准确率,降低带宽资源消耗。
[0149]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的针对震动音频的语音端点检测方法的步骤。
[0150]
本技术提供的计算机可读存储介质,利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本技术应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非人声影响,使vad检测更加精确,提高语音识别准确率,降低带宽资源消耗。
[0151]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0152]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:


1.一种针对震动音频的语音端点检测方法,其特征在于,包括下述步骤:获取与目标场景对应的震动音频数据;对所述震动音频数据进行数据增强操作,得到音频增强数据;根据开源语音识别工具对所述音频增强数据进行特征提取操作,得到音频特征数据;根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述音频特征数据进行特征标注操作,得到音频标注数据;在所述音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;根据所述模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;获取待识别音频;将所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。2.根据权利要求1所述的针对震动音频的语音端点检测方法,其特征在于,所述获取与目标场景对应的震动音频数据的步骤,具体包括下述步骤:获取与目标场景相对应的场景音频数据;根据ffmpeg工具对所述场景音频数据进行切割操作,得到所述震动音频数据。3.根据权利要求1所述的针对震动音频的语音端点检测方法,其特征在于,所述标准音频特征包括震动音频特征、人声音频特征以及静音音频特征的预设比例为:p1:p2:p3=1:(30~50):4其中,p1表示所述震动音频特征;p2表示所述人声音频特征;p3表示所述静音音频特征。4.根据权利要求1所述的针对震动音频的语音端点检测方法,其特征在于,在所述根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述增强音频特征进行特征标注操作,得到音频标注数据的步骤之前,还包括下述步骤:获取与所述目标场景对应的常规人声音频;根据快速傅里叶变换将所述常规人声音频的时间域转换为频率域;根据梅尔滤波器组对转换后的常规人声音频进行滤波处理,得到所述人声音频特征。5.根据权利要求4所述的针对震动音频的语音端点检测方法,其特征在于,其特征在于,在所述根据梅尔滤波器组对转换后的常规人声音频进行滤波处理,得到所述常规人声音频的步骤之前,还包括下述步骤:获取与所述常规人声音频相对应的训练语种信息;调用与所述训练语种信息相对应的预设数量个调用滤波器进行顺序排列,得到初始梅尔滤波器组;确定所述初始梅尔滤波器组中每个所述调用滤波器的起始梅尔频率以及终止梅尔频率,得到所述梅尔滤波器组。6.根据权利要求5所述的针对震动音频的语音端点检测方法,其特征在于,所述确定所述初始梅尔滤波器组中每个所述调用滤波器的起始梅尔频率以及终止梅尔频率,得到所述梅尔滤波器组的步骤,具体包括下述步骤:根据所述训练语种信息确定第一起始频率算法以及第二起始频率算法,其中,所述第一起始频率算法表示为:
所述第二起始频率算法表示为:其中,f表示转换为梅尔频谱后的最大频率;i=1,2,

,m,当确定某个梅尔滤波器的中心频率时,公式中的fi即表示第i个梅尔滤波器的中心频率;当确定某个梅尔滤波器的特定初始梅尔频率时,公式中的fi-1表示第i个梅尔滤波器的特定初始梅尔频率;当确定某个梅尔滤波器的特定终止梅尔频率时,通过fi+1表示第i个梅尔滤波器的特定终止梅尔频率;根据所述第一起始频率算法确定所述梅尔滤波器组中第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率,并根据所述第二起始频率算法确定所述梅尔滤波器组中第k+1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率,其中,k为小于预设数量与1的和的一半的正整数,且k+1为大于或等于预设数量与1的和的一半的正整数;根据所述第一起始频率算法确定所述梅尔滤波器组中第k-1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率,并根据所述第二起始频率算法确定所述梅尔滤波器组中第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率,其中,每个梅尔滤波器的特定终止梅尔频率为所述梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。7.根据权利要求1所述的针对震动音频的语音端点检测方法,其特征在于,在所述根据所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点的步骤之后,还包括下述步骤:将所述目标语音端点存储至区块链中。8.一种针对震动音频的语音端点检测装置,其特征在于,包括:震动音频模块,用于获取与目标场景对应的震动音频数据;数据增强模块,用于对所述震动音频数据进行数据增强操作,得到音频增强数据;特征提取模块,用于根据开源语音识别工具对所述音频增强数据进行特征提取操作,得到音频特征数据;特征标注模块,用于根据预设的标准音频特征以及与所述标准音频特征对应的特征标签对所述音频特征数据进行特征标注操作,得到音频标注数据;训练数据获取模块,用于在所述音频标注数据中获取预设比例的静音音频特征、人声音频特征以及震动音频特征,得到模型训练数据;模型训练模块,用于根据所述模型训练数据对初始vad模型进行模型训练操作,得到目标vad模型;待识别音频获取模块,用于获取待识别音频;待识别音频检测模块,用于将所述待识别音频输入至所述目标vad模型进行针对震动音频的语音端点检测操作,得到目标语音端点。9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的针对震动音频的语音端点检测方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机
可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的针对震动音频的语音端点检测方法的步骤。

技术总结


本申请实施例属于人工智能中的音频处理技术领域,涉及一种针对震动音频的语音端点检测方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的目标语音端点可存储于区块链中。本申请利用业务实际场景有效数据做数据增强,缓解手机震动等非人声噪音数据缺乏的问题,从而解决模型训练中因为震动数据稀疏导致模型学习效果不佳的痛点问题,同时,本申请应用的调整数据比例技巧,可以使模型在不影响其他业务识别率情况下,同时解决安静和嘈杂有背景人声环境下震动误识别问题,从根源上消除非人声影响,使VAD检测更加精确,提高语音识别准确率,降低带宽资源消耗。降低带宽资源消耗。降低带宽资源消耗。


技术研发人员:

谭风云 魏韬 马骏 王少军

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.08.17

技术公布日:

2022/11/22

本文发布于:2022-11-25 12:46:39,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/2407.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   特征   所述   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图