1.本发明涉及
语音处理技术领域,尤其涉及一种语音活性检测方法、装置、设备及计算机可读存储介质。
背景技术:
2.蓝牙耳机的功耗是业界重点关注的指标,有效的减少算法的运算量,降低功耗,可以提高耳机的续航能力,较长时间待机的同时可以给用户带来更好的体验。目前,耳机除了听音乐、通话等常见功能外,人机交互愈发成为当下的发展主流,而人机交互需要长时间用到语音活性检测,如何在保证语音活性检测准确率的同时,尽可能降低功耗,称为亟待解决的问题。
技术实现要素:
3.本发明的主要目的在于提供一种语音活性检测方法、装置、设备及计算机可读存储介质,旨在提供一种基于语音
模型匹配和骨声纹传感器的语音活性检测方案,在保证语音活性检测准确率的同时降低功耗。
4.为实现上述目的,本发明提供一种语音活性检测方法,
所述语音活性检测方法包括以下步骤:
5.获取通过骨传导传感器录取的待检录音
数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;
6.将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;
7.其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。
8.可选地,将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果的步骤包括:
9.计算所述第一频点数据分别与预设种数的语音模型之间的相似度;
10.根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果。
11.可选地,所述根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果的步骤包括:
12.获取各种所述语音模型对应的加权权重;
13.采用所述加权权重对各种所述语音模型对应的所述相似度进行加权求和得到匹配值;
14.若所述匹配值大于预设阈值,则确定所述待检录音数据为语音数据;
15.若所述匹配值小于或等于预设阈值,则确定所述待检录音数据为非语音数据。
16.可选地,所述获取各种所述语音模型对应的加权权重的步骤包括:
17.从所述样本数据中选取多条测试数据;
18.计算所述测试数据分别与各种所述语音模型之间的相似度,将与所述测试数据之间相似度最大的语音模型作为与所述测试数据相匹配的语音模型;
19.分别统计与各种所述语音模型相匹配的所述测试数据的占比,基于占比得到各种所述语音模型对应的加权权重。
20.可选地,所述将所述第一频点数据与预设种数的语音模型分别进行匹配的步骤之前,还包括:
21.获取预设数量的所述样本数据;
22.采用所述样本数据构建得到预设种数的高斯混合模型,其中,各种所述高斯混合模型分别包括目标个数的高斯混合成分,所述目标个数为所述语音数据转换得到的频谱数据中所述预设频率以下的频点个数;
23.将所述高斯混合模型中各个高斯混合成分的均值组成频谱数据得到所述语音模型。
24.可选地,所述待检录音数据与所述语音数据的时长和采样频率均相同,计算所述第一频点数据与一种所述语音模型之间的相似度的步骤包括:
25.计算所述第一频点数据所组成的向量与一种所述语音模型对应的频谱数据所组成的向量之间的余弦相似度。
26.可选地,所述采用所述样本数据构建得到预设种数的高斯混合模型的步骤包括:
27.将所述样本数据进行划分得到预设组数的样本数据组,其中,所述预设组数与所述预设种数相同;
28.采用各个所述样本数据组分别构建得到一种高斯混合模型,以得到所述预设种数的高斯混合模型。
29.为实现上述目的,本发明还提供一种语音活性检测装置,所述语音活性检测装置包括:
30.获取模块,用于获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;
31.匹配模块,用于将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;
32.其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。
33.为实现上述目的,本发明还提供一种语音活性检测设备,所述语音活性检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音活性检测程序,所述语音活性检测程序被所述处理器执行时实现如上所述的语音活性检测方法的步骤。
34.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读
存储介质上存储有语音活性检测程序,所述语音活性检测程序被处理器执行时实现如上所述的语音活性检测方法的步骤。
35.本发明中,通过预先采用骨传导传感器采集多个样本的语音数据,采用各条语音数据转换得到的频谱数据中预设频率以下的频点数据作为样本数据,采用样本数据训练得到各种高斯混合模型,并基于各种高斯混合模型分别确定一种频谱数据作为语音模型,在需要进行语音活性检测时,也通过骨传导传感器采集待检录音数据,提取待检录音数据转换得到的频谱数据中预设频率以下各第一频点数据,并将各第一频点数据分别与各种语音模型进行匹配,基于匹配结果得到待检录音数据的语音活性检测结果,实现了一种基于语音模型匹配和骨声纹传感器的语音活性检测方案。
36.该语音活性检测方案中,利用了骨传导传感器能够屏蔽背景噪声干扰,且拾取到的语音均在低频频域的特点,采用骨传导传感器来采集待检录音数据和用于构建样本数据的语音数据,使得在进行语音活性检测时只需要提取出低频数据来参与计算,减少了计算量,降低了功耗;并且该语音活性检测方案中基于样本数据构建多种高斯混合模型,基于各种高斯混合模型分别确定一种语音模型,以将基于待检录音数据提取到的频点数据与多种语音模型分别进行匹配,根据匹配结果来确定语音活性检测结果,提高了语音活性检测的准确率。
附图说明
37.图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
38.图2为本发明语音活性检测方法第一实施例的流程示意图;
39.图3为本发明语音活性检测装置较佳实施例的功能模块示意图。
40.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
41.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
43.需要说明的是,本发明实施例语音活性检测设备,所述语音活性检测设备可以是耳机、智能手机、个人计算机、服务器等设备,在此不做具体限制。
44.如图1所示,该语音活性检测设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
45.本领域技术人员可以理解,图1中示出的设备结构并不构成对语音活性检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
46.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音活性检测程序。操作系统是管理和控制设备硬件和软件资
源的程序,支持语音活性检测程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的语音活性检测程序,并执行以下操作:
47.获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;
48.将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;
49.其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。
50.进一步地,将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果的操作包括:
51.计算所述第一频点数据分别与预设种数的语音模型之间的相似度;
52.根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果。
53.进一步地,所述根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果的操作包括:
54.获取各种所述语音模型对应的加权权重;
55.采用所述加权权重对各种所述语音模型对应的所述相似度进行加权求和得到匹配值;
56.若所述匹配值大于预设阈值,则确定所述待检录音数据为语音数据;
57.若所述匹配值小于或等于预设阈值,则确定所述待检录音数据为非语音数据。
58.进一步地,所述获取各种所述语音模型对应的加权权重的操作包括:
59.从所述样本数据中选取多条测试数据;
60.计算所述测试数据分别与各种所述语音模型之间的相似度,将与所述测试数据之间相似度最大的语音模型作为与所述测试数据相匹配的语音模型;
61.分别统计与各种所述语音模型相匹配的所述测试数据的占比,基于占比得到各种所述语音模型对应的加权权重。
62.进一步地,所述将所述第一频点数据与预设种数的语音模型分别进行匹配的操作之前,处理器1001还可以用于调用存储器1005中存储的语音活性检测程序,执行以下操作:
63.获取预设数量的所述样本数据;
64.采用所述样本数据构建得到预设种数的高斯混合模型,其中,各种所述高斯混合模型分别包括目标个数的高斯混合成分,所述目标个数为所述语音数据转换得到的频谱数据中所述预设频率以下的频点个数;
65.将所述高斯混合模型中各个高斯混合成分的均值组成频谱数据得到所述语音模型。
66.进一步地,所述待检录音数据与所述语音数据的时长和采样频率均相同,计算所述第一频点数据与一种所述语音模型之间的相似度的操作包括:
67.计算所述第一频点数据所组成的向量与一种所述语音模型对应的频谱数据所组成的向量之间的余弦相似度。
68.进一步地,所述采用所述样本数据构建得到预设种数的高斯混合模型的操作包括:
69.将所述样本数据进行划分得到预设组数的样本数据组,其中,所述预设组数与所述预设种数相同;
70.采用各个所述样本数据组分别构建得到一种高斯混合模型,以得到所述预设种数的高斯混合模型。
71.基于上述的结构,提出语音活性检测方法的各个实施例。
72.参照图2,图2为本发明语音活性检测方法第一实施例的流程示意图。
73.本发明实施例提供了语音活性检测方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,语音活性检测方法的执行主体可以是耳机、个人电脑、智能手机等设备,在本实施例中并不做限制,以下为便于描述,省略执行主体进行各实施例的阐述。在本实施例中,所述语音活性检测方法包括:
74.步骤s10,获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;
75.可以通过骨传导传感器录取录音数据,并对录音数据进行语音活性检测,以确定该录音数据中是否包含语音。以下将需要进行语音活性检测的录音数据称为待检录音数据。待检录音数据可以是按照一定采样频率采集的一段时间内的数据;预先可以设置一帧录音数据的时长,例如10ms;待检录音数据可以是包括一帧录音数据,也即,可以每采集一帧数据即做一次语音活性检测,以确定该帧录音数据是否包含语音;待检录音数据也可以是包括多帧录音数据,将待检录音数据分帧后,对各帧录音数据分别进行语音活性检测,以确定各帧录音数据分别是否包括语音,也即,可以连续采集多帧数据后再对各帧数据分别进行语音活性检测。在本实施例中,以待检测录音数据仅包括一帧录音数据为例进行阐述。
76.在获取到通过骨传导传感器录取的待检录音数据后,可以将待检录音数据转换为频谱数据。其中,频谱数据包括多个频点的频点数据,频点数据包括对应频点的幅值。将待检录音数据转换为频谱数据的方式在本实施例中并不做限制,例如可以对待检录音数据加汉明窗后采用快速傅里叶变换算法转换为频谱数据。
77.在转换得到频谱数据后,可以取其中预设频率以下的各个频点的频点数据(以下称为第一频点数据以示区分)。其中,预设频率可以根据需要进行设置,例如设置为1khz。需要说明的是,对于背景噪声较大的应用场景,传统的麦克风拾取的语音被噪声污染的比较严重,而骨传导传感器可以很好的屏蔽背景噪声的干扰。而且骨传导传感器拾取的语音在1khz以下,因此,在本实施例中,可以仅利用1khz以下各个频点的频点数据来进行语音活性检测,从而减少计算量,降低功耗。
78.步骤s20,将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果。
79.预先可以通过样本数据训练得到多种高斯混合模型,基于各种高斯混合模型得到多种语音模型。其中,预先可以选取多个样本,各个样本可以是不同性别、不同年龄段的用
户;可以针对多个样本采用骨传导传感器采集多条语音数据,针对每个样本至少采集一条语音数据;对于每一条语音数据,将该语音数据转换为频谱数据后,从频谱数据中提取预设频率以下的各个频点的频点数据(以下称为第二频点数据以示区分),由一帧语音数据所转换得到的频谱数据所提取出的各个第二频点数据分别构成一条样本数据;构建得到预设数量的样本数据后,可以采用各条样本数据构建得到多种高斯混合模型,再基于每种高斯混合模型分别构建一种语音模型。
80.高斯混合模型的训练方法在本实施例中不做限制,例如可以采用em算法训练。高斯混合模型的种数在本实施例中并不做限制,可以根据需要进行设置;为避免一种高斯混合模型无法很好地表征全部样本的语音特征,通过构建多种高斯混合模型,提高语音活性检测的准确率。不同种的高斯混合模型可以通过设置不同的训练超参数(例如学习率、收敛阈值等)来训练得到,在本实施例中对如何训练出多种高斯混合模型的具体方式并不做限制。
81.一种高斯混合模型中包括多个高斯混合成分,训练高斯混合模型即训练得到各个高斯混合成分分别对应的参数,例如均值、方差和混合系数;根据各个高斯混合成分对应的参数生成一条频谱数据,该频点数据中包括多个频点的频点数据;将该频谱数据作为一种语音模型。其中,本实施例中对根据各个高斯混合成分对应的参数生成频谱数据的方式并不做限制,例如可以将各个高斯混合成分的均值分别乘以其混合系数作为一个频点数据,将各个高斯混合成分对应的频点数据组合得到一条频谱数据。
82.在具体实施方式中,可以是在进行语音活性检测的设备本地进行高斯混合模型的构建,也可以是在其他设备中训练高斯混合模型并确定语音模型后,将语音模型配置在需要进行语音活性检测的设备中。
83.在根据待检录音数据提取到第一频点数据后,将第一频点数据与各种语音模型分别进行匹配。具体地,可以将各个第一频点数据所组成的频谱数据与语音模型对应的频谱数据进行匹配。匹配的目的是确定第一频点数据与语音模型的差异度或者说相似度,匹配的结果可以是表征第一频点数据与语音模型之间的差异度或相似度的结果,具体在本实施例中并不做限制。具体的匹配方式也在本实施例中并不做限制。
84.根据匹配结果确定待检录音数据的语音活性检测结果。其中,语音活性检测结果具体可以是表征该待检录音数据是语音数据还是非语音数据的结果。具体实施方式中,当匹配结果的具体数据形式不同时,根据匹配结果确定待检录音数据的语音活性检测结果的方法也不同。例如,在一实施方式中,当匹配结果是第一频点数据与语音模型之间的相似度时,可以将第一频点数据与各种语音模型之间的相似度分别与预设阈值进行比较,以确定是否有至少一个相似度大于该预设阈值;若至少有一个相似度大于该预设阈值,则可以确定该待检录音数据是语音数据,若各个相似度均不大于该预设阈值,则可以确定该待检录音数据是非语音数据。
85.在本实施例中,通过预先采用骨传导传感器采集多个样本的语音数据,采用各条语音数据转换得到的频谱数据中预设频率以下的频点数据作为样本数据,采用样本数据训练得到各种高斯混合模型,并基于各种高斯混合模型分别确定一种频谱数据作为语音模型,在需要进行语音活性检测时,也通过骨传导传感器采集待检录音数据,提取待检录音数据转换得到的频谱数据中预设频率以下各第一频点数据,并将各第一频点数据分别与各种
语音模型进行匹配,基于匹配结果得到待检录音数据的语音活性检测结果,实现了一种基于语音模型匹配和骨声纹传感器的语音活性检测方案。
86.该语音活性检测方案中,利用了骨传导传感器能够屏蔽背景噪声干扰,且拾取到的语音均在低频频域的特点,采用骨传导传感器来采集待检录音数据和用于构建样本数据的语音数据,使得在进行语音活性检测时只需要提取出低频数据来参与计算,减少了计算量,降低了功耗;并且该语音活性检测方案中基于样本数据构建多种高斯混合模型,基于各种高斯混合模型分别确定一种语音模型,以将基于待检录音数据提取到的频点数据与多种语音模型分别进行匹配,根据匹配结果来确定语音活性检测结果,提高了语音活性检测的准确率。
87.进一步地,基于上述第一实施例,提出本发明语音活性检测方法第二实施例,在本实施例中,所述步骤s20包括:
88.步骤s201,计算所述第一频点数据分别与预设种数的语音模型之间的相似度;
89.在本实施例中,提出一种将第一频点数据与语音模型进行匹配的具体实施方式。具体地,对于每一种语音模型,可以计算第一频点数据与该语音模型之间的相似度,那么,每一种语音模型对应得到一个相似度。具体地,将从一帧语音数据中提取的各个第一频点数据所组成的频谱数据与作为语音模型的频谱数据计算相似度。相似度计算方式在本实施例中并不做限制。
90.步骤s202,根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果。
91.在得到各种语音模型对应的相似度后,可以根据各个相似度确定待检录音数据的语音活性检测结果。可以理解的是,第一频点数据与语音模型的相似度越大,说明待检录音数据包含语音的可能性越大,可以基于该原理来确定待检录音数据的语音活性检测结果,具体实施方式有很多种,在本实施例中并不做限制。例如,在一实施方式中,可以将各种语音模型对应的相似度中最大的相似度与一阈值进行比较,当大于该阈值时,可确定待检录音数据包含语音,当小于或等于该阈值时,确定待检录音数据不包含语音。
92.进一步地,在一实施方式中,所述步骤s202包括:
93.步骤s2021,获取各种所述语音模型对应的加权权重;
94.在本实施方式中,提出一种根据各种语音模型对应的相似度确定待检录音数据的语音活性检测结果的具体实施方式。具体地,可以获取各种语音模型对应的加权权重。其中,各种语音模型对应的加权权重可以是根据经验设置的,或者是计算得到的,在本实施方式中并不做限制。
95.步骤s2022,采用所述加权权重对各种所述语音模型对应的所述相似度进行加权求和得到匹配值;
96.步骤s2023,若所述匹配值大于预设阈值,则确定所述待检录音数据为语音数据;
97.步骤s2024,若所述匹配值小于或等于预设阈值,则确定所述待检录音数据为非语音数据。
98.采用加权权重对各种语音模型对应的相似度进行加权求和,得到的结果以下称为匹配值以示区分。将匹配值与预设阈值进行比较。预设阈值可以预先根据需要进行设置;当匹配值大于预设阈值时,说明待检录音数据包含语音(为语音数据)的可能性很大,此时可
以确定待检录音数据为语音数据;当匹配值小于或等于该预设阈值时,说明待检录音数据不包含语音(为非语音数据)的可能性很大,此时可以确定待检录音数据为非语音数据。
99.进一步地,在一实施方式中,所述步骤s2021包括:
100.步骤s20211,从所述样本数据中选取多条测试数据;
101.在本实施方式中,提出一种获取各种语音模型的加权权重的具体实施方式。具体地,可以从样本数据中选取出多条测试数据。一条测试数据中包括由一帧语音数据所转换得到的频谱数据所提取出的各个第二频点数据,也即,将各条样本数据中从同一帧语音数据中所提取出的样本数据作为一条测试数据。所选取的测试数据的数量可以根据需要设置,在本实施方式中,并不做限制。
102.步骤s20212,计算所述测试数据分别与各种所述语音模型之间的相似度,将与所述测试数据之间相似度最大的语音模型作为与所述测试数据相匹配的语音模型;
103.对于每一条测试数据,可以计算该测试数据分别与各种语音模型之间的相似度。测试数据与语音模型之间的相似度计算方式可参照上述第一频点数据与语音模型的相似度计算方式。将各种语音模型中与测试数据之间匹配度最大的语音模型作为与该测试数据相匹配的语音模型,也即,各种语音模型中与测试数据之间匹配度最大的语音模型最能够表征该测试数据所对应的语音数据的语音特征。
104.步骤s20213,分别统计与各种所述语音模型相匹配的所述测试数据的占比,基于占比得到各种所述语音模型对应的加权权重。
105.对每条测试数据均确定与其相匹配的语音模型后,可以分别统计与各种语音模型相匹配的测试数据的占比。具体地,先分别统计与各种语音模型相匹配的测试数据的数量,得到各种语音模型对应的统计数量,将每种语音模型对应的统计数量除以各种语音模型对应的统计数量之和,即可得到各种语音模型分别对应的占比,将占比作为语音模型对应的加权权重。例如,假设有3种语音模型,第一种语音模型相匹配的测试数据数量为100,第二种语音模型相匹配的测试数据数量为200,第三种语音模型相匹配的测试数据数量为200,则第一种语音模型的加权权重为100/(100+200+200)=0.2,第二种语音模型的加权权重为200/(100+200+200)=0.4,第三种语音模型的加权权重也为0.4。
106.可以理解的是,通过计算测试数据与语音模型的相似度,根据相似度确定与语音模型相匹配的测试数据的占比,占比能够体现出语音模型对语音数据的语音特征的表征能力,占比越多时,表示语音模型对语音数据的语音特征的表征能力越强,在根据待检录音数据提取的第一频点数据与语音模型的相似度确定待检录音数据的语音活性检测结果时,通过占比作为各种语音模型对应的加权权重,使得对语音数据的语音特征的表征能力越强的语音模型对待检录音数据的语音活性检测结果的影响更大,从而能够提高语音活性检测结果的准确度。
107.进一步地,在一实施方式中,当根据不同的样本数据来构建各种语音模型时,可以根据用于构建语音模型的样本数据的数据量占比来作为语音模型对应的加权权重。例如,假设有3种语音模型,用于构建第一种语音模型的样本数据的数据量为10000,第二种语音模型相匹配的测试数据数量为20000,第三种语音模型相匹配的测试数据数量为20000,则第一种语音模型的加权权重为10000/(10000+20000+20000)=0.2,第二种语音模型的加权权重为200/(10000+20000+20000)=0.4,第三种语音模型的加权权重也为0.4。
108.进一步地,基于上述第二实施例,提出本发明语音活性检测第三实施例,在本实施例中,所述步骤s20之前,还包括:
109.步骤s30,获取预设数量的所述样本数据;
110.在本实施例中,提出一种构建高斯混合模型的具体实施方式。具体地,可以获取预设数量的样本数据。其中,预设数量可以根据需要进行设置,在本实施例中并不做限制。
111.步骤s40,采用所述样本数据构建得到预设种数的高斯混合模型,其中,各种所述高斯混合模型分别包括目标个数的高斯混合成分,所述目标个数为所述语音数据转换得到的频谱数据中所述预设频率以下的频点个数;
112.采用样本数据构建得到预设种数的高斯混合模型。在具体实施方式中,可以通过设置不同的超参数的方式采用同一批样本数据构建得到不同种的高斯混合模型,也可以通过采用不同批的样本数据分别构建一个高斯混合模型,从而得到多种不同的高斯混合模型。在本实施例中对构建多种不同的高斯混合模型的方式并不做限制。预设种数可以根据需要进行设置,例如可以根据样本数据的数据量来确定,样本数据的数据量越大时,预设种数可以设置得较越多。
113.预先可以设置高斯混合模型中高斯混合成分的个数与用于构建样本数据的语音数据所转换得到的频谱数据中预设频率以下的频点个数一致。也即,由于样本数据来自于语音数据所转换得到的频谱数据中预设频率以下的各个频点,所以高斯混合模型可以看做是各种语音数据在预设频率以下的各个频点的频点数据的分布所组合得到的模型,预设频率下每个频点对应一种分布(高斯混合成分)。
114.步骤s50,将所述高斯混合模型中各个高斯混合成分的均值组成频谱数据得到所述语音模型。
115.将高斯混合模型中各个高斯混合成分的均值组成一条频谱数据,将该频谱数据作为语音模型。通过将高斯混合成分的均值组成的频谱数据作为语音模型,得到了一种简化的语音模型,减少了涉及到高斯分布函数等复杂的计算过程,提高了语音活性检测的效率。
116.进一步地,在一实施方式中,所述步骤s201中计算所述第一频点数据与一种所述语音模型之间的相似度的步骤包括:
117.步骤s2011,计算所述第一频点数据所组成的向量与一种所述语音模型对应的频谱数据所组成的向量之间的余弦相似度。
118.在进行录音数据采集时,可以按照与用于构建样本数据的语音数据的采样频率相同的采样频率进行采用,分帧得到的各帧待检录音数据的时长也可以与各帧语音数据的时长相同。
119.当待检录音数据的时长和采样频率与用于构建样本数据的语音数据的时长和采样频率对应相同时,基于待检录音数据所转换得到的频谱数据中预设频率以下的频点个数与基于语音数据所转换得到的频谱数据中预设频率以下的频点个数相同,那么急于待检录音数据提取的第一频点数据的数量与语音模型对应的频谱数据中频点数据的数量相同。此时,可以计算由第一频点数据所组成的向量与语音模型对应的频谱数据中各频点数据所组成的向量之间的余弦相似度,根据第一频点数据分别与各种语音模型的余弦相似度来确定待检录音数据的语音活性检测结果。
120.进一步地,在一实施方式中,所述步骤s40包括:
121.步骤s401,将所述样本数据进行划分得到预设组数的样本数据组,其中,所述预设组数与所述预设种数相同;
122.在本实施方式中提出一种构建多种高斯混合模型的具体实施方式。具体地,将样本数据进行划分得到预设组数的样本数据组。预设组数即要构建的高斯混合模型的种数。划分的方式在本实施例中并不做限制,例如可以随机划分,各个样本数据组中的样本数据的个数也并不做限制。在一实施方式中,在划分时,可以保证各个样本数据组中都包括基于预设频率下每个频点的第二频点数据所构建样本数据。
123.步骤s402,采用各个所述样本数据组分别构建得到一种高斯混合模型,以得到所述预设种数的高斯混合模型。
124.采用各个样本数据组分别构建得到一种高斯混合模型,即可得到多种高斯混合模型。
125.此外,本发明实施例还提出一种语音活性检测装置,参照图3,所述语音活性检测装置包括:
126.获取模块10,用于获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;
127.匹配模块20,用于将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;
128.其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。
129.进一步地,所述匹配模块20还用于:
130.计算所述第一频点数据分别与预设种数的语音模型之间的相似度;
131.根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果。
132.进一步地,所述匹配模块20还用于:
133.获取各种所述语音模型对应的加权权重;
134.采用所述加权权重对各种所述语音模型对应的所述相似度进行加权求和得到匹配值;
135.若所述匹配值大于预设阈值,则确定所述待检录音数据为语音数据;
136.若所述匹配值小于或等于预设阈值,则确定所述待检录音数据为非语音数据。
137.进一步地,所述匹配模块20还用于:
138.从所述样本数据中选取多条测试数据;
139.计算所述测试数据分别与各种所述语音模型之间的相似度,将与所述测试数据之间相似度最大的语音模型作为与所述测试数据相匹配的语音模型;
140.分别统计与各种所述语音模型相匹配的所述测试数据的占比,基于占比得到各种所述语音模型对应的加权权重。
141.进一步地,所述获取模块10还用于:
142.获取预设数量的所述样本数据;
143.所述装置还包括:
144.构建模块,用于采用所述样本数据构建得到预设种数的高斯混合模型,其中,各种所述高斯混合模型分别包括目标个数的高斯混合成分,所述目标个数为所述语音数据转换得到的频谱数据中所述预设频率以下的频点个数;将所述高斯混合模型中各个高斯混合成分的均值组成频谱数据得到所述语音模型。
145.进一步地,所述待检录音数据与所述语音数据的时长和采样频率均相同,所述匹配模块20还用于:
146.计算所述第一频点数据所组成的向量与一种所述语音模型对应的频谱数据所组成的向量之间的余弦相似度。
147.进一步地,所述构建模块还用于:
148.将所述样本数据进行划分得到预设组数的样本数据组,其中,所述预设组数与所述预设种数相同;
149.采用各个所述样本数据组分别构建得到一种高斯混合模型,以得到所述预设种数的高斯混合模型。
150.本发明语音活性检测装置各实施例,均可参照本发明语音活性检测方法各个实施例,此处不再赘述。
151.此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有语音活性检测程序,所述语音活性检测程序被处理器执行时实现如下所述的语音活性检测方法的步骤。
152.本发明语音活性检测设备和计算机可读存储介质各实施例,均可参照本发明语音活性检测方法各个实施例,此处不再赘述。
153.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
154.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
156.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种语音活性检测方法,其特征在于,所述语音活性检测方法包括以下步骤:获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。2.如权利要求1所述的语音活性检测方法,其特征在于,将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果的步骤包括:计算所述第一频点数据分别与预设种数的语音模型之间的相似度;根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果。3.如权利要求2所述的语音活性检测方法,其特征在于,所述根据各种所述语音模型对应的所述相似度确定所述待检录音数据的语音活性检测结果的步骤包括:获取各种所述语音模型对应的加权权重;采用所述加权权重对各种所述语音模型对应的所述相似度进行加权求和得到匹配值;若所述匹配值大于预设阈值,则确定所述待检录音数据为语音数据;若所述匹配值小于或等于预设阈值,则确定所述待检录音数据为非语音数据。4.如权利要求3所述的语音活性检测方法,其特征在于,所述获取各种所述语音模型对应的加权权重的步骤包括:从所述样本数据中选取多条测试数据;计算所述测试数据分别与各种所述语音模型之间的相似度,将与所述测试数据之间相似度最大的语音模型作为与所述测试数据相匹配的语音模型;分别统计与各种所述语音模型相匹配的所述测试数据的占比,基于占比得到各种所述语音模型对应的加权权重。5.如权利要求2至4中任一项所述的语音活性检测方法,其特征在于,所述将所述第一频点数据与预设种数的语音模型分别进行匹配的步骤之前,还包括:获取预设数量的所述样本数据;采用所述样本数据构建得到预设种数的高斯混合模型,其中,各种所述高斯混合模型分别包括目标个数的高斯混合成分,所述目标个数为所述语音数据转换得到的频谱数据中所述预设频率以下的频点个数;将所述高斯混合模型中各个高斯混合成分的均值组成频谱数据得到所述语音模型。6.如权利要求5所述的语音活性检测方法,其特征在于,所述待检录音数据与所述语音数据的时长和采样频率均相同,计算所述第一频点数据与一种所述语音模型之间的相似度的步骤包括:计算所述第一频点数据所组成的向量与一种所述语音模型对应的频谱数据所组成的
向量之间的余弦相似度。7.如权利要求5所述的语音活性检测方法,其特征在于,所述采用所述样本数据构建得到预设种数的高斯混合模型的步骤包括:将所述样本数据进行划分得到预设组数的样本数据组,其中,所述预设组数与所述预设种数相同;采用各个所述样本数据组分别构建得到一种高斯混合模型,以得到所述预设种数的高斯混合模型。8.一种语音活性检测装置,其特征在于,所述语音活性检测装置包括:获取模块,用于获取通过骨传导传感器录取的待检录音数据,将所述待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;匹配模块,用于将所述第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到所述待检录音数据的语音活性检测结果;其中,各种所述语音模型是基于预设种数的高斯混合模型分别确定的频谱数据,各种所述高斯混合模型是基于预设数量的样本数据构建得到的,所述样本数据为将针对各样本采用骨传导传感器录取的语音数据转换为频谱数据后,从中提取的所述预设频率以下的各个频点的第二频点数据。9.一种语音活性检测设备,其特征在于,所述语音活性检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音活性检测程序,所述语音活性检测程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音活性检测方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音活性检测程序,所述语音活性检测程序被处理器执行时实现如权利要求1至7中任一项所述的语音活性检测方法的步骤。
技术总结
本发明公开了一种语音活性检测方法、装置、设备及计算机可读存储介质,所述方法包括:获取通过骨传导传感器录取的待检录音数据,将待检录音数据转换为频谱数据后取其中预设频率以下的各个频点的第一频点数据;将第一频点数据与预设种数的语音模型分别进行匹配,根据匹配结果得到待检录音数据的语音活性检测结果。本发明提供了一种基于语音模型匹配和骨声纹传感器的语音活性检测方案,在保证语音活性检测准确率的同时降低功耗。检测准确率的同时降低功耗。检测准确率的同时降低功耗。
技术研发人员:
刘兵兵
受保护的技术使用者:
歌尔科技有限公司
技术研发日:
2022.07.28
技术公布日:
2022/11/1