1.本技术涉及音频信号处理技术领域,特别涉及一种
语音降噪模型的训练方法、装置、设备、存储介质及产品。
背景技术:
2.目前,语音降噪模型用于对会议、演讲、授课等场景下的带噪语音
数据进行降噪,以得到去除
噪声后的干净语音数据。
3.相关技术中,一般会基于这些场景的仿真场景,获取带噪语音
样本数据和干净语音样本数据,来进行模型训练,以得到这些场景通用的语音降噪模型。而基于该语音降噪模型在任一场景中进行语音降噪时,由于该场景与其仿真场景并不完全相同,进而基于该语音降噪模型,对该场景下的带噪语音数据进行降噪,会导致降噪效果较差。
技术实现要素:
4.本技术实施例提供了一种语音降噪模型的训练方法、装置、设备、存储介质及产品,能够提高对带噪语音数据的降噪效果。所述技术方案如下:
5.一方面,提供了一种语音降噪模型的训练方法,所述方法包括:
6.基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,所述第一语音样本数据为降噪后的所述第一带噪语音样本数据;
7.获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,所述初始语音样本数据为不包含仿真环境混响的所述第一语音样本数据,所述初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据;
8.在所述多种场景中的目标场景下,对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据;
9.对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据;
10.基于多组第三样本数据对,对所述第一语音降噪模型进行训练,得到目标语音降噪模型,所述目标语音降噪模型用于对所述目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。
11.在一些实施例中,所述对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,包括:
12.对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始语音样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含所述目标环境混响的所述第二语音样本数据;或者,
13.对于每组初始样本数据对,获取所述目标场景下的冲激响应数据,对所述冲激响应数据和所述初始语音样本数据进行卷积处理,得到包含所述目标环境混响的所述第二语音样本数据。
14.在一些实施例中,所述对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据,包括:
15.对于每组初始样本数据对,确定所述初始噪声样本数据对应的噪声类型,采集所述目标场景下所述噪声类型对应的噪声,得到包含所述目标环境混响的所述目标噪声数据;或者,
16.对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始噪声样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含所述目标环境混响的所述目标噪声数据。
17.在一些实施例中,所述对每多组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据,包括:
18.对于每组第二样本数据对,基于目标信噪比,将所述第二语音样本数据和所述目标噪声数据进行混合,得到所述第二带噪语音样本数据。
19.在一些实施例中,所述目标噪声数据包括多种不同噪声类型的目标噪声数据,所述第二带噪语音样本数据为多个,所述基于目标信噪比,将所述第二语音样本数据和目标噪声数据进行混合,得到所述第二带噪语音样本数据,包括以下至少一种实现方式:
20.基于所述目标信噪比,将所述多种不同噪声类型的目标噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据;
21.对于每种噪声类型的目标噪声数据,将所述目标噪声数据和与其噪声类型不同的至少一个目标噪声数据进行混合,得到多个混合噪声数据,基于所述目标信噪比,将所述多个混合噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据。
22.在一些实施例中,所述第二语音样本数据包括多种不同人的第二语音样本数据,所述第二带噪语音样本数据为多个,所述基于目标信噪比,将所述第二语音样本数据和目标噪声数据进行混合,得到所述第二带噪语音样本数据,包括以下至少一种实现方式:
23.基于所述目标信噪比,将所述多种不同人的第二语音样本数据分别和所述目标噪声数据进行混合,得到多个第二带噪语音样本数据;
24.对于每种人的第二语音样本数据,将所述第二语音样本数据和与其人不同的至少一个第二语音样本数据进行混合,得到多个混合语音样本数据,基于所述目标信噪比,将所述多个混合语音样本数据分别和所述目标噪声数据进行混合,得到多个第二带噪语音样本数据。
25.另一方面,提供了一种语音降噪模型的训练装置,所述装置包括:
26.第一训练模块,用于基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,所述第一语音样本数据为降噪后的所述第一带噪语音样本数据;
27.获取模块,用于获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,所述初始语音样本数据为不包含仿真环境混响的所述第一语
音样本数据,所述初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据;
28.处理模块,用于在所述多种场景中的目标场景下,对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据;
29.混合模块,用于对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据;
30.第二训练模块,用于基于所述多组第三样本数据对,对所述第一语音降噪模型进行训练,得到目标语音降噪模型,所述目标语音降噪模型用于对所述目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。
31.在一些实施例中,所述处理模块,用于:
32.对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始语音样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含所述目标环境混响的所述第二语音样本数据;或者,
33.对于每组初始样本数据对,获取所述目标场景下的冲激响应数据,对所述冲激响应数据和所述初始语音样本数据进行卷积处理,得到包含所述目标环境混响的所述第二语音样本数据。
34.在一些实施例中,所述处理模块,用于:
35.对于每组初始样本数据对,确定所述初始噪声样本数据对应的噪声类型,采集所述目标场景下所述噪声类型对应的噪声,得到包含所述目标环境混响的所述目标噪声数据;或者,
36.对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始噪声样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含所述目标环境混响的所述目标噪声数据。
37.在一些实施例中,所述混合模块,用于对于每组第二样本数据对,基于目标信噪比,将所述第二语音样本数据和所述目标噪声数据进行混合,得到所述第二带噪语音样本数据。
38.在一些实施例中,所述目标噪声数据包括多种不同噪声类型的目标噪声数据,所述第二带噪语音样本数据为多个,所述混合模块,用于:
39.基于所述目标信噪比,将所述多种不同噪声类型的目标噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据;
40.对于每种噪声类型的目标噪声数据,将所述目标噪声数据和与其噪声类型不同的至少一个目标噪声数据进行混合,得到多个混合噪声数据,基于所述目标信噪比,将所述多个混合噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据。
41.在一些实施例中,所述第二语音样本数据包括多种不同人的第二语音样本数据,所述第二带噪语音样本数据为多个,所述混合模块,用于:
42.基于所述目标信噪比,将所述多种不同人的第二语音样本数据分别和所述目标
噪声数据进行混合,得到多个第二带噪语音样本数据;
43.对于每种人的第二语音样本数据,将所述第二语音样本数据和与其人不同的至少一个第二语音样本数据进行混合,得到多个混合语音样本数据,基于所述目标信噪比,将所述多个混合语音样本数据分别和所述目标噪声数据进行混合,得到多个第二带噪语音样本数据。
44.另一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述任一实现方式所述的语音降噪模型的训练方法。
45.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一实现方式所述的语音降噪模型的训练方法。
46.另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行上述任一实现方式所述的语音降噪模型的训练方法。
47.本技术实施例提供了一种语音降噪模型的训练方法,该方法基于仿真场景下的样本数据对训练得到了多种场景通用的基础语音降噪模型,且在目标场景下,对初始语音样本数据和初始噪声样本数据进行混响处理,得到了包含目标环境混响的语音样本数据和噪声数据,再基于包含环境混响的语音样本数据和噪声数据得到了带噪语音样本数据,即得到了适配于目标场景的语音样本数据和带噪语音样本数据;进而再基于适配于目标场景的语音样本数据和带噪语音样本数据,对基础语音降噪模型进行训练,以使训练得到的目标语音降噪模型能够适用于该目标场景,从而基于该目标语音降噪模型对目标场景下的带噪语音数据进行降噪,能够提高降噪效果。
附图说明
48.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1是本技术实施例提供的一种实施环境的示意图;
50.图2是本技术实施例提供的一种语音降噪模型的训练方法的流程图;
51.图3是本技术实施例提供的另一种语音降噪模型的训练方法的流程图;
52.图4是本技术实施例提供的另一种语音降噪模型的训练方法的流程图;
53.图5是本技术实施例提供的一种语音降噪模型的训练装置的框图;
54.图6是本技术实施例提供的一种终端的框图;
55.图7是本技术实施例提供的一种服务器的框图。
具体实施方式
56.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
57.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
58.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的样本数据对都是在充分授权的情况下获取的。
59.本技术实施例提供的语音降噪模型的训练方法,能够由计算机设备执行,在一些实施例中,计算机设备为终端或服务器中的至少一种。参见图1,图1为本技术实施例提供的语音降噪模型的训练方法的实施环境示意图,该实施环境中包括终端10和服务器20中的至少一项,终端10和服务器20能够通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本技术实施例提供的语音降噪模型的训练方法可以由终端10单独执行,也可以由服务器20执行,或者由终端10或服务器20通过数据交互实现,本技术实施例对此不加以限定。在一些实施例中,服务器20承担主要计算工作,终端10承担次要计算工作;或者,服务器20承担次要计算工作,终端10承担主要计算工作;或者,服务器20和终端10二者之间采用分布式计算架构进行协同计算。
60.在一些实施例中,本技术实施例提供的语音降噪模型的训练方法应用在会议、演讲、授课、车间等需要对带噪语音数据进行降噪的场景中,如在演讲场景中,基于该语音降噪模型可以对采集的演讲者的带噪语音数据进行降噪处理,以得到去除噪声的干净语音数据。
61.终端10为手机、平板电脑和pc(personal computer)设备等设备中的至少一种。服务器20可以为一台服务器、由多台服务器组成的服务器集、云服务器、云计算平台和虚拟化中心中的至少一种。
62.图2是本技术实施例提供的一种语音降噪模型的训练方法的流程图,该方法可以通过终端和服务器中的至少一项实现,在本技术实施例中,将终端和服务器统称为计算机设备,因此以计算机设备为执行主体执行该方法,参见图2,该方法包括:
63.201、计算机设备基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,第一语音样本数据为降噪后的第一带噪语音样本数据。
64.在本技术实施例中,第一语音样本数据和第一带噪语音样本数据均为语音信号。第一语音样本数据为不包含噪声而包含仿真环境混响的干净语音样本数据,第一带噪语音样本数据为包含噪声且包含仿真环境混响的带噪语音样本数据。仿真环境混响为仿真场景下的环境混响,任一仿真场景的仿真环境混响基于该仿真场景下的声音反弹现象而产生,
其与该仿真场景的大小、形状以及该仿真场景中的物质相关。
65.在本技术实施例中,计算机设备基于该多组第一样本数据对学习到了第一降噪规律,该第一降噪规律指用于将第一带噪语音样本数据进行降噪以得到第一语音样本数据的规律,进而基于该第一降噪规律,生成该第一语音降噪模型。在本技术实施例中,多种场景包括演讲、会议、授课、工厂、地铁等场景,在此不作具体限制;计算机设备基于该多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,即得到了多种场景下通用的基础语音降噪模型。
66.202、计算机设备获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,初始语音样本数据为不包含仿真环境混响的第一语音样本数据,初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据。
67.在本技术实施例中,初始语音样本数据为不包含噪声且不包含仿真环境混响的干净语音样本数据。
68.203、计算机设备在多种场景中的目标场景下,对多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对多组初始样本数据对中的初始噪声样本数据进行混响处理,得到多组第二样本数据对中的目标噪声数据。
69.在本技术实施例中,目标场景可以为该多种场景中任一待进行语音降噪的场景。目标环境混响为该目标场景下的环境混响,其基于该目标场景下的声音反弹现象而产生,其与该目标场景的大小、形状以及该目标场景中的物质相关。
70.204、计算机设备对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据。
71.205、计算机设备基于多组第三样本数据对,对第一语音降噪模型进行训练,得到目标语音降噪模型,目标语音降噪模型用于对目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。
72.在本技术实施例中,计算机设备基于该多组第三样本数据对学习到了第二降噪规律,该第二降噪规律指用于对第二带噪语音样本数据进行降噪以得到第二语音样本数据的规律,进而基于该第二降噪规律,生成该目标语音降噪模型。
73.本技术实施例提供了一种语音降噪模型的训练方法,该方法基于仿真场景下的样本数据对训练得到了多种场景通用的基础语音降噪模型,且在目标场景下,对初始语音样本数据和初始噪声样本数据进行混响处理,得到了包含目标环境混响的语音样本数据和噪声数据,再基于包含环境混响的语音样本数据和噪声数据得到了带噪语音样本数据,即得到了适配于目标场景的语音样本数据和带噪语音样本数据;进而再基于适配于目标场景的语音样本数据和带噪语音样本数据,对基础语音降噪模型进行训练,以使训练得到的目标语音降噪模型能够适用于该目标场景,从而基于该目标语音降噪模型对目标场景下的带噪语音数据进行降噪,能够提高降噪效果。
74.图3是本技术实施例提供的一种语音降噪模型的训练方法的流程图,该方法可以通过终端和服务器中的至少一项实现,在本技术实施例中,将终端和服务器统称为计算机设备,因此以计算机设备为执行主体执行该方法,参见图3,该方法包括:
75.301、计算机设备基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,第一语音样本数据为降噪后的第一带噪语音样本数据。
76.可选地,计算机设备基于多组第一样本数据对,训练得到第一语音降噪模型的过程包括:计算机设备针对于每组第一样本数据对,将其中的第一带噪语音样本数据输入初始语音降噪模型,得到预测的第一语音数据,进而基于该第一语音数据与第一语音样本数据之间的损失值,调整初始语音降噪模型的模型参数。计算机设备基于多组第一样本数据对迭代执行上述步骤,直到本次迭代达到停止条件,得到第一语音降噪模型。
77.在一些实施例中,计算机设备配置为终端,该终端基于多个场景的仿真场景,能够获取多组第一样本数据对;可选地,该终端为仿真器,其能够对多个场景进行仿真,进而基于该仿真器能够产生带噪语音样本数据和语音样本数据,以获取到多组第一样本数据对;或者该终端为声音采集设备,用于采集仿真场景下的带噪语音样本数据和语音样本数据,以获取到多组第一样本数据对。
78.302、计算机设备获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,初始语音样本数据为不包含仿真环境混响的第一语音样本数据,初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据。
79.在一种实现方式中,初始样本数据对和第一样本数据对对应存储,则计算机设备直接获取多组第一样本数据对分别对应的初始样本数据对,来得到该多组初始样本数据对。
80.303、计算机设备对于每组初始样本数据对,通过目标播放设备在目标场景下播放初始语音样本数据,通过目标声音采集设备在目标场景下进行声音采集,得到包含环境噪声和目标环境混响的语音数据,对该语音数据进行降噪处理,得到包含目标环境混响的第二语音样本数据。
81.可选地,计算机设备在该目标场景对应的指定环境下,通过目标播放设备在目标场景下播放初始语音样本数据,通过目标声音采集设备在目标场景下进行声音采集,该指定环境仅存在环境噪声,而不存在其他干扰噪声,该环境噪声为该目标场景中不可避免的噪声,该其他干扰噪声为该目标场景中可以避免的噪声;如在会议场景中,该指定环境为会议室内,此时会议室内的背景噪声为不可避免的环境噪声,而敲键盘、开关门以及拍手等声音则属于其他干扰噪声。这样在仅存在环境噪声的情况下进行声音采集,得到的语音数据包括的噪声仅有环境噪声,一般的降噪方法即可实现对该语音数据的平稳降噪,进而得到目标场景下的第二语音样本数据。
82.需要说明的是,不同的声音采集设备具有不同的频响,频响表示对不同频率信号的处理能力的差异,而在本技术实施例中,为了进一步获取与目标场景匹配的第二语音样本数据,使该目标声音采集设备为目标场景下实际使用的声音采集设备,其用于采集待降噪的带噪语音数据,进而使得第二语音样本数据与该目标场景更加匹配。而该目标播放设备也可以为目标场景下实际使用的播放设备,避免还需配置其他的播放设备,即提高了播放初始语音样本数据的便捷性。
83.在本技术实施例中,通过步骤302实现了在目标场景下,对初始语音样本数据进行
混响处理,得到第二语音样本数据的过程;但对于一些情况复杂的场景,无法保证其指定环境中只存在环境噪声,而为了保证获取第二语音样本数据的效率和准确性,在一些实施例中,计算机设备对多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据的过程,包括以下实现方式:计算机设备对于每组初始样本数据对,获取目标场景下的冲激响应数据,对冲激响应数据和初始语音样本数据进行卷积处理,得到包含目标环境混响的第二语音样本数据。
84.其中,该冲激响应数据反映目标场景的目标环境混响;可选地,计算机设备通过对目标场景下的某一房间进行冲激响应测量,得到该目标场景下的冲激响应数据。在该实现方式中,通过基于冲激响应数据来得到包含目标环境混响的第二语音样本数据,避免了对包含环境噪声的语音数据进行降噪处理,从而提高了第二语音样本数据的获取效率。
85.304、计算机设备对于每组初始样本数据对,确定初始噪声样本数据对应的噪声类型,采集目标场景下噪声类型对应的噪声,得到包含目标环境混响的目标噪声数据。
86.其中,目标噪声数据不仅包含目标环境混响,还包含目标场景下的环境噪声以及初始噪声样本数据的噪声类型对应的噪声。噪声类型包括走路声、哭笑声、敲击键盘声、挪动桌椅声、风声、雨声、潮汐声等,在此不做具体限制。
87.其中,计算机设备在该目标场景对应的指定环境下,采集该噪声类型对应的噪声,该指定环境仅存在该噪声类型对应的噪声,而不存在其他声音,该其他声音包括由于人说话而产生的声音以及由于目标播放设备播放语音数据而产生的声音等,进而可以得到纯净的噪声数据。可选地,由人为在目标场景下制造该噪声类型对应的噪声,这样可以根据需要灵活制造该噪声,从而提高了通过采集噪声来得到目标噪声数据的灵活性和效率。可选地,计算机设备通过目标声音采集设备采集噪声,进而使得目标噪声数据与该目标场景更加匹配。
88.在本技术实施例中,在目标场景下采集噪声,得到了包含目标环境混响的目标噪声数据,使得该目标噪声数据与该目标场景相匹配,进而基于该目标噪声数据能够得到与目标场景匹配的带噪语音样本数据。
89.在本技术实施例中,通过步骤304实现了对多种初始样本数据对中的初始噪声样本数据进行混响处理,得到多组第二样本数据对中的目标噪声数据;而在另一些实施例中,计算机设备对多种初始样本数据对中的初始噪声样本数据进行混响处理,得到多组第二样本数据对中的目标噪声数据的过程,还包括以下实现方式:计算机设备对于每组初始样本数据对,通过目标播放设备在目标场景下播放初始噪声样本数据,通过目标声音采集设备在目标场景下进行声音采集,得到包含目标环境混响的目标噪声数据。
90.在该实现方式中,由于在播放该初始噪声样本数据的目标场景下进行声音采集,来得到目标噪声数据,避免了人工制造噪声,提高了获取目标噪声数据的便捷性。
91.305、计算机设备对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据。
92.在一种实现方式中,计算机设备对于每组第二样本数据对,基于目标信噪比,将第二语音样本数据和目标噪声数据进行混合,得到第二带噪语音样本数据。
93.其中,目标信噪比指第二语音样本数据的信号强度与目标噪声数据的信号强度之间的比值;可选地,本技术实施例中的目标信噪比基于目标场景下的带噪语音数据的信噪
比确定,进而使得第二带噪语音样本数据与目标场景更加匹配。且目标场景下的带噪语音数据可以有多种信噪比,进而目标信噪比可以为多个。相应地,计算机设备分别基于每个目标信噪比,将第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据,进一步丰富了第二带噪语音样本数据的数据量,进而能够提高训练得到的语音降噪模型的降噪效果。
94.初始噪声样本数据的噪声类型包括多种,进而目标噪声数据包括多种不同噪声类型的目标噪声数据,则得到的第二带噪语音样本数据为多个。相应地,在一些实施例中,上述计算机设备基于目标信噪比,将第二语音样本数据和目标噪声数据进行混合,得到第二带噪语音样本数据的过程,包括以下至少一种实现方式:
95.在一种实现方式中,计算机设备基于目标信噪比,将多种不同噪声类型的目标噪声数据分别和第二语音样本数据进行混合,得到多个第二带噪语音样本数据。在该实现方式中,通过将多种不同噪声类型的目标噪声数据分别和第二语音样本数据进行混合,使得多个第二带噪语音样本数据涵盖了多种类型的噪声,丰富了带噪语音样本数据的噪声种类,进而基于多种噪声类型的带噪语音样本数据进行模型训练,能够提高训练得到的语音降噪模型的普遍适用性。
96.在另一种实现方式中,计算机设备对于每种噪声类型的目标噪声数据,将目标噪声数据和与其噪声类型不同的至少一个目标噪声数据进行混合,得到多个混合噪声数据,基于目标信噪比,将多个混合噪声数据分别和第二语音样本数据进行混合,得到多个第二带噪语音样本数据。
97.可选地,计算机设备基于信号能量比值,将多个目标噪声数据进行混合,该信号能量比值指多个目标噪声数据分别对应的信号能量之间的比值,该信号能量比值可以根据需要进行设定并更改,如为了使混合噪声数据中多个目标噪声数据分别对应的信号能量分布较为均匀,可将信号能量比值设为1。
98.需要说明的是,目标场景下在同一时刻可能会存在多种不同类型的噪声,而在该实现方式中,通过将多个噪声类型不同的目标噪声数据进行混合,使得混合噪声数据与目标场景更加匹配,进而可以得到与目标场景更加匹配的第二带噪语音样本数据。
99.需要说明的是,第二语音样本数据包括多种不同人的第二语音样本数据,进而得到的第二带噪语音样本数据为多个。相应地,在一些实施例中,上述计算机设备基于目标信噪比,将第二语音样本数据和目标噪声数据进行混合,得到第二带噪语音样本数据的过程,包括以下至少一种实现方式:
100.在一种实现方式中,计算机设备基于目标信噪比,将多种不同人的第二语音样本数据分别和目标噪声数据混合,得到多个第二带噪语音样本数据。
101.其中,人可以基于不同的标准划分,若基于年龄划分,则人包括婴幼儿、少年、青年、中年人、老年人等;若基于性别划分,则人包括男性、女性等。在本技术实施例中,对此不作具体限定。
102.在该实现方式中,通过将多个不同人的第二语音样本数据分别和目标噪声数据进行混合,使得多个第二带噪语音样本数据涵盖了多种人的语音,这样再基于第二语音样本数据和第二带噪语音样本数据组成第三样本数据对,丰富了第三样本数据对的数据量,进而基于该第三样本数据对进行模型训练,能够提高训练得到的语音降噪模型的普遍
适用性。
103.在另一种实现方式中,计算机设备对于每种人的第二语音样本数据,将第二语音样本数据和与其人不同的至少一个第二语音样本数据进行混合,得到多个混合语音样本数据,基于目标信噪比,将多个混合语音样本数据分别和目标噪声数据进行混合,得到多个第二带噪语音样本数据。
104.可选地,计算机设备基于信号能量比值,将多个第二语音样本数据进行混合,该信号能量比值可以根据需要进行设定并更改,在此不作具体限定。
105.需要说明的是,目标场景下在同一时刻可能会存在多种不同人的语音数据,如合唱场景中;而在该实现方式中,通过将多个人不同的第二语音样本数据进行混合,使得混合语音样本数据与目标场景更加匹配,进而可以得到与目标场景更加匹配的第二带噪语音样本数据。
106.需要说明的是,本技术实施例中步骤的编号是为了便于描述,并不限制步骤的执行顺序,如上述步骤302-305既可以在上述步骤301之后执行,也可以在上述步骤301之前执行,还可以与步骤301同步执行,即在本技术实施例中,可以先基于第一样本数据对得到第一语音降噪模型,也可以先基于初始样本数据对得到第三样本数据对,也可以同时得到第一语音降噪模型和第三样本数据对,本技术实施例对此不进行限制。
107.306、计算机设备基于多组第三样本数据对,对第一语音降噪模型进行训练,得到目标语音降噪模型,目标语音降噪模型用于对目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。
108.可选地,计算机设备基于多组第三样本数据对,对第一语音降噪模型进行训练的过程包括:计算机设备针对于每组第三样本数据对,将其中的第二带噪语音样本数据输入第一语音降噪模型,得到预测的第二语音数据,进而基于该第二语音数据与第二语音样本数据之间的损失值,调整第一语音降噪模型的模型参数;计算机设备基于多组第三样本数据对迭代执行上述步骤,直到本次迭代达到停止条件,得到目标语音降噪模型。
109.参见图4,图4是本技术实施例提供的一种语音降噪模型的训练流程图;其中,计算机设备在目标场景的实际无干扰环境下,播放初始语音样本数据并采集,得到语音数据,对该语音数据进行降噪后,得到干净的第二语音样本数据,该实际无干扰环境指仅包括环境噪声的环境;然后计算机设备在目标场景的实际环境下采集噪声,得到目标噪声数据,该噪声与初始噪声样本数据的噪声类型相同;进而计算机设备将目标噪声数据和第二语音样本数据进行混合,得到第二带噪语音样本数据;最后计算机设备基于指定数据集对训练好的基础语音降噪模型进行优化训练,以得到适用于目标场景的目标语音降噪模型,该基础语音降噪模型为基于仿真场景下的第一样本数据对训练得到的第一语音降噪模型,指定数据集包括多组由第二语音样本数据和第二带噪语音样本数据组成的第三样本数据对。
110.在本技术实施例中,先基于多种场景的仿真场景下的样本数据对,训练得到通用的语音降噪模型,然后将其作为基础语音降噪模型,通过目标场景下的样本数据对构成的训练数据集对其进行微调,实现了将在目标场景下实际采集的数据应用到模型训练中,使得目标语音降噪模型适用于该目标场景;且以仿真场景下的语音降噪模型为基础语音降噪模型,然后再基于目标场景下的样本数据对对其进行优化训练,能够提高基于目标场景下的样本数据对对其进行优化训练的效率,以快速完成基础语音降噪模型在指定的目标场景
下的优化,进而能够较为快速地得到多个场景分别适用的语音降噪模型。
111.本技术实施例提供了一种语音降噪模型的训练方法,该方法基于仿真场景下的样本数据对训练得到了多种场景通用的基础语音降噪模型,且在目标场景下,对初始语音样本数据和初始噪声样本数据进行混响处理,得到了包含目标环境混响的语音样本数据和噪声数据,再基于包含环境混响的语音样本数据和噪声数据得到了带噪语音样本数据,即得到了适配于目标场景的语音样本数据和带噪语音样本数据;进而再基于适配于目标场景的语音样本数据和带噪语音样本数据,对基础语音降噪模型进行训练,以使训练得到的目标语音降噪模型能够适用于该目标场景,从而基于该目标语音降噪模型对目标场景下的带噪语音数据进行降噪,能够提高降噪效果。
112.本技术实施例还提供了一种语音降噪模型的训练装置,参见图5,装置包括:
113.第一训练模块501,用于基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,第一语音样本数据为降噪后的第一带噪语音样本数据;
114.获取模块502,用于获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,初始语音样本数据为不包含仿真环境混响的第一语音样本数据,初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据;
115.处理模块503,用于在多种场景中的目标场景下,对多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对多组初始样本数据对中的初始噪声样本数据进行混响处理,得到多组第二样本数据对中的目标噪声数据;
116.混合模块504,用于对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据;
117.第二训练模块505,用于基于多组第三样本数据对,对第一语音降噪模型进行训练,得到目标语音降噪模型,目标语音降噪模型用于对目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。
118.在一些实施例中,处理模块503,用于:
119.对于每组初始样本数据对,通过目标播放设备在目标场景下播放初始语音样本数据,通过目标声音采集设备在目标场景下进行声音采集,得到包含目标环境混响的第二语音样本数据;或者,
120.对于每组初始样本数据对,获取目标场景下的冲激响应数据,对冲激响应数据和初始语音样本数据进行卷积处理,得到包含目标环境混响的第二语音样本数据。
121.在一些实施例中,处理模块503,用于:
122.对于每组初始样本数据对,确定初始噪声样本数据对应的噪声类型,采集目标场景下噪声类型对应的噪声,得到包含目标环境混响的目标噪声数据;或者,
123.对于每组初始样本数据对,通过目标播放设备在目标场景下播放初始噪声样本数据,通过目标声音采集设备在目标场景下进行声音采集,得到包含目标环境混响的目标噪声数据。
124.在一些实施例中,混合模块504,用于对于每组第二样本数据对,基于目标信噪比,
将第二语音样本数据和目标噪声数据进行混合,得到第二带噪语音样本数据。
125.在一些实施例中,目标噪声数据包括多种不同噪声类型的目标噪声数据,第二带噪语音样本数据为多个,混合模块504,用于:
126.基于目标信噪比,将多种不同噪声类型的目标噪声数据分别和第二语音样本数据进行混合,得到多个第二带噪语音样本数据;
127.对于每种噪声类型的目标噪声数据,将目标噪声数据和与其噪声类型不同的至少一个目标噪声数据进行混合,得到多个混合噪声数据,基于目标信噪比,将多个混合噪声数据分别和第二语音样本数据进行混合,得到多个第二带噪语音样本数据。
128.在一些实施例中,第二语音样本数据包括多种不同人的第二语音样本数据,第二带噪语音样本数据为多个,混合模块504,用于:
129.基于目标信噪比,将多种不同人的第二语音样本数据分别和目标噪声数据进行混合,得到多个第二带噪语音样本数据;
130.对于每种人的第二语音样本数据,将第二语音样本数据和与其人不同的至少一个第二语音样本数据进行混合,得到多个混合语音样本数据,基于目标信噪比,将多个混合语音样本数据分别和目标噪声数据进行混合,得到多个第二带噪语音样本数据。
131.本技术实施例提供了一种语音降噪模型的训练装置,其基于仿真场景下的样本数据对训练得到了多种场景通用的基础语音降噪模型,且在目标场景下,对初始语音样本数据和初始噪声样本数据进行混响处理,得到了包含目标环境混响的语音样本数据和噪声数据,再基于包含环境混响的语音样本数据和噪声数据得到了带噪语音样本数据,即得到了适配于目标场景的语音样本数据和带噪语音样本数据;进而再基于适配于目标场景的语音样本数据和带噪语音样本数据,对基础语音降噪模型进行训练,以使训练得到的目标语音降噪模型能够适用于该目标场景,从而基于该目标语音降噪模型对目标场景下的带噪语音数据进行降噪,能够提高降噪效果。
132.需要说明的是:上述实施例提供的语音降噪模型的训练装置仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音降噪模型的训练装置与语音降噪模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
133.在一些实施例中,计算机设备提供为终端。图6示出了本技术一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
134.通常,终端600包括有:处理器601和存储器602。
135.处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主
处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
136.存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本技术中方法实施例提供的语音降噪模型的训练方法。
137.在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
138.外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
139.射频电路604用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
140.显示屏605用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
141.摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单温闪光灯,也可以是双温闪光灯。双温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同温下的光线补偿。
142.音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
143.定位组件608用于定位终端600的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件608可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
144.电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
145.在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器614以及接近传感器615。
146.加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
147.陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3d动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
148.压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对ui界面上的可操作
性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
149.光学传感器614用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器614采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器614采集的环境光强度,动态调整摄像头组件606的拍摄参数。
150.接近传感器615,也称距离传感器,通常设置在终端600的前面板。接近传感器615用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器615检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器615检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
151.本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
152.在一些实施例中,计算机设备提供为服务器,图7是本技术实施例提供的一种服务器的框图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)701和一个或一个以上的存储器702,其中,存储器702用于存储可执行程序代码,处理器701被配置为执行上述可执行程序代码,以实现上述各个方法实施例提供的语音降噪模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
153.在示例性实施例中,还提供了一种包括程序代码的存储介质,例如包括程序代码的存储器702,上述程序代码可由服务器700的处理器701执行以完成上述语音降噪模型的训练方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、cd-rom(compact disc read-only memory,只读光盘)、磁带、软盘和光数据存储设备等。
154.本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现上述任一实现方式的语音降噪模型的训练方法。
155.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得计算机设备执行上述任一实现方式的语音降噪模型的训练方法。
156.在一些实施例中,本技术实施例所涉及的计算机程序产品可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
157.以上仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则
之内,所作的任何修改、等同替换、改进等,均应包括在本技术的保护范围之内。
技术特征:
1.一种语音降噪模型的训练方法,其特征在于,所述方法包括:基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,所述第一语音样本数据为降噪后的所述第一带噪语音样本数据;获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,所述初始语音样本数据为不包含仿真环境混响的所述第一语音样本数据,所述初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据;在所述多种场景中的目标场景下,对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据;对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据;基于多组第三样本数据对,对所述第一语音降噪模型进行训练,得到目标语音降噪模型,所述目标语音降噪模型用于对所述目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。2.根据权利要求1所述的方法,其特征在于,所述对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,包括:对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始语音样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含环境噪声和目标环境混响的语音数据,对所述语音数据进行降噪处理,得到包含所述目标环境混响的所述第二语音样本数据;或者,对于每组初始样本数据对,获取所述目标场景下的冲激响应数据,对所述冲激响应数据和所述初始语音样本数据进行卷积处理,得到包含所述目标环境混响的所述第二语音样本数据。3.根据权利要求1所述的方法,其特征在于,所述对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据,包括:对于每组初始样本数据对,确定所述初始噪声样本数据对应的噪声类型,采集所述目标场景下所述噪声类型对应的噪声,得到包含所述目标环境混响的所述目标噪声数据;或者,对于每组初始样本数据对,通过目标播放设备在所述目标场景下播放所述初始噪声样本数据,通过目标声音采集设备在所述目标场景下进行声音采集,得到包含所述目标环境混响的所述目标噪声数据。4.根据权利要求1所述的方法,其特征在于,所述对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据,包括:对于每组第二样本数据对,基于目标信噪比,将所述第二语音样本数据和所述目标噪声数据进行混合,得到所述第二带噪语音样本数据。5.根据权利要求4所述的方法,其特征在于,所述目标噪声数据包括多种不同噪声类型
的目标噪声数据,所述第二带噪语音样本数据为多个,所述基于目标信噪比,将所述第二语音样本数据和所述目标噪声数据进行混合,得到所述第二带噪语音样本数据,包括以下至少一种实现方式:基于所述目标信噪比,将所述多种不同噪声类型的目标噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据;对于每种噪声类型的目标噪声数据,将所述目标噪声数据和与其噪声类型不同的至少一个目标噪声数据进行混合,得到多个混合噪声数据,基于所述目标信噪比,将所述多个混合噪声数据分别和所述第二语音样本数据进行混合,得到多个第二带噪语音样本数据。6.根据权利要求4所述的方法,其特征在于,所述第二语音样本数据包括多种不同人的第二语音样本数据,所述第二带噪语音样本数据为多个,所述基于目标信噪比,将所述第二语音样本数据和所述目标噪声数据进行混合,得到所述第二带噪语音样本数据,包括以下至少一种实现方式:基于所述目标信噪比,将所述多种不同人的第二语音样本数据分别和所述目标噪声数据进行混合,得到多个第二带噪语音样本数据;对于每种人的第二语音样本数据,将所述第二语音样本数据和与其人不同的至少一个第二语音样本数据进行混合,得到多个混合语音样本数据,基于所述目标信噪比,将所述多个混合语音样本数据分别和所述目标噪声数据进行混合,得到多个第二带噪语音样本数据。7.一种语音降噪模型的训练装置,其特征在于,所述装置包括:第一训练模块,用于基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型,每组第一样本数据对包括第一语音样本数据和第一带噪语音样本数据,所述第一语音样本数据为降噪后的所述第一带噪语音样本数据;获取模块,用于获取多组初始样本数据对,每组初始样本数据对包括初始语音样本数据和初始噪声样本数据,所述初始语音样本数据为不包含仿真环境混响的所述第一语音样本数据,所述初始噪声样本数据是对第一带噪语音样本数据去除语音数据和仿真环境混响后的数据;处理模块,用于在所述多种场景中的目标场景下,对所述多组初始样本数据对中的初始语音样本数据进行混响处理,得到包含目标环境混响的多组第二样本数据对中的第二语音样本数据,对所述多组初始样本数据对中的初始噪声样本数据进行混响处理,得到所述多组第二样本数据对中的目标噪声数据;混合模块,用于对每组第二样本数据对中的第二语音样本数据和目标噪声数据进行混合,得到多个第二带噪语音样本数据;第二训练模块,用于基于所述多组第三样本数据对,对所述第一语音降噪模型进行训练,得到目标语音降噪模型,所述目标语音降噪模型用于对所述目标场景下的带噪语音数据进行降噪,每组第三样本数据对包括第二语音样本数据和第二带噪语音样本数据。8.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至权利要求6任一项所述的语音降噪模型的训练方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至权利要求6任一项所述的语音降噪模型的训练方法。10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行如权利要求1至权利要求6任一项所述的语音降噪模型的训练方法。
技术总结
本申请提供了一种语音降噪模型的训练方法、装置、设备、存储介质及产品,属于音频信号处理技术领域。方法包括:基于多种场景的仿真场景下的多组第一样本数据对,训练得到第一语音降噪模型;在多种场景中的目标场景下,对每组初始样本数据对中的初始语音样本数据和初始噪声样本数据分别进行混响处理,得到包含目标环境混响的第二语音样本数据和目标噪声数据,对第二语音样本数据和目标噪声数据进行混合,得到第二带噪语音样本数据;基于多组包括第二语音样本数据和目标噪声数据的第三样本数据对,对第一语音降噪模型进行训练,得到目标语音降噪模型;该方法使目标语音降噪模型适用于该目标场景,能够提高对该目标场景下的带噪语音数据的降噪效果。噪语音数据的降噪效果。噪语音数据的降噪效果。
技术研发人员:
李良斌
受保护的技术使用者:
北京声智科技有限公司
技术研发日:
2022.08.11
技术公布日:
2022/11/11