语音转换模型训练方法、语音转换方法及装置、设备与流程

阅读: 评论:0



1.本技术涉及语音处理技术领域,尤其涉及一种语音转换模型训练方法、语音转换方法及语音转换模型训练装置、电子设备、计算机可读存储介质。


背景技术:



2.语音转换(voice conversion,vc),即在保留源语音中说话内容信息的基础上,将源语音的音转换为另一个人的音的过程,语音转换是语音处理的一个技术领域,是一门充满挑战性而由具有很强应用价值的任务。
3.在语音转换任务中,通常是利用语音转换模型将语音音频中的内容特征信息与说话人特征信息进行分离,之后将其合成便可得到转换后的语音。因此,语音转换模型对内容特征信息或说话人特征信息的解耦能力,极大地决定着语音转换模型的转换质量高低。


技术实现要素:



4.本技术实施例的主要目的在于提出一种语音转换模型训练方法、语音转换方法及语音转换模型训练装置、电子设备、计算机可读存储介质,能够提升语音转换模型对说话人特征的解耦能力,提高语音转换质量。
5.为实现上述目的,本技术实施例的第一方面提出了一种语音转换模型训练方法,所述方法包括:
6.获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频;
7.将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量;
8.确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值;
9.以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。
10.根据本发明一些实施例提供的语音转换模型训练方法,所述确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值,包括:
11.确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一余弦相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二余弦相似度值;
12.所述以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练,包括:
13.以最大化所述第一余弦相似度值,最小化所述第二余弦相似度值为训练目标,对所述语音转换模型进行训练。
14.根据本发明一些实施例提供的语音转换模型训练方法,所述以最大化所述第一余弦相似度值,最小化所述第二余弦相似度值为训练目标,对所述语音转换模型进行训练,包括:
15.根据最大化所述第一余弦相似度值的训练目标,确定第一损失函数;
16.根据最小化所述第二余弦相似度值的训练目标,确定第二损失函数;
17.基于所述第一损失函数和所述第二损失函数对所述语音转换模型进行训练。
18.根据本发明一些实施例提供的语音转换模型训练方法,所述第一损失函数的公式表示如下:
19.l
recon1
=|α
1-1|,其中,
20.所述l
recon1
表示所述第一损失函数,所述α1为所述第一余弦相似度值;
21.所述第二损失函数的公式表示如下:
22.l
recon2
=|α2+1|,其中,
23.所述l
recon2
表示所述第二损失函数,所述α2为所述第二余弦相似度值。
24.根据本发明一些实施例提供的语音转换模型训练方法,所述方法还包括:
25.从所述第一语音音频样本、所述第二语音音频样本和所述第三语音音频样本中选取至少一个作为训练语音音频样本;
26.将所述训练语音音频样本输入至所述语音转换模型,以通过所述语音转换模型得到所述训练语音音频样本对应的重构语音音频;
27.根据所述训练语音音频样本和所述重构语音音频确定第三损失函数,并基于所述第三损失函数对所述语音转换模型进行训练,所述第三损失函数用于确定所述训练语音音频样本和所述重构语音音频之间的差异。
28.根据本发明一些实施例提供的语音转换模型训练方法,所述第三损失函数的公式表示如下:
29.l
recon3
=‖x
θ-x

θ
‖1,其中,
30.所述l
recon3
表示所述第三损失函数,所述x
θ
为所述训练语音音频样本,所述x

θ
为所述重构语音音频,‖
·
‖1表示l1范数。
31.为实现上述目的,本技术实施例的第二方面提出了一种语音转换方法,所述方法包括:
32.获取待转换的源语音音频和目标语音音频;
33.将所述源语音音频和所述目标语音音频输入到预设的语音转换模型,以通过所述语音转换模型生成保留所述源语音音频中的内容信息且具备所述目标语音音频中的说话人特征的语音,其中,所述语音转换模型根据如上述第一方面所述的方法训练得到。
34.为实现上述目的,本技术实施例的第三方面提出了一种语音转换模型训练装置,所述装置包括:
35.样本获取模块,用于获取第一说话者说话的第一语音音频样本和第二语音音频样
本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频;
36.特征获取模块,用于将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量;
37.相似度值获取模块,用于确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值;
38.模型训练模块,用于以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。
39.为实现上述目的,本技术实施例的第四方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法;或者,实现上述第二方面所述的方法。
40.为实现上述目的,本技术实施例的第五方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法;或者,实现上述第二方面所述的方法。
41.本技术提出一种语音转换模型训练方法、语音转换方法及语音转换模型训练装置、电子设备、计算机可读存储介质,所述语音转换模型训练方法通过获取第一说话者不同说话内容的第一语音音频样本和第二语音音频样本、第二说话者的第三语音音频样本,并将第一语音音频样本、第二语音音频样本和第三语音音频样本输入至预设的语音转换模型,得到第一语音音频样本对应的第一说话人特征向量、第二语音音频样本对应的第二说话人特征向量以及第三语音音频样本对应的第三说话人特征向量,从而通过确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值,第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值,并以最大化第一相似度值,最小化第二相似度值为训练目标,对所述语音转换模型进行训练。本技术实施例以最大化相同说话者的说话人特征向量之间的相似度值、最小化不同说话者的说话人特征向量之间的相似度值为训练目标,对语音转换模型进行训练,以使语音转换模型生成的语音达到相同说话者的音信息高度相近,而不同说话者的音信息极大不同的效果,提高了语音转换模型对说话人特征的解耦能力,从而提高语音转换质量。
附图说明
42.图1是本技术实施例提供的一种语音转换模型训练方法的流程示意图;
43.图2是图1中步骤s130的子步骤流程图;
44.图3是图1中步骤s140的子步骤流程图;
45.图4是图3中步骤s310的子步骤流程图;
46.图5是本技术另一实施例提供的语音转换模型训练方法的流程示意图;
47.图6是本技术实施例提供的一种语音转换方法的流程示意图;
48.图7是本技术实施例提供的一种语音转换模型的结构示意图;
49.图8是本技术实施例提供的一种语音转换模型训练装置的结构示意图;
50.图9是本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
52.需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
53.语音转换(voice conversion,vc),即在保留源语音中说话内容信息的基础上,将源语音的音转换为另一个人的音的过程,语音转换是语音处理的一个技术领域,是一门充满挑战性而由具有很强应用价值的任务。
54.在语音转换任务中,通常是利用语音转换模型将语音音频中的内容特征信息与说话人特征信息进行分离,之后将其合成便可得到转换后的语音。因此,语音转换模型对内容特征信息或说话人特征信息的解耦能力,极大地决定着语音转换模型的转换质量高低。
55.基于此,本技术实施例提供了一种语音转换模型训练方法、语音转换方法及语音转换模型训练装置、电子设备、计算机可读存储介质,能够提升语音转换模型对说话人特征的解耦能力,提高语音转换质量。
56.本技术实施例提供的一种语音转换模型训练方法、语音转换方法及语音转换模型训练装置、电子设备、计算机可读存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的语音转换模型训练方法。
57.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
58.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
59.本技术实施例提供的方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现本技术实施例提供的方法的应用等,但并不局限于以上形式。
60.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
61.请参见图1,图1示出了本技术实施例提供的一种语音转换模型训练方法的流程示意图。如图1所示,所述语音转换模型训练方法包括但不限于步骤s110至s140:
62.步骤s110,获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频。
63.可以理解的是,获取第一说话者说话的第一语音音频样本x1,第二语音音频样本x2,其中,第一语音音频样本x1和第二语音音频样本x2为第一说话者不同说话内容的语音音频,也就是说,第一语音音频样本x1和第二语音音频样本x2的内容信息不同;获取第二说话者说话的第三语音音频样本x3,其中,第三语音音频样本x3的说话内容可以第一语音音频样本x1和第二语音音频样本x2相同,亦可以与第一语音音频样本x1和第二语音音频样本x2不同。
64.步骤s120,将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量。
65.在一些实施例中,在将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型之前,所述方法还包括:
66.对所述第一语音音频样本、所述第二语音音频样本和所述第三语音音频样本进行预处理,得到所述第一语音音频样本对应的第一语音音频序列,所述第二语音音频样本对应的第二语音音频序列,所述第三语音音频样本对应的第三语音音频序列;
67.所述将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,包括:
68.将所述第一语音音频序列、所述第二语音音频序列和所述第三语音音频序列输入到预设的语音转换模型。
69.可以理解的是,通过预设的语音转换模型获取各个语音音频样本对应的说话人特征向量,根据语音转换模型的结构,说话人特征向量的获取方式包括以下几种情况:
70.语音转换模型包括有编码器e
α
,编码器e
α
用于确定音频样本中的说话人特征向量。示例性的,将第一语音音频样本x1输入到语音转换模型中的编码器e
α
,通过编码器e
α
得到第一语音音频样本x1对应的第一说话人特征向量s1。
71.语音转换模型只包括编码器e
β
,编码器e
β
用于确定音频样本中的内容信息特征向量。示例性的,将第一语音音频样本x1输入到语音转换模型中编码器e
β
,通过编码器e
β
得到
第一语音音频样本x1对应的潜向量序列,通过实例化归一算法(instance normalization,in)将潜向量序列中包含的说话人特征归一化,从而去除说话人的个性特征,得到第一内容信息特征向量c1,之后从潜向量序列中减去第一内容信息特征向量c1,得到第一语音音频样本x1对应的第一说话人特征向量s1。
72.步骤s130,确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值。
73.步骤s140,以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。
74.需要说明的是,两个说话人特征向量之间的相似度值越小,则这两个说话人特征向量越有可能是通过同一个说话者得到的,而两个说话人特征向量之间的相似度值越大,则这两个说话人特征向量越有可能是通过不同说话者得到的。因此,以最大化由同个说话者得到的第一说话人特征向量和第二说话人特征向量之间的第一相似度值,以及最小化由不同说话者得到的第三说话人特征向量和第一说话人特征向量或者第二说话人特征向量之间第二相似度值为训练目标,也就是希望语音转换模型生成的语音中同个说话者的音信息尽可能相近,而不同说话者的音信息尽可能不同,对语音转换模型进行训练,以提升语音转换模型对说话人特征的解耦能力,从而提高语音转换质量,实现更好的语音转换效果。
75.可以理解的是,在步骤s130中,第三说话人特征向量与第一说话人特征向量、第二说话人特征向量为不同说话者得到的说话人特征向量,因此,将第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值作为衡量不同说话者的说话人特征向量之间的相似程度。
76.一方面,第二相似度值可以是第三说话人特征向量与第一说话人特征向量的相似性度量,或者是第三说话人特征向量与第二说话人特征向量之间的相似性度量;
77.另一方面,在一些实施例中,本技术实施例提供的方法还包括确定第三说话人特征向量与第一说话人特征向量之间的第二相似度值θ
21
以及第三说话人特征向量与第二说话人特征向量之间的第二相似度值θ
22
,以最小化第二相似度值θ
21
和θ
22
为训练目标,对语音转换模型进行训练。
78.也就是说,第二相似度值为衡量不同说话者的说话人特征向量之间相似程度的相似性度量,对本技术实施例来说,第二相似度值是第三说话人特征向量与第一说话人特征向量、第二说话人特征向量中任意一个说话人特征向量之间的相似性值,本技术实施例亦可以同时基于第三说话人特征向量与第一说话人特征向量之间的第二相似度值θ
21
以及第三说话人特征向量与第二说话人特征向量之间的第二相似度值θ
22
,对语音转换模型进行训练。
79.在一些实施例中,参见图2和图3,图2示出了图1中步骤s130的子步骤示意图,图2示出了图1中步骤s140的子步骤示意图,如图2和3所示,步骤s130包括:
80.步骤s210,确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一余弦相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二余弦相似度值;
81.步骤s140包括:
82.步骤s310,以最大化所述第一余弦相似度值,最小化所述第二余弦相似度值为训练目标,对所述语音转换模型进行训练。
83.示例性的,语音转换模型包含有编码器e
α
,编码器e
α
用于确定音频样本中与内容信息特征无关的说话人特征向量。以确定第一说话人特征向量x1与第二说话人特征向量x2之间的第一余弦相似度值为例,编码器e
α
中embedding嵌入:x1、x2的张量形状为(b,l,c),其中b表征batch-size大小,l表征语音的长度,c表征通道维度,将其转换为(b,l*c),通过计算转换后的x1、x2的内积,将得到的内积除以x1、x2的模,得到一个数组长度为b的数组,对该数组取平均值,即可以得到数值范围为-1到1的第一余弦相似度值。
84.可以理解的是,根据余弦相似度值的区间范围,最大化第一余弦相似度值,也就是使第一余弦相似度值尽可能接近数值1,而最小化第二余弦相似度和第三余弦相似度值,也就是使第二余弦相似度值和第三余弦相似度值尽可能接近数值-1。
85.需要说明的是,上述实施例提供了能够衡量说话人特征向量之间相似程度的余弦相似度,一方面,通过确定第一说话人特征向量和第二说话人特征向量之间的第一余弦相似度值,以及第三说话人特征向量与第一说话人特征向量或第二说话人特征向量之间的第二余弦相似度值,并以最大化第一余弦相似度值、最小化第二余弦相似度值为训练目标对语音转换模型进行训练,使得语音转换模型生成的语音能够达到相同说话者的音信息高度相近,而不同说话者的音信息极大不同的效果;另一方面,除了上述实施例描述的余弦相似度外,还可以选取欧式距离、马氏距离等作为本技术实施例中衡量说话人特征向量之间相似程度的相似性度量,本技术实施例在此不作具体限制。
86.参见图4,图4示出了图3中步骤s310的子步骤示意图。如图4所示,语音转换模型训练方法包括但不限于步骤s410至s430:
87.步骤s410,根据最大化所述第一余弦相似度值的训练目标,确定第一损失函数。
88.在一些实施例中,所述第一损失函数的公式表示如下:
89.l
recon1
=|α
1-1|,其中,
90.所述l
recon1
表示所述第一损失函数,所述α1为所述第一余弦相似度值;
91.可以理解的是,余弦相似度值的区间范围为-1至1,最大化第一余弦相似度值的训练目标,也就是使第一余弦相似度值尽可能接近数值1,因此可以确定第一损失函数l
recon1
为第一余弦相似度值α1与数值1之间的差值,从而根据第一损失函数l
recon1
对语音转换模型进行训练。
92.步骤s420,根据最小化所述第二余弦相似度值的训练目标,确定第二损失函数。
93.在一些实施例中,所述第二损失函数的公式表示如下:
94.l
recon2
=|α2+1|,其中,
95.所述l
recon2
表示所述第二损失函数,所述α2为所述第二余弦相似度值。
96.可以理解的是,余弦相似度值的区间范围为-1至1,最小化第二余弦相似度值的训练目标,也就是使第二余弦相似度值尽可能接近数值-1,因此可以确定第而损失函数l
recon2
为第二余弦相似度值α2与数值-1之间的差值,从而根据第二损失函数l
recon2
对语音转换模型进行训练。
97.在一些实施例中,本技术实施例提供的方法包括确定第三说话人特征向量与第一
说话人特征向量之间的第二相似性值α
21
以及第三说话人特征向量与第二说话人特征向量之间的第二相似性值α
22
,则根据最小化第二余弦相似度值的训练目标,确定第二损失函数,包括:
98.根据最小化第二余弦相似度值α
21
和α
22
的训练目标,确定第二损失函数。
99.进一步的,第二损失函数的公式表示如下:
100.l
recon2
=|(α
22
+1)+(α
22
+1)|,其中,
101.所述l
recon2
表示所述第二损失函数,所述α
21
为所述第三说话人特征向量与所述第一说话人特征向量之间的第二相似性值,所述α
22
为所述第三说话人特征向量与所述第二说话人特征向量之间的第二相似性值。
102.步骤s430,基于所述第一损失函数和所述第二损失函数对所述语音转换模型进行训练。
103.可以理解的是,当最大化第一余弦相似度值和最小化第二余弦相似度值共同最为语音转换模型训练过程中的训练目标,则可以将第一损失函数和第二损失函数进行合并,并基于合并后的损失函数对语音转换模型进行训练。
104.参见图5,图5示出了本技术另一实施例提供的一种语音转换模型训练方法的流程示意图。如图5所示,语音转换模型训练方法包括但不限于步骤s510至s530:
105.步骤s510,从所述第一语音音频样本、所述第二语音音频样本和所述第三语音音频样本中选取至少一个作为训练语音音频样本。
106.步骤s520,将所述训练语音音频样本输入至所述语音转换模型,以通过所述语音转换模型得到所述训练语音音频样本对应的重构语音音频。
107.步骤s530,根据所述训练语音音频样本和所述重构语音音频确定第三损失函数,并基于所述第三损失函数对所述语音转换模型进行训练,所述第三损失函数用于确定所述训练语音音频样本和所述重构语音音频之间的差异。
108.示例性的,从第一语音音频样本x1、第二语音音频样本x2和第三语音音频样本x3中选取第一语音音频样本x1作为训练语音音频样本x
θ
,将训练语音音频样本x
θ
输入至语音转换模型,以通过语音转换模型得到训练语音音频样本x
θ
对应的重构语音音频x

θ
,并根据训练语音音频样本x
θ
和重构语音音频x

θ
之间的差异确定第三损失函数,并基于第三损失函数对语音转换模型进行训练。
109.通过构建如上述实施例提供的语音重构任务,对语音转换模型进行训练,使得语音转换模型能够生成高质量语音。示例性的,参见图7,图7示出了本技术实施例提供的一种语音转换模型的结构示意图,本技术实施例提供的方法应用于如图7所示的语音转换模型,该语音转换模型包括编码器e
α
、编码器eb以及解码器d
ω
,编码器e
α
用于获取说话人特征向量,编码器eb用于获取内容信息特征向量,解码器d
ω
用于合并说话人特征向量和内容信息特征向量,完成语音转换。将训练语音音频样本x
θ
输入到语音转换模型的编码器e
α
和编码器eb,分别通过编码器e
α
和编码器eb获取训练语音音频样本x
θ
对应的说话人特征向量s
θ
和内容信息特征向量c
θ
,进而通过解码器d
ω
合并说话人特征向量s
θ
和内容信息特征向量c
θ
,生成重构语音音频x

θ
,之后根据由训练语音音频样本x
θ
和重构语音音频x

θ
确定的第三损失函数,对解码器d
ω
进行训练,以使解码器d
ω
能够生成高质量语音。
110.可以理解的是,上述实施例提供的语音重构任务从第一语音音频样本、第二语音
音频样本和第三语音音频样本中选取至少一个作为训练语音音频样本对语音转换模型进行训练,可以理解的是,本技术实施例亦可选择除第一语音音频样本、第二语音音频样本和第三语音音频样本以外的语音音频样本作为训练语音音频样本,只要能基于该语音音频样本对语音转换模型进行训练,以使语音转换模型能够生成高质量语音即可,本技术在此不作具体限制。
111.在一些实施例中,所述第三损失函数的公式表示如下:
112.l
recon3
=‖x
θ-x

θ
‖1,其中,
113.所述l
recon3
表示所述第三损失函数,所述x
θ
为所述训练语音音频样本,所述x

θ
为所述重构语音音频,‖
·
‖1表示l1范数。
114.可以理解的是,第三损失函数亦可使用l2范数等其他损失函数,本技术在此不作具体限制。
115.在一些实施例中,本技术实施例提供的语音转换模型训练方法,还包括:
116.获取预设的判别器,所述判别器用于获取所述重构语音音频的语音真实度的判别结果;
117.基于所述判别结果,对所述语音转换模型进行训练直到所述判别结果满足预设的训练结束条件。
118.可以理解的是,通过判别器判别语音转换模型生成的重构语音音频是否为真实语音,当判别结果未满足预设的训练结束条件时,也就是重构语音音频是真实语音的概率值未达到训练结束阈值时,继续对语音转换模型进行训练,直至判别结果满足预设的训练结束条件,以使语音转换模型生成更为真实的语音音频。
119.在一些实施例中,如图7所示,所述语音转换模型包括有编码器e
β
,在训练过程中,将语音音频样本输入至编码器e
β
得到对应的潜向量序列,并通过in算法将潜向量序列中包含的说话人特征归一化,从而去除说话人的个性特征,得到与说话人特征极大无关的内容信息特征向量。
120.可以理解的是,在语音转换模型训练中加入in算法,结合用于获取内容信息特征的编码器,能够进一步去除内容信息特征向量中的说话人特征,以使内容信息特征向量尽可能地与说话人特征无关,提升语音转换模型对内容信息特征的解耦能力,从而提高语音转换质量,实现更好的语音转换效果。
121.下面通过一个具体实施例描述本技术实施例提供的语音转换模型训练方法:
122.参见图7,本技术实施例提供的语音转换模型训练方法应用于如图7所示的语音转换模型,该语音转换模型包括编码器e
α
、编码器eb以及解码器d
ω
,编码器e
α
用于获取说话人特征向量,编码器eb用于获取内容信息特征向量,解码器d
ω
用于合并说话人特征向量和内容信息特征向量,完成语音转换。
123.获取第一说话者说话的第一语音音频样本x1和第二语音音频样本x2、第二说话者说话的第三语音音频样本x3,其中,第一语音音频样本x1和第二语音音频样本x2为第一说话者不同说话内容的语音音频。
124.将第一语音音频样本x1、第二语音音频样本x2和第三语音音频样本x3输入至编码器e
α
,通过编码器e
α
获取第一语音音频样本x1对应的第一说话人特征向量s1、第二语音音频样本x2对应的第二说话人特征向量s2和第三语音音频样本x3对应的第三说话人特征向量
s3,确定第一说话人特征向量s1与第二说话人特征向量s2之间的第一相似度值以及第三说话人特征向量s3与第二说话人特征向量s2之间的第二相似度值,以最大化第一相似度值和最小化第二相似度值为训练目标,对编码器e
α
进行训练。
125.将第一语音音频样本x1作为训练语音音频样本x
θ
输入至编码器eb,通过编码器eb获取训练语音音频样本x
θ
的潜向量序列,通过in算法将潜向量序列中包含的说话人特征归一化,得到第一语音音频样本x1对应的第一内容信息特征向量c1,将第一说话人特征向量s1和第一内容信息特征向量c1输入解码器d
ω
,通过解码器d
ω
得到重构语音音频x

θ
,之后基于训练语音音频样本x
θ
和重构语音音频x

θ
之间的差异构建损失函数,对解码器d
ω
训练。
126.本技术提出一种所述语音转换模型训练方法,所述语音转换模型训练方法通过获取第一说话者不同说话内容的第一语音音频样本和第二语音音频样本、第二说话者的第三语音音频样本,并将第一语音音频样本、第二语音音频样本和第三语音音频样本输入至预设的语音转换模型,得到第一语音音频样本对应的第一说话人特征向量、第二语音音频样本对应的第二说话人特征向量以及第三语音音频样本对应的第三说话人特征向量,从而通过确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值,第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值,并以最大化第一相似度值,最小化第二相似度值为训练目标,对所述语音转换模型进行训练。本技术实施例以最大化相同说话者的说话人特征向量之间的相似度值、最小化不同说话者的说话人特征向量之间的相似度值为训练目标,对语音转换模型进行训练,以使语音转换模型生成的语音达到相同说话者的音信息高度相近,而不同说话者的音信息极大不同的效果,提高了语音转换模型对说话人特征的解耦能力,从而提高语音转换质量。
127.请参见图6,本技术实施例还提供了一种语音转换方法。如图6所示,所述语音转换方法包括但不限于步骤s610至s620:
128.步骤s610,获取待转换的源语音音频和目标语音音频。
129.步骤s620,将所述源语音音频和所述目标语音音频输入到预设的语音转换模型,以通过所述语音转换模型生成保留所述源语音音频中的内容信息且具备所述目标语音音频中的说话人特征的语音。
130.其中,所述语音转换模型根据如上述实施例提供的语音转换模型训练方法训练得到。
131.可以理解的是,利用本技术实施例提供的语音转换模型训练方法训练得到的语音转换模型进行语音转换,得到的语音保留源语音音频中的内容信息且具备目标语音音频中的说话人特征,并且语音中的内容信息与源语音音频中的说话人特征极大无关,而语音中的说话人特征与目标语音音频中的说话人特征高度相似,语音转换效果显著提高。
132.请参见图8,本技术实施例还提供了一种语音转换模型训练装置100,所述语音转换模型训练装置100包括:
133.样本获取模块110,用于获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频;
134.特征获取模块120,用于将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音
频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量;
135.相似度值获取模块130,用于确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值;
136.模型训练模块140,用于以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。
137.本技术提出一种语音转换模型训练装置,所述语音转换模型训练装置通过样本获取模块获取第一说话者不同说话内容的第一语音音频样本和第二语音音频样本、第二说话者的第三语音音频样本,特征获取模块将第一语音音频样本、第二语音音频样本和第三语音音频样本输入至预设的语音转换模型,得到第一语音音频样本对应的第一说话人特征向量、第二语音音频样本对应的第二说话人特征向量以及第三语音音频样本对应的第三说话人特征向量,从而通过相似度值获取模块确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值,第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值,模型训练模块以最大化第一相似度值,最小化第二相似度值为训练目标,对所述语音转换模型进行训练。本技术实施例以最大化相同说话者的说话人特征向量之间的相似度值、最小化不同说话者的说话人特征向量之间的相似度值为训练目标,对语音转换模型进行训练,以使语音转换模型生成的语音达到相同说话者的音信息高度相近,而不同说话者的音信息极大不同的效果,提高了语音转换模型对说话人特征的解耦能力,从而提高语音转换质量。
138.需要说明的是,上述装置的模块之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
139.请参见图9,图9示出本技术实施例提供的一种电子设备的硬件结构,电子设备包括:
140.处理器210,可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集合成电路(application specific integrated circuit,asic)、或者一个或多个集合成电路等方式实现,用于执行相关计算机程序,以实现本技术实施例所提供的技术方案;
141.存储器220,可以采用只读存储器(read only memory,rom)、静态存储设备、动态存储设备或者随机存取存储器(random access memory,ram)等形式实现。存储器220可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器220中,并由处理器210来调用执行本技术实施例的语音转换模型训练方法或语音转换方法;
142.输入/输出接口230,用于实现信息输入及输出;
143.通信接口240,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;和总线250,在设备的每个组件(例如处理器210、存储器220、输入/输出接口230和通信接口240)之间传输信息;
144.其中处理器210、存储器220、输入/输出接口230和通信接口240通过总线250实现彼此之间在设备内部的通信连接。
145.本技术实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个计算机程序,一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述语音转换模型训练方法或语音转换方法。
146.存储器作为一种计算机可读存储介质,可用于存储软件程序以及计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
147.本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
148.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
149.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
150.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
151.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
152.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
153.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集合成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或
通信连接,可以是电性,机械或其它的形式。
154.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
155.另外,在本技术每个实施例中的各功能单元可以集合成在一个处理单元中,也可以是每个单元单独物理存在,也可以两个或两个以上单元集合成在一个单元中。上述集合成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
156.集合成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术每个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
157.以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:


1.一种语音转换模型训练方法,其特征在于,所述方法包括:获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频;将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量;确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值;以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。2.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值,包括:确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一余弦相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二余弦相似度值;所述以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练,包括:以最大化所述第一余弦相似度值,最小化所述第二余弦相似度值为训练目标,对所述语音转换模型进行训练。3.根据权利要求2所述的语音转换模型训练方法,其特征在于,所述以最大化所述第一余弦相似度值,最小化所述第二余弦相似度值为训练目标,对所述语音转换模型进行训练,包括:根据最大化所述第一余弦相似度值的训练目标,确定第一损失函数;根据最小化所述第二余弦相似度值的训练目标,确定第二损失函数;基于所述第一损失函数和所述第二损失函数对所述语音转换模型进行训练。4.根据权利要求3所述的语音转换模型训练方法,其特征在于,所述第一损失函数的公式表示如下:l
recon1
=|α
1-1|,其中,所述l
recon1
表示所述第一损失函数,所述α1为所述第一余弦相似度值;所述第二损失函数的公式表示如下:l
recon2
=|α2+1|,其中,所述l
recon2
表示所述第二损失函数,所述α2为所述第二余弦相似度值。5.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述方法还包括:从所述第一语音音频样本、所述第二语音音频样本和所述第三语音音频样本中选取至少一个作为训练语音音频样本;
将所述训练语音音频样本输入至所述语音转换模型,以通过所述语音转换模型得到所述训练语音音频样本对应的重构语音音频;根据所述训练语音音频样本和所述重构语音音频确定第三损失函数,并基于所述第三损失函数对所述语音转换模型进行训练,所述第三损失函数用于确定所述训练语音音频样本和所述重构语音音频之间的差异。6.根据权利要求5所述的语音转换模型训练方法,其特征在于,所述第三损失函数的公式表示如下:l
recon3
=‖x
θ-x

θ
‖1,其中,所述l
recon3
表示所述第三损失函数,所述x
θ
为所述训练语音音频样本,所述x

θ
为所述重构语音音频,‖
·
‖1表示l1范数。7.一种语音转换方法,其特征在于,所述方法包括:获取待转换的源语音音频和目标语音音频;将所述源语音音频和所述目标语音音频输入到预设的语音转换模型,以通过所述语音转换模型生成保留所述源语音音频中的内容信息且具备所述目标语音音频中的说话人特征的语音,其中,所述语音转换模型根据如权利要求1至6任一项所述的语音转换模型训练方法训练得到。8.一种语音转换模型训练装置,其特征在于,所述装置包括:样本获取模块,用于获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,其中,所述第一语音音频样本和所述第二语音音频样本为所述第一说话者不同说话内容的语音音频;特征获取模块,用于将所述第一语音音频样本、第二语音音频样本和所述第三语音音频样本输入到预设的语音转换模型,以通过所述语音转换模型得到所述第一语音音频样本对应的第一说话人特征向量、所述第二语音音频样本对应的第二说话人特征向量以及所述第三语音音频样本对应的第三说话人特征向量;相似度值获取模块,用于确定所述第一说话人特征向量与所述第二说话人特征向量之间的第一相似度值,所述第三说话人特征向量与所述第一说话人特征向量或者所述第二说话人特征向量之间的第二相似度值;模型训练模块,用于以最大化所述第一相似度值,最小化所述第二相似度值为训练目标,对所述语音转换模型进行训练。9.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如权利要求1至6任一项所述的语音转换模型训练方法;或者,如权利要求7所述的语音转换方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现:如权利要求1至6任一项所述的语音转换模型训练方法;或者,
如权利要求7所述的语音转换方法。

技术总结


本申请涉及语音处理技术领域,提供了一种语音转换模型训练方法、语音转换方法及装置、设备,语音转换模型训练方法包括:获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本,并将其输入到语音转换模型得到对应的第一说话人特征向量、第二说话人特征向量以及第三说话人特征向量,确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值,第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值,并以最大化第一相似度值,最小化第二相似度值为训练目标,对语音转换模型进行训练,能够提高语音转换模型对说话人特征信息的解耦能力。型对说话人特征信息的解耦能力。型对说话人特征信息的解耦能力。


技术研发人员:

张旭龙 王健宗 程宁

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.05.30

技术公布日:

2022/9/2

本文发布于:2023-03-03 21:31:32,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/63923.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   向量   说话
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图