1.本技术实施例涉及计算机技术领域,特别涉及一种语音合成模型训练方法、语音合成方法、装置、计算机设备及存储介质。
背景技术:
2.语音合成技术(text-to-speech,tts)是指通过计算机设备将文本转换为音质好、自然流畅的语音的技术。近年来随着计算机技术的发展和深度学习的广泛应用,推动了语音合成技术的发展。
3.相关技术中,在训练语音合成模型的过程中,需要利用
样本语音和样本文本进行训练,由于该样本语音中包含了某种语言,因此在训练之后,该语音合成模型能够合成该语言的语音。但是该语音合成模型只能合成这一种语言的语音,存在局限性。
技术实现要素:
4.本技术实施例提供了一种语音合成模型训练方法、装置、计算机设备及存储介质,实现了语音合成模型的跨
语种合成,且合成的语音具有较高的自然度。
5.
所述技术方案如下:
6.一方面,提供了一种语音合成模型训练方法,所述方法包括:
7.获取第一样本文本信息、第一样本语音和第二样本语音,所述第一样本文本信息包括属于第一语种的文本内容,所述第一样本语音和所述第二样本语音为同一样本对象的语音,所述第一样本语音属于第一语种且与所述第一样本文本信息对应,所述第二样本语音属于第二语种,所述第一语种与所述第二语种不同;
8.调用语音合成模型,提取所述第一样本文本信息对应的第一预测文本
特征,提取所述第二样本语音对应的第一预测音特征,基于所述第一预测文本特征和所述第一预测音特征合成第一预测语音;
9.调用语种分类模型,对所述第一预测音特征进行语种反转分类,得到所述第二样本语音所属的第一预测语种,所述语种反转分类用于使所述第一预测语种与所述第一预测音特征表示的语种相反;
10.基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型,以使所述第一预测语种与所述第二语种之间的差值减小,且所述第一样本语音与所述第一预测语音之间的差值减小。
11.另一方面,提供了一种语音合成模型训练装置,所述装置包括:
12.样本获取模块,用于获取第一样本文本信息、第一样本语音和第二样本语音,所述第一样本文本信息包括属于第一语种的文本内容,所述第一样本语音和所述第二样本语音为同一样本对象的语音,所述第一样本语音属于第一语种且与所述第一样本文本信息对应,所述第二样本语音属于第二语种,所述第一语种与所述第二语种不同;
13.语音合成模块,用于调用语音合成模型,提取所述第一样本文本信息对应的第一
预测文本特征,提取所述第二样本语音对应的第一预测音特征,基于所述第一预测文本特征和所述第一预测音特征合成第一预测语音;
14.语种分类模块,用于调用语种分类模型,对所述第一预测音特征进行语种反转分类,得到所述第二样本语音所属的第一预测语种,所述语种反转分类用于使所述第一预测语种与所述第一预测音特征表示的语种相反;
15.模型训练模块,用于基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型,以使所述第一预测语种与所述第二语种之间的差值减小,且所述第一样本语音与所述第一预测语音之间的差值减小。
16.在一种可能实现方式中,所述语种分类模块,用于:
17.所述语种分类模型包括第一反转层和第一分类层,调用所述第一反转层,对所述第一预测音特征进行特征反转,得到第一反转音特征,所述第一反转音特征表示的含义与所述第一预测音特征表示的含义相反;并调用所述第一分类层,对所述第一反转音特征进行分类,得到所述第一预测语种;或者,
18.所述语种分类模型包括第二反转层和第二分类层,调用所述第二分类层,对所述第一预测音特征进行语种分类,得到第一分类信息,所述第一分类信息表示当前语种分类得到的所述第二样本语音所属的语种;调用所述第二反转层,对所述第一分类信息进行反转,得到第二分类信息,并基于所述第二分类信息确定所述第一预测语种。
19.在另一种可能实现方式中,所述样本对象具有对应的样本对象标识,所述装置还包括:
20.对象分类模块,用于调用对象分类模型,对所述第一预测音特征进行对象分类,得到所述样本对象对应的预测对象标识;
21.所述模型训练模块,用于基于所述第一预测语种和所述第二语种、所述第一样本语音和所述第一预测语音,以及所述样本对象标识和所述预测对象标识,训练所述对象分类模型、所述语种分类模型和所述语音合成模型。
22.在另一种可能实现方式中,所述语音合成模型包括文本特征提取网络、音特征提取网络和语音合成网络,所述语音合成模块,包括:
23.文本特征提取单元,用于调用所述文本特征提取网络,提取所述第一样本文本信息对应的所述第一预测文本特征;
24.音特征提取单元,用于调用所述音特征提取网络,提取所述第二样本语音对应的所述第一预测音特征;
25.语音合成单元,用于调用所述语音合成网络,基于所述第一预测文本特征和所述第一预测音特征合成所述第一预测语音。
26.在另一种可能实现方式中,所述语音合成模型包括文本特征融合网络和至少两种类型的文本特征提取网络,所述文本特征提取单元,用于:
27.分别调用所述至少两种类型的文本特征提取网络,对所述第一样本文本信息进行文本特征提取,得到至少两种类型的第二预测文本特征,不同类型的文本特征所描述的所述第一样本文本信息中不同内容的重要程度不同;
28.调用所述文本特征融合网络,分别基于所述至少两种类型的文本特征提取网络的
第一权重,对所述至少两种类型的第二预测文本特征进行加权处理,得到所述第一预测文本特征。
29.在另一种可能实现方式中,所述文本特征提取网络包括n组编码层,n为大于2的整数;所述文本特征提取单元,用于:
30.调用第1组编码层,对所述第一样本文本信息进行编码,得到所述第1组编码层输出的编码特征;
31.在第i组编码层中包括至少两个编码层的情况下,分别调用所述至少两个编码层对第i-1组编码层输出的编码特征进行编码,得到所述至少两个编码特征,并调用所述第i组编码层对应的融合层,对所述至少两个编码特征以及所述第i-1组编码层输出的编码特征进行融合,将融合后的编码特征确定为所述第i组编码层输出的编码特征;或者,
32.在所述第i组编码层中包括一个编码层的情况下,调用所述第i组编码层对所述第i-1组编码层输出的编码特征进行编码,得到所述第i组编码层输出的编码特征;
33.其中,最后一组编码层输出的编码特征为所述第一预测文本特征,i为大于1且不大于n的整数,所述第1组编码层包括一个编码层,在第2组至第n组编码层中,存在包括至少两个编码层的组。
34.在另一种可能实现方式中,所述音特征提取网络包括音特征提取层和第一注意力层,所述第一注意力层包括多个参考对象的参考音特征;所述音特征提取单元,用于:
35.调用所述音特征提取层,对所述第二样本语音进行特征提取,得到所述样本对象的初始预测音特征;
36.调用所述第一注意力层,确定所述初始预测音特征对应于每个参考对象的第二权重,所述第二权重表示对应的参考对象的参考音特征与所述初始预测音特征之间的相似程度,基于多个第二权重,对所述多个参考对象的参考音特征进行加权处理,得到所述第一预测音特征。
37.在另一种可能实现方式中,所述语音合成网络包括第二注意力层和解码层,所述语音合成单元,用于:
38.调用所述第二注意力层,对所述第一预测文本特征和所述第一预测音特征进行融合,得到融合特征;
39.调用所述解码层,对所述融合特征进行解码,得到预测声学特征,基于所述预测声学特征,确定所述第一预测语音。
40.在另一种可能实现方式中,所述装置还包括:
41.信息获取模块,用于获取目标文本信息和参考语音,所述参考语音属于任一对象且属于任一语种,所述目标文本信息包括属于目标语种的文本内容;
42.所述语音合成模块,还用于调用所述语音合成模型,提取所述目标文本信息对应的目标文本特征,提取所述参考语音对应的目标音特征,基于所述目标文本特征和所述目标音特征,合成所述目标文本信息对应的、属于所述目标语种的目标语音。
43.在另一种可能实现方式中,第一数据集包括多个样本文本信息和多个样本语音,且所述第一数据集中的所述多个样本语音属于至少两种语种且属于至少两个样本对象;所述第一样本文本信息、所述第一样本语音和所述第二样本语音属于所述第一数据集;
44.第二数据集包括多个样本文本信息和多个样本语音,所述第二数据集包括属于所述第一语种的文本信息,包括属于所述第二语种的样本语音,且不包括属于所述第一语种的样本语音,所述第二数据集中的所述多个样本语音属于同一个目标样本对象;
45.所述装置还包括:
46.所述样本获取模块,还用于在基于所述第一数据集训练所述语种分类模型和所述语音合成模型之后,从所述第二数据集中,获取第二样本文本信息以及第三样本语音,所述第一样本文本信息包括属于所述第一语种的文本内容;
47.所述语音合成模块,还用于调用所述语音合成模型,提取所述第二样本文本信息对应的第三预测文本特征,提取所述第三样本语音对应的第二预测音特征,基于所述第三预测文本特征和所述第二预测音特征合成第二预测语音;
48.所述语种分类模块,还用于调用所述语种分类模型,对所述第二预测音特征进行语种反转分类,得到所述第三样本语音所属的第二预测语种,所述语种反转分类用于使所述第二预测语种与所述第二预测音特征表示的语种相反;
49.所述模型训练模块,还用于基于所述第二预测语种和所述第二语种,训练所述语种分类模型和所述语音合成模型,以使所述第二预测语种与所述第二语种之间的差值减小;以及,输出所述第二预测语音,获取基于所述第二预测语音输入的调整参数,按照所述调整参数训练所述语音合成模型。
50.在另一种可能实现方式中,所述样本获取模块,还用于:
51.分别获取第一数量和第二数量,所述第一数量为所述第二数据集中的样本语音的数量,所述第二数量为所述第一数据集中的样本语音的数量;
52.基于所述第一数量与所述第二数量之间的比值,确定选取比例,所述选取比例是指从所述第二数据集中选取出用于训练所述语音合成模型的样本语音的数量占所述第一数量的比例,所述选取比例与所述比值呈负相关;
53.基于所述选取比例,从所述第二数据集中选取用于训练所述语音合成模型的第三样本语音。
54.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如上述方面所述的语音合成模型训练方法所执行的操作。
55.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如上述方面所述的语音合成模型训练方法所执行的操作。
56.另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方面所述的语音合成模型训练方法所执行的操作。
57.本技术实施例提供的技术方案,调用待训练的语音合成模型,基于包括属于第一语种的文本内容的第一样本文本信息和属于第二语种的第二样本语音,合成第一预测语音,在合成语音的过程中,会提取该第二样本语音对应的第一预测音特征,在语音合成模型未训练完成的情况下,该第一预测音特征不可避免地会表示第二语种,为了使该第一预测音特征与第二语种之间没有必然联系,引入了语种分类模型,调用该语种分类模型,对第一预测音特征进行语种反转分类,得到与第二语种相反的第一预测语种,然后在训
练语音合成模型时基于对抗训练思想,使该第一预测语种与第二语种逐渐趋近于相同,使第一预测音特征不会受到第二语种的影响,因此基于训练后的语音合成模型进行语音合成时,基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应且属于目标语种的语音,实现跨语种语音合成,且由于合成语音时的音与语种无关,则在合成的语音的音不会受到属于参考语音所属的语种的影响,从而使合成的语音具有较高的自然度。
附图说明
58.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
59.图1是本技术实施例提供的一种实施环境的示意图;
60.图2是本技术实施例提供的一种语音合成模型训练方法的流程图;
61.图3是本技术实施例提供的另一种语音合成模型训练方法的流程图;
62.图4是本技术实施例提供的一种文本特征提取网络的结构示意图;
63.图5是本技术实施例提供的一种音特征提取层的结构示意图;
64.图6是本技术实施例提供的一种语音合成模型的结构示意图;
65.图7是本技术实施例提供的一种模型训练过程的流程图;
66.图8是本技术实施例提供的一种语音合成方法的流程图;
67.图9是本技术实施例提供的又一种语音合成模型训练方法的流程图;
68.图10是本技术实施例提供的一种语音合成模型训练装置的结构示意图;
69.图11是本技术实施例提供的另一种语音合成模型训练装置的结构示意图;
70.图12是本技术实施例提供的一种终端的结构示意图;
71.图13是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
72.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
73.可以理解,本技术所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本技术的范围的情况下,可以将第一排列顺序称为第二排列顺序,将第二排列顺序称为第一排列顺序。
74.本技术所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个语种包括3个语种,而每个语种是指这3个语种中的每一个语种,任一是指这3个语种中的任意一个,可以是第一个,可以是第二个,也可以是第三个。
75.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控
制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
76.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
77.语音技术(speech technology)的关键技术有自动语音识别技术(automatic speech recognition,asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
78.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
79.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
80.本技术实施例提供的方案,基于人工智能的语音技术和机器学习技术,训练语音合成模型,利用训练后的语音合成模型,合成属于任一对象且属于任一语种的语音。
81.本技术实施例提供的语音合成模型训练方法,由计算机设备执行。可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电及车载终端等,但并不局限于此。
82.图1是本技术实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接,本技术对此不做限定。
83.终端101采集任一对象的多个语音,该多个语音属于至少两个语种,即该多个语音是同一个对象采用不同的语种发出的语音,终端101向服务器102发送采集的语音,服务器102用于基于文本信息和采集的语音,训练语音合成模型。其中该文本信息与多个语音中的部分语音的内容一致。
84.在一种可能实现方式中,终端101上安装有由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如语音采集、语音合成等功能。可选地,目标应用为终端101操作系统中的目标应用,或者为第三方提供的目标应用,该目标应用中可以配置有语音合成模型,在该目标应用的使用过程中可以基于该语音合成模型实现语音合成,并播放合成的语音。可选地,服务器102为该目标应用的后台服务器或者为提供云计算以及云存储等服务的云服务器。
85.基于本技术实施例提供的语音合成模型训练方法训练得到的语音合成模型,可用于多种场景。
86.例如,用于“听书”场景。计算机设备采用本技术实施例提供的语音合成模型训练方法,对语音合成模型进行训练,将训练完成的语音合成模型部署在阅读应用对应的应用服务器中。用户在基于阅读应用阅读电子书时,如果想要听书,通过触发该听书操作,向该应用服务器发送针对该电子书的听书请求,应用服务器调用语音合成模型,基于参考语音和该电子书的内容,合成该电子书对应的目标语音,向终端发送该目标语音,终端播放该目标语音,从而使用户可以实现“听书”。其中,应用服务器采用的参考语音可以是该应用服务器预先存储的特定用户的语音,或者也可以是终端采集的当前用户的语音。
87.当然,本技术实施例训练得到的语音合成模型还能够用于其他需要将文字转换为语音的场景下,例如,用于智能电话客服场景、游戏场景等。
88.图2是本技术实施例提供的一种语音合成模型训练方法的流程图。本技术实施例的执行主体为计算机设备。参见图2,该方法包括以下步骤:
89.201、计算机设备获取第一样本文本信息、第一样本语音和第二样本语音,第一样本语音属于第一语种且与第一样本文本信息对应,第二样本语音属于第二语种。
90.相关技术中的语音合成模型在基于文本信息和属于某个语种的参考语音合成新的语音时,所合成的语音与该参考语音所属的语种必须相同,具有局限性。而本技术实施例提供了一种语音合成模型,能够基于属于某个语种的文本信息和属于另一个不同语种的参考语音,合成包含该文本信息所表示的内容以及该参考语音所表示的音的语音。
91.本技术实施例中,第一样本文本信息、第一样本语音和第二样本语音用于训练语音合成模型,其中,第一样本语音可以看做是第一样本文本信息的标签,而第二样本语音即为参考语音。该第一样本文本信息和第二样本语音为语音合成模型的输入,第一样本语音用于与语音合成模型合成的预测语音进行对比,以便训练该语音合成模型。
92.其中,第一样本文本信息包括属于第一语种的文本内容,第一样本语音与第一样本文本信息对应,也即是第一样本语音中包含的语音内容与该第一样本文本信息中的文本内容是一致的。例如,上述对象按照该第一样本文本信息中的文本内容进行发音,即可得到该第一样本语音。
93.并且,第一样本语音和第二样本语音为同一样本对象的语音,而且第一语种与第二语种不同,因此第一样本语音和第二样本语音是同一个对象采用不同的语种发出的语音。例如,第一语种为中文,第二语种为英文,或者该第一语种和该第二语种为其他的语种。另外,第二样本语音和第一样本语音中包含的语音内容可以相同,也可以不同。
94.202、计算机设备调用语音合成模型,提取第一样本文本信息对应的第一预测文本特征,提取第二样本语音对应的第一预测音特征,基于第一预测文本特征和第一预测音
特征合成第一预测语音。
95.其中,第一预测文本特征用于描述文本内容,由于文本内容属于第一语种,因此该第一预测文本特征会包含第一语种相关的特征。
96.第一预测音特征表示基于该第二样本语音确定的样本对象的音,而第一预测语音是按照第一预测音特征表示的音和第一预测文本特征指示的内容合成的,因此第一预测语音可以看做是上述对象发出上述文本内容而得到的语音。由于上述文本内容属于第一语种,因此所确定的第一预测语音也是属于第一语种。
97.203、计算机设备调用语种分类模型,对第一预测音特征进行语种反转分类,得到第二样本语音所属的第一预测语种,语种反转分类用于使第一预测语种与第一预测音特征表示的语种相反。
98.本技术实施例中,在给定属于某个语种的文本信息和属于另一个不同语种的参考语音的情况下,希望生成包含该文本信息所表示的内容并且还包含该参考语音的音的语音,而不受到该参考语音所属语种的影响。
99.但是,语音合成模型会提取该参考语音的音特征,该音特征与该参考语音所属的语种存在关联性,该音特征势必会受到该参考语音所属的语种的影响。因此,为了训练出一种能够跨语种的语音合成模型,还需要引入语种分类模型,通过将该语音合成模型与该语种分类模型联合训练,来弱化该音特征与该参考语音所属的语种之间的关联性。
100.由于在语音合成模型未训练完成的情况下,从输入的语音中提取的音特征不可避免地会表示该语音所属的语种,因此,基于第二样本语音提取的第一预测音特征会表示该第二样本语音所属的第二语种,在调用语种分类模型对第一预测音特征进行语种反转分类的情况下,如果第一预测音特征表示第二语种,那么通过语种分类模型对第一预测音特征进行语种反转分类得到的第一预测语种与该第二语种相反。
101.204、计算机设备基于第一预测语种和第二语种,以及第一样本语音和第一预测语音,训练语种分类模型和语音合成模型,以使第一预测语种与第二语种之间的差值减小,且第一样本语音与第一预测语音之间的差值减小。
102.在训练语种分类模型和语音合成模型时,使第一预测语种与第二语种之间的差值减小,也即是使对第一预测音特征进行语种反转分类得到的第二预测语种与第二语种逐渐趋近于相同,这就要求第一预测音特征不能表示第二语种,因此经过语种分类模型和语音合成模型的相互作用,可以使语音合成模型提取出的第一预测音特征越来越不受第二语种的影响。
103.在训练语音合成模型时,使第一样本语音和第一预测语音之间的差值减小,也即是使语音合成模型学习到基于音特征和文本特征合成语音的能力,且由于输入该语音合成模型中的第二样本语音所属的第二语种,与合成的语音所属的第一语种不同,即在语音合成模型中输入属于一种语种的语音,能够合成属于另一种语种的语音,使训练后的语音合成模型具备了跨语种语音合成的能力。
104.本技术实施例提供的方法,调用待训练的语音合成模型,基于包括属于第一语种的文本内容的第一样本文本信息和属于第二语种的第二样本语音,合成第一预测语音,在合成语音的过程中,会提取该第二样本语音对应的第一预测音特征,在语音合成模型未训练完成的情况下,该第一预测音特征不可避免地会表示第二语种,为了使该第一预测
音特征与第二语种之间没有必然联系,引入了语种分类模型,调用该语种分类模型,对第一预测音特征进行语种反转分类,得到与第二语种相反的第一预测语种,然后在训练语音合成模型时基于对抗训练思想,使该第一预测语种与第二语种逐渐趋近于相同,使第一预测音特征不会受到第二语种的影响,因此基于训练后的语音合成模型进行语音合成时,基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应且属于目标语种的语音,实现跨语种语音合成,且由于合成语音时的音与语种无关,则在合成的语音的音不会受到属于参考语音所属的语种的影响,从而使合成的语音具有较高的自然度。
105.上述图2所示的实施例简单说明了语音合成模型的训练过程,下面通过图3所示的实施例对语音合成模型的训练过程进行详细说明。
106.图3是本技术实施例提供的一种语音合成模型训练方法的流程图。本技术实施例的执行主体为计算机设备。参见图3,该方法包括以下步骤:
107.301、计算机设备获取第一样本文本信息、第一样本语音和第二样本语音,第一样本语音属于第一语种且与第一样本文本信息对应,第二样本语音属于第二语种。
108.其中,第一样本文本信息包括属于第一语种的文本内容,第一样本语音与第一样本文本信息对应,也即是第一样本语音中包含的语音内容与该第一样本文本信息中的文本内容是一致的。并且,第一样本语音和第二样本语音为同一样本对象的语音,而且第一语种与第二语种不同,因此第一样本语音和第二样本语音是同一个对象采用不同的语种发出的语音,其中对象是指说话人。另外,第二样本语音和第一样本语音中包含的语音内容可以相同,也可以不同。
109.在一种可能实现方式中,计算机设备存储有第一数据集,该第一数据集包括多个样本文本信息和多个样本文本,且该第一数据集中的多个样本语音属于至少两种语种且属于至少两个样本对象,其中,第一数据集中的多个样本文本信息均具有对应的样本语音,且对于每个样本对象,该第一数据集中至少包括属于每个样本对象的至少两种语种的样本语音。从该第一数据集中,获取第一样本文本信息、第一样本语音和第二样本语音,用于本次的迭代训练。之后在其他的迭代训练过程中获取训练样本的方式与此类似。
110.例如,该第一数据集中包括50个样本文本信息、属于英文的50样本语音、属于中文的50样本语音、属于法语的50样本语音,这50个样本文本信息中,25个样本文本信息具有内容一致,且属于中文的样本语音,另外25个样本文本具有对应的属于法语的样本语音,这150个样本语音属于10个样本对象,对于一个样本对象来说,属于该样本对象的多个样本语音属于至少两种语种。
111.可选地,从第一数据集中随机选取第一样本文本信息和第二样本语音。例如,对于样本对象m来说,第一数据中有该样本对象的n个样本语音,则从n个样本语音中随机选取一个样本语音作为第二样本语音,即:
112.yr=y
random(n)
113.其中,yr表示第二样本语音,random(n)表示从[1,n]中随机确定任一整数,r表示随机确定的整数,y
random(n)
即表示从n个样本语音中随机选取一个样本语音。
[0114]
在一种可能实现方式中,该第一样本文本信息还包括文本内容对应的音素,该音
素表示在第一语种中,指示文本内容如何发音。第一样本文本信息包括音素的情况下,能够确定后续合成的语音中该文本内容应当如何发出声音。例如,文本内容为中文,则音素为声母、韵母、声调;文本内容为英文,则音素为英文的音标。
[0115]
302、计算机设备调用语音合成模型中的文本特征提取网络,提取第一样本文本信息对应的第一预测文本特征。
[0116]
其中,文本特征提取网络用于提取输入至语音合成模型中的文本信息对应的文本特征。第一预测文本特征用于描述第一样本文本信息中的文本内容,且由于文本内容属于第一语种,因此该第一预测文本特征会包含第一语种相关的特征,该第一预测文本特征指示待合成的语音的发音情况。其中,该第一预测文本特征为矩阵形式、向量形式或者其他形式。
[0117]
在一种可能实现方式中,在第一样本文本信息包括文本内容和音素的情况下,计算机设备调用文本特征提取网络,基于该文本内容和音素进行文本特征提取,得到第一预测文本特征。在第一样本文本信息包括文本内容而不包括音素的情况下,计算机设备调用文本特征提取网络,基于该文本内容查询该文本内容对应的音素,然后基于该文本内容和查询到的音素进行文本特征提取,得到第一预测文本特征。
[0118]
在一种可能实现方式中,该文本特征提取网络包括n组编码层,n为大于2的整数。计算机设备调用第1组编码层,对第一样本文本信息进行编码,得到第1组编码层输出的编码特征,该第1组编码层包括一个编码层,也即是调用该编码层对第一样本文本信息进行编码,得到该编码层输出的编码特征。然后调用第2组编码层,基于第1组编码层输出的编码特征进行编码,得到第2组编码层输出的编码特征,再继续调用下一组编码层,直至调用最后一组编码层,对上一组编码层输出的编码特征进行编码,得到最后一组编码层输出的编码特征,将该最后1组编码层输出的编码特征作为第一预测文本特征。
[0119]
对于除第1组编码层之外的任一组编码层,以第i组编码层为例,i为大于1且不大于n的整数,在第2组至第n组编码层中,存在包括至少两个编码层的组,也即是在第2组至第n组编码层中至少有一组编码层是包括至少两个编码层的。在该第i组编码层中包括至少两个编码层的情况下,分别调用至少两个编码层对第i-1组编码层输出的编码特征进行编码,得到至少两个编码特征,并调用该第i组编码层对应的融合层,对该至少两个编码特征以及第i-1组编码层输出的编码特征进行融合,将融合后的编码特征确定为第i组编码层输出的编码特征。或者,在该第i组编码层中包括一个编码层的情况下,调用该第i组编码层对该第i-1组编码层输出的编码特征进行编码,得到第i组编码层输出的编码特征。
[0120]
可选地,该文本特征提取网络中的多个编码层的网络结构相同,多个编码层中的模型参数不同,因此对于不同的编码层来说,即使是对输入的同一编码特征进行编码,输出的编码特征也是不同的。
[0121]
可选地,计算机设备调用融合层,对该至少两个编码特征以及第i-1组编码层输出的编码特征进行融合包括:调用融合层,对该至少两个编码特征以及第i-1组编码层输出的编码特征进行拼接或者相加;或者,调用融合层,分别确定该至少两个编码特征以及第i-1组编码层输出的编码特征对应的第三权重,然后基于多个第三权重,对该至少两个编码特征以及第i-1组编码层输出的编码特征进行加权处理。
[0122]
例如,采用下述公式表示该文本特征提取网络提取的第一预测文本特征:
[0123][0124]
其中,z
out
表示第一预测文本特征,l
out
()表示最后一组编码层对输入的编码特征进行编码,k表示第n-1组编码层中有k个编码层,z
l
表示第n-2组编码层输出的编码特征,s
l
(z
l
)表示第n-1组编码层中的第l个编码层对z
l
进行编码。
[0125]
本技术实施例中的这种文本特征提取网络,针对同一编码特征采用不同的编码层进行编码,不同编码层对同一编码特征进行编码得到的编码特征的侧重点不同,从而通过并列的多个编码层对同一编码特征进行编码,能够使得到的编码特征更加准确地表示第一样本文本信息,从而提高提取的第一预测文本特征的准确性。
[0126]
例如,参见图4所示的文本特征提取网络,编码层为transformer(一种基于注意力机制的神经网络),此时该文本特征提取网络可称为多流transformer。该文本特征提取网络包括三组编码层,其中第2组编码层包括两个编码层,有一个融合层与该第2组编码层连接,第1组编码层为该文本特征提取网络中的输入层,第3组编码层为该文本特征提取网络中的输出层。计算机设备调用第1组编码层,对第一样本文本信息进行编码,得到第1组编码层输出的编码特征;调用第2组编码层中的两个编码层,分别对第1组编码层输出的编码特征进行编码,得到两个编码特征,再调用融合层,对这两个编码特征和第1组编码层输出的编码特征,得到第2组编码层输出的编码特征;再调用第3组编码层,对第2组编码层输出的编码特征进行编码,得到第一预测文本特征。
[0127]
其中,对于每个transformer,计算机设备调用transformer,将输入的编码特征分别映射至三个特征空间得到映射后的编码特征,该三个特征空间分别对应的q(query,查询)维度、k(key,键)维度以及v(value,值)维度,然后基于多头注意力机制对该映射后的编码特征进行处理,在对处理后的编码特征进行1维卷积处理,得到该编码层输出的编码特征。
[0128]
在另一种可能实现方式中,语音合成模型包括文本特征融合网络和至少两种类型的文本特征提取网络。计算机设备分别调用至少两种类型的文本特征提取网络,对第一样本文本信息进行文本特征提取,得到至少两种类型的第二预测文本特征。其中,不同类型的文本特征提取网络在对第一样本文本信息进行特征提取时的侧重点不同,因此不同类型的文本特征所描述的第一样本文本信息中不同内容的重要程度不同。例如,一种类型的文本特征提取网络在提取文本特征时更加注重文本内容的上下文之间联系,则调用这种类型的文本特征提取网络提取得到的第一预测文本特征能够准确地描述该文本内容的全局信息,但是可能会忽略文本内容的局部细节信息;另一种类型的文本特征提取网络在提取文本特征时更加注重文本内容的局部细节,比如注重文本内容中某些词的含义,则调用这种类型的文本特征提取网络提取得到的第一预测文本特征能够准确地描述该文本内容的局部细节信息,但是可能会忽略文本内容的全局信息。
[0129]
然后,计算机设备调用文本特征融合网络,分别基于至少两种类型的文本特征提取网络的第一权重,对至少两种类型的第二预测文本特征进行加权处理,得到第一预测文本特征。通过对至少两种类型的第二预测文本特征进行融合,使得到的第一预测文本特征能够更加准确地描述第一样本文本信息。
[0130]
其中,第一权重表示对应类型的文本特征提取网络所提取的文本特征的重要程度,该至少两种类型的文本特征提取网络的第一权重之和为1。可选地,每种类型的文本特征提取网络的第一权重是预设的权重,例如,有两种类型的文本特征提取网络,将每种类型的文本特征提取网络的第一权重设置为0.5;或者,第一权重是基于注意力机制学习得到的,例如,在文本特征融合网络与至少两种类型的文本特征提取网络之间增加一个注意力网络,基于该注意力网络对至少两种类型的第二预测文本特征进行处理,确定每种类型的第二预测文本特征对应的第一权重,也即是每种类型的文本特征提取网络的第一权重。
[0131]
例如,文本特征提取网络为多流transformer,或者为cbhg(1-d convolution bank+highway network+bidirectional gated recurrent unit,一维卷积库+高速网络+双向门控循环单元)。其中,cbhg包括多个卷积层和双向gru(gated recurrent unit,门控循环单元)网络,其中多个卷积层能够提取文本信息中的局部细节信息,双向gru网络能够提取上下文信息。
[0132]
303、计算机设备调用语音合成模型中的音特征提取网络,提取第二样本语音对应的第一预测音特征。
[0133]
其中,第一预测音特征表示基于该第二样本语音确定的样本对象的音,该第一预测音特征所表示的音与第二样本语音的语音内容无关,与发出该第二样本语音的样本对象有关,对于任一样本对象来说,该样本对象具有唯一对应的音特征。该第一预测音特征为矩阵形式、向量形式或者其他形式。
[0134]
在一种可能实现方式中,该音特征提取网络包括音特征提取层和第一注意力层。计算机设备调用音特征提取层,对第二样本语音进行特征提取,得到样本对象的初始预测音特征。其中,该初始预测音特征表示该样本对象的音。
[0135]
可选地,该音特征提取层为参考编码器(reference encoder),该参考编码器包括多层cnn(convolutional neural network,卷积神经网络)、单向gru网络和激活(activation)层,将该参考编码器输出的参考嵌入向量(reference embedding)确定为初始预测音特征。例如,参见图5,将第二样本语音输入至6层cnn中,得到输出的编码特征,再将输出的编码特征输入至128-unit gru网络(包含128个单元的gru网络),将128-unit gru网络输出的特征输入至激活层,将激活层输出的特征确定为参考嵌入向量。当然,该音特征提取层还可以为其他网络结构。
[0136]
上述提取的初始预测音特征虽然已经能够表示样本对象的音,但是为了提高该音特征提取网络的鲁棒性,进一步引入了第一注意力层,该第一注意力层包括多个参考对象的参考音特征,该多个参考对象为任意的多个对象,参考音特征表示对应的参考对象的音。计算机设备调用该第一注意力层,确定初始预测音特征对应于每个参考对象的第二权重,该第二权重表示对应的参考对象的参考音特征与初始预测音特征之间的相似程度,第二权重越大表示对应的参考音特征与初始预测音特征越相似。然后基于多个第二权重,对多个参考对象的参考音特征进行加权处理,得到第一预测音特征,也即是采用多个参考对象的参考音特征来表示样本对象的音特征。
[0137]
在另一种可能实现方式中,计算机设备将调用音特征提取层得到的初始预测音特征确定为该第一预测音特征。
[0138]
需要说明的是,本技术实施例仅是以先执行步骤302,再执行步骤303为例进行说
明,在另一实施例中,可以先执行步骤303,再执行步骤302,或者同时执行步骤302和步骤303,本技术实施例对此不做限制。
[0139]
304、计算机设备调用语音合成网络,基于第一预测文本特征和第一预测音特征合成第一预测语音。
[0140]
其中,第一预测语音是按照第一预测音特征表示的音和第一预测文本特征指示的内容合成的,该第一预测语音属于第一语种,且语音内容为第一样本文本信息中的文本内容,因此第一预测语音可以看做是上述对象发出上述文本内容而得到的语音。
[0141]
在一种可能实现方式中,该语音合成网络包括第二注意力层和解码层,计算机设备调用第二注意力层,对第一预测文本特征和第一预测音特征进行融合,得到融合特征,该融合特征用于描述待合成的语音的音和语音内容;调用解码层,对融合特征进行解码,得到预测声学特征,该预测声学特征用于描述待合成的语音;基于该预测声学特征,确定第一预测语音。
[0142]
可选地,计算机设备调用第二注意力层,分别确定第一预测文本特征对应的权重和第一预测音特征对应的权重,然后基于第一预测文本特征对应的权重和第一预测音特征对应的权重,对第一预测文本特征和第一预测音特征进行加权处理,得到融合特征。
[0143]
305、计算机设备调用语种分类模型,对第一预测音特征进行语种反转分类,得到第二样本语音所属的第一预测语种,语种反转分类用于使第一预测语种与第一预测音特征表示的语种相反。
[0144]
由于在语音合成模型未训练完成的情况下,从输入的语音中提取的音特征不可避免地会表示该语音所属的语种,因此,基于第二样本语音提取的第一预测音特征会表示该第二样本语音所属的第二语种,在调用语种分类模型对第一预测音特征进行语种反转分类的情况下,如果第一预测音特征表示第二语种,那么通过语种分类模型对第一预测音特征进行语种反转分类得到的第一预测语种与该第二语种相反,例如定义中文与英文相反,那么在第二语种为中文时,第一预测语种为英文。
[0145]
本技术实施例通过以下两种方式中的任一种实现语种反转分类:
[0146]
第一种:先反转音特征再进行语种分类。
[0147]
这种方式中,语种分类模型包括第一反转层和第一分类层。计算机设备调用第一反转层,对第一预测音特征进行特征反转,得到第一反转音特征,该第一反转音特征表示的含义与第一预测音特征表示的含义相反;并调用第一分类层,对第一反转音特征进行分类,得到第一预测语种。
[0148]
由于语音合成模型在未训练完成时,该第一预测音特征不可避免地会表示第二语种,因此,通过对该第一预测音特征进行特征反转,得到的第一反转音特征不会表示该第二语种,那么,对第一反转音特征进行分类,得到的第一预测语种也就不会是第二语种,后续基于对抗训练思想,使该第一预测语种与第二语种之间的差值减小,也即是通过训练语音合成模型和语种分类模型使第一反转音特征表示该第二语种,相应的,即使是针对相同的语音,该语音合成模型所提取的预测音特征也不会再表示该第二语种,从而达到使从语音中提取的音特征与该语音所属的语种之间没有必然联系的目的。
[0149]
可选地,对第一预测音特征进行特征反转包括:将第一预测音特征中的每个数值加上负号,或者在第一预测音特征中仅包含0和1的情况下,将第一预测音特征中
的0转换为1,将1转换为0;或者,还能够采用其他方式对第一预测音特征进行反转,本技术实施例对此不做限制。
[0150]
第二种:先进行语种分类再对分类结果反转。
[0151]
这种方式中,语种分类模型包括第二反转层和第二分类层。计算机设备调用第二分类层,对第一预测音特征进行语种分类,得到第一分类信息,该第一分类信息表示当前语种分类得到的第二样本语音所属的语种;调用第二反转层,对第一分类信息进行反转,得到第二分类信息,并基于第二分类信息确定第一预测语种。
[0152]
与上述第一种方式类似,由于语音合成模型在未训练完成时,该第一预测音特征不可避免地会表示第二语种,对该第一预测音特征进行分类,得到第一分类信息不可避免地会表示第二语种,通过对第一分类信息进行反转,得到的第二分类信息则不会表示第二语种,后续基于对抗训练思想,使该第一预测语种与第二语种之间的差值减小,也即是通过训练语音合成模型和语种分类模型使第二分类信息表示该第二语种,相应的,即使是针对相同的语音,该语种分类模型输出的第一分类信息也不会再表示该第二语种,从而达到使从语音中提取的音特征与该语音所属的语种之间没有必然联系的目的。
[0153]
306、计算机设备调用对象分类模型,对第一预测音特征进行对象分类,得到样本对象对应的预测对象标识。
[0154]
本技术实施例中,为了保证音特征提取网络提取得到的第一预测音特征为样本对象的音特征,引入了对象分类模型,调用该对象分类模型,对第一预测音特征进行对象分类,得到预测对象标识,该预测对象标识用于唯一表示能够发出该第一预测音特征所表示音的对象。
[0155]
在一种可能实现方式中,计算机设备调用对象分类模型,对第一预测音特征进行对象分类,分别得到多个对象标识对应的第一概率,该第一概率表示对应的对象标识为样本对象的标识的可能性,最大的第一概率对应的对象标识即为预测对象标识。
[0156]
307、计算机设备基于第一预测语种和第二语种、第一样本语音和第一预测语音,以及样本对象标识和预测对象标识,训练对象分类模型、语种分类模型和语音合成模型,以使第一预测语种与第二语种之间的差值减小,第一样本语音与第一预测语音之间的差值减小,且样本对象标识与预测对象标识之间的差值减小。
[0157]
在训练语种分类模型和语音合成模型时,使第一预测语种与第二语种之间的差值减小,也即是使对第一预测音特征进行语种反转分类得到的第二预测语种与第二语种逐渐趋近于相同,这就要求第一预测音特征不能表示第二语种,因此经过语种分类模型和语音合成模型的相互作用,可以使语音合成模型提取出的第一预测音特征越来越不受第二语种的影响。
[0158]
在基于预测对象标识和样本对象标识,训练对象分类模型和语音合成模型时,使样本对象标识与预测对象标识之间的差值减小,也即是使样本对象标识与预测对象标识趋近于相同,这就要求第一预测音特征与实际所属的样本对象对应,且表示该样本对象的音。
[0159]
在一种可能实现方式中,针对预测对象标识和样本对象标识,在采用预测概率指示对应的预测对象标识的情况下,采用下述交叉熵损失函数,训练该语音合成模型和对象分类模型:
[0160][0161]
其中,l
spk
表示损失值,ce()表示求交叉熵损失,n表示样本对象的n个第二样本语音,表示第r个第二样本语音对应的预测概率,表示该样本对象的样本对象标识。
[0162]
在基于第一样本语音和第一预测语音,训练语音合成模型时使第一样本语音和第一预测语音之间的差值减小,也即是使语音合成模型学习到基于音特征和文本特征合成语音的能力,且由于输入该语音合成模型中的第二样本语音所属的第二语种,与合成的语音所属的第一语种不同,即在语音合成模型中输入属于一种语种的语音,能够合成属于另一种语种的语音,使训练后的语音合成模型具备了跨语种语音合成的能力。
[0163]
另外,在一种可能实现方式中,参见图6所示的语音合成模型。将第一样本文本信息输入至多个文本特征提取网络,该多个文本特征提取网络至少包括多流transformer和cbhg;然后将多个文本特征提取网络输出的文本特征输入至文本特征融合网络,得到文本特征融合网络输出的第一预测文本特征,将第一预测文本特征输入至第二注意力层;将第二样本语音输入至音特征提取层,将通过音特征提取层提取的初始预测音特征输入至第一注意力层,图6中以4个参考对象为例,基于该第一注意力层,确定4个参考对象的参考音特征对应的权重分别为0.3、0.4、0.2和0.1,基于这四个权重对4个参考音特征进行加权处理,得到第一预测音特征,将第一预测音特征输入至对象分类模型和语种分类模型进行处理,同时将第一预测音特征输入至第二注意力层,调用该第二注意力层对第一预测音特征和第一预测文本特征进行处理,得到融合特征,再调用解码层对融合特征进行解码,得到第一预测语音。其中,语种分类模型包括梯度反转层(gradient reversal layer)和语种分类层,该梯度反转层为上述实施例中的第二反转层,用于对该语种分类层输出的第一分类信息进行反转。
[0164]
需要说明的是,步骤301-步骤307所示的训练过程是语音合成模型的一次训练过程,在基于第一样本文本信息、第一样本语音和第二样本语音训练语音合成模型之后,能够继续训练该语音合成模型,训练过程与上述实施方式所示的训练过程同理,不同的是采用的训练数据不同。在继续训练该语音合成模型的过程中,从第一数据集中,获取样本文本信息和属于两种语种的样本语音,此次获取的样本文本信息和属于两种语种的样本语音与第一样本文本信息、第一样本语音和第二样本语音不完全相同。例如,基于第三样本文本信息、属于同一其他样本对象的第四样本语音和第五样本语音训练语音合成模型,其中第三样本文本信息包括属于第三语种的文本内容,第四样本语音属于第三语种且与该第三样本文本信息对应,第五样本语音属于第四语种,该第三语种与第四语种不同,该第三语种和第四语种可以与第一语种和第二语种是相同的两种语种,也可以是不完全相同的两种语种。但是,在语音合成模型训练结束前,需要采用属于至少两种语种且属于至少两个样本对象的样本语音来训练语音合成模型,从而训练出基于多对象多语种的语音合成模型。
[0165]
本技术实施例提供的方法,调用待训练的语音合成模型,基于包括属于第一语种的文本内容的第一样本文本信息和属于第二语种的第二样本语音,合成第一预测语音,在合成语音的过程中,会提取该第二样本语音对应的第一预测音特征,在语音合成模型未
训练完成的情况下,该第一预测音特征不可避免地会表示第二语种,为了使该第一预测音特征与第二语种之间没有必然联系,引入了语种分类模型,调用该语种分类模型,对第一预测音特征进行语种反转分类,得到与第二语种相反的第一预测语种,然后在训练语音合成模型时基于对抗训练思想,使该第一预测语种与第二语种逐渐趋近于相同,使第一预测音特征不会受到第二语种的影响,因此基于训练后的语音合成模型进行语音合成时,基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应且属于目标语种的语音,实现跨语种语音合成,且由于合成语音时的音与语种无关,则在合成的语音的音不会受到属于参考语音所属的语种的影响,从而使合成的语音具有较高的自然度。
[0166]
并且,本技术实施例中,采用多个文本特征提取网络提取第一样本文本信息的文本特征,或者采用包含多组编码器、且至少一组编码器包括并列的多个编码器的文本特征提取网络提取第一样本文本信息的文本特征,在提取文本特征的过程中,能够更加充分全面地考虑该第一样本文本信息的全局信息和局部细节信息,从而使提取的第一预测文本特征能够更加准确地描述第一样本文本信息,提高了第一预测文本特征的准确性。
[0167]
并且,本技术实施例中,还引入了对象分类模型,通过对第一预测音特征进行分类,保证从第二样本语音中提取的音特征是唯一对应于该样本对象的特征,从而使语音合成模型能够准确区分输入的语音所属的对象,以合成该对象的语音。
[0168]
采用上述图3所示的实施方式训练出的语音合成模型是基于多对象多语种的语音合成模型,在训练完成该语音合成模型之后,一方面,计算机设备能够调用该语音合成模型进行语音合成;另一方面,为了训练出针对特定对象的语音合成模型,在基于第一数据集训练语音合成模型之后,能够基于该特定对象的训练数据继续对该语音合成模型进行训练,参见图7,计算机设备先获取训练数据,然后训练基于多对象多语种的语音合成模型,再在该多对象多语种的语音合成模型的基础上,训练针对目标对象的多语种语音合成模型。
[0169]
下面通过图8所示的实施例,对调用基于多对象多语种的语音合成模型进行语音合成的过程进行说明。
[0170]
图8是本技术实施例提供的一种语音合成方法的流程图。本技术实施例的执行主体为计算机设备。参见图8,该方法包括以下步骤:
[0171]
801、计算机设备获取目标文本信息和参考语音。
[0172]
其中,该参考语音属于任一对象且属于任一语种,目标文本信息包括属于目标语种的文本内容。
[0173]
802、计算机设备调用语音合成模型,提取目标文本信息对应的目标文本特征,提取参考语音对应的目标音特征,基于目标文本特征和目标音特征,合成目标文本信息对应的、属于目标语种的目标语音。
[0174]
该语音合成模型包括文本特征提取网络、音特征提取网络和语音合成网络。计算机设备调用文本特征提取网络,提取目标文本信息对应的文本特征;调用音特征提取网络,提取参考语音对应的音特征;调用语音合成网络,基于文本特征和音特征合成目标语音。
[0175]
步骤802的实施方式与上述步骤302-步骤304的实施方式同理,在此不再赘述。
[0176]
本技术实施例提供的语音合成模型,在训练过程中引入了语种分类模型,对语种分类模型和语音合成模型进行对抗训练,使训练得到的该语音合成模型针对输入的参考语音提取的音特征不会受到该参考语音所属的语种的影响,因此基于该语音合成模型进行语音合成时,基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应且属于目标语种的语音,实现跨语种语音合成,且由于合成语音时的音与语种无关,则在合成的语音的音不会受到属于参考语音所属的语种的影响,从而使合成的语音具有较高的自然度。
[0177]
下面通过图9所示的实施例,对训练针对目标对象的多语种的语音合成模型的过程进行说明。
[0178]
图9是本技术实施例提供的又一种语音合成模型训练方法的流程图。本技术实施例的执行主体为计算机设备。参见图9,该方法包括以下步骤:
[0179]
901、计算机设备从第二数据集中,获取第二样本文本信息以及第三样本语音,第二样本文本信息包括属于第一语种的文本内容。
[0180]
其中,第二数据集包括多个样本文本信息和多个样本语音,第二数据集包括属于第一语种的文本信息,包括属于第二语种的样本语音,且不包括属于第一语种的样本语音,第二数据集中的多个样本语音属于同一个目标样本对象,也即是该多个样本语音为同一个目标样本对象发出的语音,该多个样本语音的语种可以相同也可以不同。
[0181]
在一种可能实现方式中,在训练语音合成模型时需要迭代训练多次,在多次训练过程中,需要从第二数据集中选取多次样本文本信息和多次样本语音。在多次选取样本语音时,考虑到在采用图3所示的方式训练语音合成模型时,所采用的第一数据集中的样本语音的数量与此次所采用的第二数据集中的样本语音的数量存在差别,为了提高训练出的语音合成模型稳定性,需要保证从第一数据集中选取的用于训练语音合成模型的样本语音的数量与从第二数据集中选取的用于训练语音合成模型的样本语音的数量尽可能相同。按照以下方式选取:
[0182]
计算机设备分别获取第一数量和第二数量,第一数量为第二数据集中的样本语音的数量,第二数量为第一数据集中的样本语音的数量;基于第一数量与第二数量之间的比值,确定选取比例,该选取比例是指从第二数据集中选取出用于训练语音合成模型的样本语音的数量占第一数量的比例,基于选取比例,从第二数据集中选取用于训练语音合成模型的第三样本语音。该选取比例与比值呈负相关,也就是说第一数量大于第二数量时,需要从第二数据集中选取较多的样本语音,而第二数量大于第一数量时,需要从第二数据集中选取较少的样本语音。
[0183]
例如,采用下述公式表示选取比例:
[0184][0185]
其中,p表示选取比例,uo表示第一数量,表示第二数量,u
t
表示第一数据集中样本对象t的样本语音的数量,m表示第一数据集中样本对象的数量,α为预设参数,α大于等于0且小于等于1。
[0186]
需要说明的是,本技术实施例仅是以第二数据集中的文本信息属于第一语种,样本语音属于第二语种为例进行说明,在另一实施例中,该第二数据集中的文本信息可以属于第三语种,样本语音可以属于第四语种,本技术实施例对此不做限制。
[0187]
902、计算机设备调用语音合成模型,提取第二样本文本信息对应的第三预测文本特征,提取第三样本语音对应的第二预测音特征,基于第三预测文本特征和第二预测音特征合成第二预测语音。
[0188]
步骤902的实施方式与上述步骤302-步骤304的实施方式同理,在此不再赘述。
[0189]
903、计算机设备调用语种分类模型,对第二预测音特征进行语种反转分类,得到第三样本语音所属的第二预测语种,语种反转分类用于使第二预测语种与第二预测音特征表示的语种相反。
[0190]
步骤903的实施方式与上述步骤305的实施方式同理,在此不再赘述。
[0191]
904、计算机设备基于第二预测语种和第二语种,训练语种分类模型和语音合成模型,以使第二预测语种与第二语种之间的差值减小;以及,输出第二预测语音,获取基于第二预测语音输入的调整参数,按照调整参数训练语音合成模型。
[0192]
基于第二预测语种和第二语种训练语种分类模型和语音合成模型的实施方式与上述步骤307中的实施方式同理,在此不再赘述。
[0193]
不同的是,本技术实施例中,由于在训练该语音合成模型时,没有属于第一语种的样本语音,因此,合成第二预测语音之后,先输出该第二预测语音。技术人员基于该第二预测语音的清晰度和自然度,确定是否还需要继续训练语音合成模型,在确定需要继续训练该语音合成模型时,输入调整参数,该调整参数指示对语音合成模型中的模型参数的调整幅度,例如,调整参数为0.01%,将模型参数增大0.01%。然后按照该调整参数调整语音合成模型。当然,在另一实施例中,还可以采用其他方式确定该第二预测语音的清晰度和自然度,本技术实施例对此不做限制。
[0194]
可选地,在计算机设备为终端的情况下,终端播放该第二预测语音,对应的,终端获取输入的调整参数,并按照该调整参数调整语音合成模型;在计算机设备为服务器的情况下,服务器向终端发送该第二预测语音,终端播放该第二预测语种,终端获取输入的调整参数,并向服务器发送该调整参数,服务器按照该调整参数调整语音合成模型。
[0195]
在一种可能实现方式中,计算机设备调用对象分类模型,对第二预测音特征进行对象分类,得到目标样本对象对应的预测对象标识。然后,计算机设备基于该目标样本对象对应的目标样本对象标识和对应的预测对象标识,训练对象分类模型和语音合成模型,以使该目标样本对象对应的目标样本对象标识和预测对象标识之间的差值减小。
[0196]
另外,在训练得到针对目标对象的多语种的语音合成模型后,计算机设备能够调用该语音合成模型,合成目标对象的语音。即计算机设备获取文本信息和属于目标对象的参考语音,其中,该参考语音属于任一语种,目标文本信息包括属于目标语种的文本内容。然后调用语音合成模型,提取文本信息对应的文本特征,提取参考语音对应的音特征,基于文本特征和音特征,合成文本信息对应的、属于目标语种且属于目标对象的目标语音。其中,目标对象即为上述目标样本对象。
[0197]
本技术实施例提供的方法,调用已训练得到的基于多对象多语种的语音合成模型,基于第二样本文本信息和属于目标样本对象的第三样本语音,合成第二预测语音,在合
成语音的过程中,引入了语种分类模型,调用该语种分类模型,对第二预测音特征进行语种反转分类,得到与第二语种相反的第二预测语种,然后在训练语音合成模型时基于对抗训练思想,使该第二预测语种与第二语种逐渐趋近于相同,使第二预测音特征不会受到第二语种的影响,因此基于训练后的语音合成模型进行语音合成时,能够基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应的、属于目标语种且属于该目标样本对象的语音,实现跨语种语音合成。并且,由于训练后的基于多对象多语种的语音合成模型已经具有了一定的准确度,在训练针对目标对象的多语种的语音合成模型过程中,不使用待合成的语音对应的样本语音也能够训练得到准确的语音合成模型,实现了零资源语音合成模型的训练。
[0198]
本技术实施例中,在训练基于多对象多语种的语音合成模型时采用共60个对象120小时的中文语音,50个对象40个小时的英文语音进行训练。然后,针对1个男性和1个女性(每个对象有400句的中文语音且没有英文语音)进行跨语言迁移训练,模型训练结果如表1所示。在表1中采用自然度和相似度的mos(mean opinion score,平均主观意见值)作为评价指标,baseline是采用现有技术中的主流跨语言迁移方法训练得到的模型,proposed是本技术训练的语音合成模型。从表1可以看出,在自然度方面和相似度方面,本技术中的语音合成模型合成的语音均明显优于现有技术中的语音合成模型合成的语音。
[0199]
表1
[0200][0201][0202]
上述表1中的数据是在没有待合成的语音所属的语种的训练数据的情况下,即在零资源的情况下,训练得到的语音合成模型的性能,在有少量待合成的语音所属的语种的训练数据的情况下,如表2所示,在表2中采用自然度的mos作为评价指标,从表2可以看出,在自然度方面,本技术中的语音合成模型合成的语音也明显优于现有技术中的语音合成模型合成的语音。
[0203]
表2
[0204]
模型女性男性baseline4.24
±
0.054.13
±
0.05proposed4.38
±
0.054.30
±
0.06
[0205]
图10是本技术实施例提供的一种语音合成模型训练装置的结构示意图。参见图10,该装置包括:
[0206]
样本获取模块1001,用于获取第一样本文本信息、第一样本语音和第二样本语音,该第一样本文本信息包括属于第一语种的文本内容,该第一样本语音和该第二样本语音为
同一样本对象的语音,该第一样本语音属于第一语种且与该第一样本文本信息对应,该第二样本语音属于第二语种,该第一语种与该第二语种不同;
[0207]
语音合成模块1002,用于调用语音合成模型,提取该第一样本文本信息对应的第一预测文本特征,提取该第二样本语音对应的第一预测音特征,基于该第一预测文本特征和该第一预测音特征合成第一预测语音;
[0208]
语种分类模块1003,用于调用语种分类模型,对该第一预测音特征进行语种反转分类,得到该第二样本语音所属的第一预测语种,该语种反转分类用于使该第一预测语种与该第一预测音特征表示的语种相反;
[0209]
模型训练模块1004,用于基于该第一预测语种和该第二语种,以及该第一样本语音和该第一预测语音,训练该语种分类模型和该语音合成模型,以使该第一预测语种与该第二语种之间的差值减小,且该第一样本语音与该第一预测语音之间的差值减小。
[0210]
本技术实施例提供的装置,调用待训练的语音合成模型,基于包括属于第一语种的文本内容的第一样本文本信息和属于第二语种的第二样本语音,合成第一预测语音,在合成语音的过程中,会提取该第二样本语音对应的第一预测音特征,在语音合成模型未训练完成的情况下,该第一预测音特征不可避免地会表示第二语种,为了使该第一预测音特征与第二语种之间没有必然联系,引入了语种分类模型,调用该语种分类模型,对第一预测音特征进行语种反转分类,得到与第二语种相反的第一预测语种,然后在训练语音合成模型时基于对抗训练思想,使该第一预测语种与第二语种逐渐趋近于相同,使第一预测音特征不再表示第二语种,因此基于训练后的语音合成模型进行语音合成时,基于属于任一种目标语种的任一文本信息和属于任一语种的参考语音提取出的音特征与该语音所属的语种无关,而是会按照该文本信息所属的目标语种来合成语音,从而合成了与该文本信息对应且属于目标语种的语音,实现跨语种语音合成,且由于合成语音时的音与语种无关,则在合成的语音的音不会受到属于参考语音所属的语种的影响,从而使合成的语音具有较高的自然度。
[0211]
在一种可能实现方式中,该语种分类模块1003,用于:
[0212]
该语种分类模型包括第一反转层和第一分类层,调用该第一反转层,对该第一预测音特征进行特征反转,得到第一反转音特征,该第一反转音特征表示的含义与该第一预测音特征表示的含义相反;并调用该第一分类层,对该第一反转音特征进行分类,得到该第一预测语种;或者,
[0213]
该语种分类模型包括第二反转层和第二分类层,调用该第二分类层,对该第一预测音特征进行语种分类,得到第一分类信息,该第一分类信息表示当前语种分类得到的该第二样本语音所属的语种;调用该第二反转层,对该第一分类信息进行反转,得到第二分类信息,并基于该第二分类信息确定该第一预测语种。
[0214]
在另一种可能实现方式中,该样本对象具有对应的样本对象标识,参见图11,该装置还包括:
[0215]
对象分类模块1005,用于调用对象分类模型,对该第一预测音特征进行对象分类,得到该样本对象对应的预测对象标识;
[0216]
该模型训练模块1004,用于基于该第一预测语种和该第二语种、该第一样本语音和该第一预测语音,以及该样本对象标识和该预测对象标识,训练该对象分类模型、该语种
分类模型和该语音合成模型。
[0217]
在另一种可能实现方式中,该语音合成模型包括文本特征提取网络、音特征提取网络和语音合成网络,参见图11,该语音合成模块1002,包括:
[0218]
文本特征提取单元1012,用于调用该文本特征提取网络,提取该第一样本文本信息对应的该第一预测文本特征;
[0219]
音特征提取单元1022,用于调用该音特征提取网络,提取该第二样本语音对应的该第一预测音特征;
[0220]
语音合成单元1032,用于调用该语音合成网络,基于该第一预测文本特征和该第一预测音特征合成该第一预测语音。
[0221]
在另一种可能实现方式中,该语音合成模型包括文本特征融合网络和至少两种类型的文本特征提取网络,参见图11,该文本特征提取单元1012,用于:
[0222]
分别调用该至少两种类型的文本特征提取网络,对该第一样本文本信息进行文本特征提取,得到至少两种类型的第二预测文本特征,不同类型的文本特征所描述的该第一样本文本信息中不同内容的重要程度不同;
[0223]
调用该文本特征融合网络,分别基于该至少两种类型的文本特征提取网络的第一权重,对该至少两种类型的第二预测文本特征进行加权处理,得到该第一预测文本特征。
[0224]
在另一种可能实现方式中,该文本特征提取网络包括n组编码层,n为大于2的整数;参见图11,该文本特征提取单元1012,用于:
[0225]
调用第1组编码层,对该第一样本文本信息进行编码,得到该第1组编码层输出的编码特征;
[0226]
在第i组编码层中包括至少两个编码层的情况下,分别调用该至少两个编码层对第i-1组编码层输出的编码特征进行编码,得到该至少两个编码特征,并调用该第i组编码层对应的融合层,对该至少两个编码特征以及该第i-1组编码层输出的编码特征进行融合,将融合后的编码特征确定为该第i组编码层输出的编码特征;或者,
[0227]
在该第i组编码层中包括一个编码层的情况下,调用该第i组编码层对该第i-1组编码层输出的编码特征进行编码,得到该第i组编码层输出的编码特征;
[0228]
其中,最后一组编码层输出的编码特征为该第一预测文本特征,i为大于1且不大于n的整数,该第1组编码层包括一个编码层,在第2组至第n组编码层中,存在包括至少两个编码层的组。
[0229]
在另一种可能实现方式中,该音特征提取网络包括音特征提取层和第一注意力层,该第一注意力层包括多个参考对象的参考音特征;参见图11,该音特征提取单元1022,用于:
[0230]
调用该音特征提取层,对该第二样本语音进行特征提取,得到该样本对象的初始预测音特征;
[0231]
调用该第一注意力层,确定该初始预测音特征对应于每个参考对象的第二权重,该第二权重表示对应的参考对象的参考音特征与该初始预测音特征之间的相似程度,基于多个第二权重,对该多个参考对象的参考音特征进行加权处理,得到该第一预测音特征。
[0232]
在另一种可能实现方式中,该语音合成网络包括第二注意力层和解码层,参见图
11,该语音合成单元1032,用于:
[0233]
调用该第二注意力层,对该第一预测文本特征和该第一预测音特征进行融合,得到融合特征;
[0234]
调用该解码层,对该融合特征进行解码,得到预测声学特征,基于该预测声学特征,确定该第一预测语音。
[0235]
在另一种可能实现方式中,参见图11,该装置还包括:
[0236]
信息获取模块1006,用于获取目标文本信息和参考语音,该参考语音属于任一对象且属于任一语种,该目标文本信息包括属于目标语种的文本内容;
[0237]
该语音合成模块1002,还用于调用该语音合成模型,提取该目标文本信息对应的目标文本特征,提取该参考语音对应的目标音特征,基于该目标文本特征和该目标音特征,合成该目标文本信息对应的、属于该目标语种的目标语音。
[0238]
在另一种可能实现方式中,第一数据集包括多个样本文本信息和多个样本语音,且该第一数据集中的该多个样本语音属于至少两种语种且属于至少两个样本对象;该第一样本文本信息、该第一样本语音和该第二样本语音属于该第一数据集;
[0239]
第二数据集包括多个样本文本信息和多个样本语音,该第二数据集包括属于该第一语种的文本信息,包括属于该第二语种的样本语音,且不包括属于该第一语种的样本语音,该第二数据集中的该多个样本语音属于同一个目标样本对象;
[0240]
该装置还包括:
[0241]
该样本获取模块1001,还用于在基于该第一数据集训练该语种分类模型和该语音合成模型之后,从该第二数据集中,获取第二样本文本信息以及第三样本语音,该第一样本文本信息包括属于该第一语种的文本内容;
[0242]
该语音合成模块1002,还用于调用该语音合成模型,提取该第二样本文本信息对应的第三预测文本特征,提取该第三样本语音对应的第二预测音特征,基于该第三预测文本特征和该第二预测音特征合成第二预测语音;
[0243]
该语种分类模块1003,还用于调用该语种分类模型,对该第二预测音特征进行语种反转分类,得到该第三样本语音所属的第二预测语种,该语种反转分类用于使该第二预测语种与该第二预测音特征表示的语种相反;
[0244]
该模型训练模块1004,还用于基于该第二预测语种和该第二语种,训练该语种分类模型和该语音合成模型,以使该第二预测语种与该第二语种之间的差值减小;以及,输出该第二预测语音,获取基于该第二预测语音输入的调整参数,按照该调整参数训练该语音合成模型。
[0245]
在另一种可能实现方式中,该样本获取模块1001,还用于:
[0246]
分别获取第一数量和第二数量,该第一数量为该第二数据集中的样本语音的数量,该第二数量为该第一数据集中的样本语音的数量;
[0247]
基于该第一数量与该第二数量之间的比值,确定选取比例,该选取比例是指从该第二数据集中选取出用于训练该语音合成模型的样本语音的数量占该第一数量的比例,该选取比例与该比值呈负相关;
[0248]
基于该选取比例,从该第二数据集中选取用于训练该语音合成模型的第三样本语音。
[0249]
上述所有可选技术方案,可以采用任意结合形成本技术的可选实施例,在此不再一一赘述。
[0250]
需要说明的是:上述实施例提供的语音合成模型训练装置在训练语音合成模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音合成模型训练装置与语音合成模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0251]
本技术实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的语音合成模型训练方法所执行的操作。
[0252]
可选地,该计算机设备提供为终端。图12是本技术实施例提供的一种终端1200的结构示意图。终端1200包括有:处理器1201和存储器1202。
[0253]
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中,处理器1201还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0254]
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一条计算机程序,该至少一条计算机程序用于被处理器1201所执行以实现本技术中方法实施例提供的语音合成模型训练方法。
[0255]
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1208中的至少一种。
[0256]
外围设备接口1203可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0257]
射频电路1204用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路
1204包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0258]
显示屏1205用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。
[0259]
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。
[0260]
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
[0261]
电源1208用于为终端1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0262]
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0263]
可选地,该计算机设备提供为服务器。图13是本技术实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1301和一个或一个以上的存储器1302,其中,存储器1302中存储有至少一条计算机程序,该至少一条计算机程序由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0264]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例
的语音合成模型训练方法所执行的操作。
[0265]
本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述实施例的语音合成模型训练方法所执行的操作。
[0266]
在一些实施例中,本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0267]
可以理解的是,在本技术的具体实施方式中,涉及到用户信息(例如对象标识、属于对象的语音)等相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0268]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0269]
以上仅为本技术实施例的可选实施例,并不用以限制本技术实施例,凡在本技术实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种语音合成模型训练方法,其特征在于,所述方法包括:获取第一样本文本信息、第一样本语音和第二样本语音,所述第一样本文本信息包括属于第一语种的文本内容,所述第一样本语音和所述第二样本语音为同一样本对象的语音,所述第一样本语音属于第一语种且与所述第一样本文本信息对应,所述第二样本语音属于第二语种,所述第一语种与所述第二语种不同;调用语音合成模型,提取所述第一样本文本信息对应的第一预测文本特征,提取所述第二样本语音对应的第一预测音特征,基于所述第一预测文本特征和所述第一预测音特征合成第一预测语音;调用语种分类模型,对所述第一预测音特征进行语种反转分类,得到所述第二样本语音所属的第一预测语种,所述语种反转分类用于使所述第一预测语种与所述第一预测音特征表示的语种相反;基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型,以使所述第一预测语种与所述第二语种之间的差值减小,且所述第一样本语音与所述第一预测语音之间的差值减小。2.根据权利要求1所述的方法,其特征在于,所述调用语种分类模型,对所述第一预测音特征进行语种反转分类,得到所述第二样本语音所属的第一预测语种,包括:所述语种分类模型包括第一反转层和第一分类层,调用所述第一反转层,对所述第一预测音特征进行特征反转,得到第一反转音特征,所述第一反转音特征表示的含义与所述第一预测音特征表示的含义相反;并调用所述第一分类层,对所述第一反转音特征进行分类,得到所述第一预测语种;或者,所述语种分类模型包括第二反转层和第二分类层,调用所述第二分类层,对所述第一预测音特征进行语种分类,得到第一分类信息,所述第一分类信息表示当前语种分类得到的所述第二样本语音所属的语种;调用所述第二反转层,对所述第一分类信息进行反转,得到第二分类信息,并基于所述第二分类信息确定所述第一预测语种。3.根据权利要求1所述的方法,其特征在于,所述样本对象具有对应的样本对象标识,所述提取所述第二样本语音对应的第一预测音特征之后,所述方法还包括:调用对象分类模型,对所述第一预测音特征进行对象分类,得到所述样本对象对应的预测对象标识;所述基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型,包括:基于所述第一预测语种和所述第二语种、所述第一样本语音和所述第一预测语音,以及所述样本对象标识和所述预测对象标识,训练所述对象分类模型、所述语种分类模型和所述语音合成模型。4.根据权利要求1所述的方法,其特征在于,所述语音合成模型包括文本特征提取网络、音特征提取网络和语音合成网络,所述调用语音合成模型,提取所述第一样本文本信息对应的第一预测文本特征,提取所述第二样本语音对应的第一预测音特征,基于所述第一预测文本特征和所述第一预测音特征合成第一预测语音,包括:调用所述文本特征提取网络,提取所述第一样本文本信息对应的所述第一预测文本特征;
调用所述音特征提取网络,提取所述第二样本语音对应的所述第一预测音特征;调用所述语音合成网络,基于所述第一预测文本特征和所述第一预测音特征合成所述第一预测语音。5.根据权利要求4所述的方法,其特征在于,所述语音合成模型包括文本特征融合网络和至少两种类型的文本特征提取网络,所述调用所述文本特征提取网络,提取所述第一样本文本信息对应的所述第一预测文本特征,包括:分别调用所述至少两种类型的文本特征提取网络,对所述第一样本文本信息进行文本特征提取,得到至少两种类型的第二预测文本特征,不同类型的文本特征所描述的所述第一样本文本信息中不同内容的重要程度不同;调用所述文本特征融合网络,分别基于所述至少两种类型的文本特征提取网络的第一权重,对所述至少两种类型的第二预测文本特征进行加权处理,得到所述第一预测文本特征。6.根据权利要求4所述的方法,其特征在于,所述文本特征提取网络包括n组编码层,n为大于2的整数;所述调用所述文本特征提取网络,提取所述第一样本文本信息对应的所述第一预测文本特征,包括:调用第1组编码层,对所述第一样本文本信息进行编码,得到所述第1组编码层输出的编码特征;在第i组编码层中包括至少两个编码层的情况下,分别调用所述至少两个编码层对第i-1组编码层输出的编码特征进行编码,得到所述至少两个编码特征,并调用所述第i组编码层对应的融合层,对所述至少两个编码特征以及所述第i-1组编码层输出的编码特征进行融合,将融合后的编码特征确定为所述第i组编码层输出的编码特征;或者,在所述第i组编码层中包括一个编码层的情况下,调用所述第i组编码层对所述第i-1组编码层输出的编码特征进行编码,得到所述第i组编码层输出的编码特征;其中,最后一组编码层输出的编码特征为所述第一预测文本特征,i为大于1且不大于n的整数,所述第1组编码层包括一个编码层,在第2组至第n组编码层中,存在包括至少两个编码层的组。7.根据权利要求4所述的方法,其特征在于,所述音特征提取网络包括音特征提取层和第一注意力层,所述第一注意力层包括多个参考对象的参考音特征;所述调用所述音特征提取网络,提取所述第二样本语音对应的所述第一预测音特征,包括:调用所述音特征提取层,对所述第二样本语音进行特征提取,得到所述样本对象的初始预测音特征;调用所述第一注意力层,确定所述初始预测音特征对应于每个参考对象的第二权重,所述第二权重表示对应的参考对象的参考音特征与所述初始预测音特征之间的相似程度,基于多个第二权重,对所述多个参考对象的参考音特征进行加权处理,得到所述第一预测音特征。8.根据权利要求4所述的方法,其特征在于,所述语音合成网络包括第二注意力层和解码层,所述调用所述语音合成网络,基于所述第一预测文本特征和所述第一预测音特征合成所述第一预测语音,包括:调用所述第二注意力层,对所述第一预测文本特征和所述第一预测音特征进行融
合,得到融合特征;调用所述解码层,对所述融合特征进行解码,得到预测声学特征,基于所述预测声学特征,确定所述第一预测语音。9.根据权利要求1-8任一项所述的方法,其特征在于,所述基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型之后,所述方法还包括:获取目标文本信息和参考语音,所述参考语音属于任一对象且属于任一语种,所述目标文本信息包括属于目标语种的文本内容;调用所述语音合成模型,提取所述目标文本信息对应的目标文本特征,提取所述参考语音对应的目标音特征,基于所述目标文本特征和所述目标音特征,合成所述目标文本信息对应的、属于所述目标语种的目标语音。10.根据权利要求1所述的方法,其特征在于,第一数据集包括多个样本文本信息和多个样本语音,且所述第一数据集中的所述多个样本语音属于至少两种语种且属于至少两个样本对象;所述第一样本文本信息、所述第一样本语音和所述第二样本语音属于所述第一数据集;第二数据集包括多个样本文本信息和多个样本语音,所述第二数据集包括属于所述第一语种的文本信息,包括属于所述第二语种的样本语音,且不包括属于所述第一语种的样本语音,所述第二数据集中的所述多个样本语音属于同一个目标样本对象;所述方法还包括:在基于所述第一数据集训练所述语种分类模型和所述语音合成模型之后,从所述第二数据集中,获取第二样本文本信息以及第三样本语音,所述第一样本文本信息包括属于所述第一语种的文本内容;调用所述语音合成模型,提取所述第二样本文本信息对应的第三预测文本特征,提取所述第三样本语音对应的第二预测音特征,基于所述第三预测文本特征和所述第二预测音特征合成第二预测语音;调用所述语种分类模型,对所述第二预测音特征进行语种反转分类,得到所述第三样本语音所属的第二预测语种,所述语种反转分类用于使所述第二预测语种与所述第二预测音特征表示的语种相反;基于所述第二预测语种和所述第二语种,训练所述语种分类模型和所述语音合成模型,以使所述第二预测语种与所述第二语种之间的差值减小;以及,输出所述第二预测语音,获取基于所述第二预测语音输入的调整参数,按照所述调整参数训练所述语音合成模型。11.根据权利要求10所述的方法,其特征在于,从所述第二数据集中,获取第三样本语音,包括:分别获取第一数量和第二数量,所述第一数量为所述第二数据集中的样本语音的数量,所述第二数量为所述第一数据集中的样本语音的数量;基于所述第一数量与所述第二数量之间的比值,确定选取比例,所述选取比例是指从所述第二数据集中选取出用于训练所述语音合成模型的样本语音的数量占所述第一数量的比例,所述选取比例与所述比值呈负相关;
基于所述选取比例,从所述第二数据集中选取用于训练所述语音合成模型的第三样本语音。12.一种语音合成模型训练装置,其特征在于,所述装置包括:样本获取模块,用于获取第一样本文本信息、第一样本语音和第二样本语音,所述第一样本文本信息包括属于第一语种的文本内容,所述第一样本语音和所述第二样本语音为同一样本对象的语音,所述第一样本语音属于第一语种且与所述第一样本文本信息对应,所述第二样本语音属于第二语种,所述第一语种与所述第二语种不同;语音合成模块,用于调用语音合成模型,提取所述第一样本文本信息对应的第一预测文本特征,提取所述第二样本语音对应的第一预测音特征,基于所述第一预测文本特征和所述第一预测音特征合成第一预测语音;语种分类模块,用于调用语种分类模型,对所述第一预测音特征进行语种反转分类,得到所述第二样本语音所属的第一预测语种,所述语种反转分类用于使所述第一预测语种与所述第一预测音特征表示的语种相反;模型训练模块,用于基于所述第一预测语种和所述第二语种,以及所述第一样本语音和所述第一预测语音,训练所述语种分类模型和所述语音合成模型,以使所述第一预测语种与所述第二语种之间的差值减小,且所述第一样本语音与所述第一预测语音之间的差值减小。13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至11任一权利要求所述的语音合成模型训练方法所执行的操作。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至11任一权利要求所述的语音合成模型训练方法所执行的操作。15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一权利要求所述的语音合成模型训练方法所执行的操作。
技术总结
本申请实施例公开了一种语音合成模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取第一样本文本信息、第一样本语音和第二样本语音;调用语音合成模型,提取第一样本文本信息对应的第一预测文本特征,提取第二样本语音对应的第一预测音特征,基于第一预测文本特征和第一预测音特征合成第一预测语音;调用语种分类模型,对第一预测音特征进行语种反转分类,得到第二样本语音所属的第一预测语种;基于第一预测语种和第二语种,以及第一样本语音和第一预测语音,训练语种分类模型和语音合成模型。该方法训练的语音合成模型,实现了跨语种语音合成,且合成的语音具有较高的自然度。且合成的语音具有较高的自然度。且合成的语音具有较高的自然度。
技术研发人员:
郑艺斌 李新辉 卢鲤
受保护的技术使用者:
腾讯科技(深圳)有限公司
技术研发日:
2022.05.13
技术公布日:
2022/9/30