听障用户语音合成方法、装置、设备及存储介质与流程

阅读: 评论:0



1.本技术涉及语音合成技术领域,更具体的说,是涉及一种听障用户语音合成方法、装置、设备及存储介质。


背景技术:



2.听障人只要分为两种,一种是自婴儿时期就出现听力问题,导致交流障碍。另一种是后天听障由于长期不进行语言交流,导致因长期不使用导致的发音器官僵化和构音器官功能退化,使发声过程中的呼吸掌握、嗓音言语声的音调音强、共鸣腔的协调作用、抑扬顿挫韵律都受到极大的影响,很难保持正常的音及韵律。
3.现有的听障人辅助发音系统,一般都是通过统一的语音机器人进行文本到语音的合成,无法为不同听障用户提供个性化的合成语音。而现有的变声技术是对发音人的声音进行高精度的复刻,并未考虑听障人发音不准的实际情况,进而也无法将现有的变声技术应用于对听障人的语音合成场景中。


技术实现要素:



4.鉴于上述问题,提出了本技术以便提供一种听障用户语音合成方法、装置、设备及存储介质,以实现为听障用户合成个性化、清晰的语音的目的。
5.具体方案如下:
6.第一方面,提供了一种听障用户语音合成方法,包括:
7.获取目标听障用户的发音质量;
8.若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;
9.获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
10.第二方面,提供了一种听障用户语音合成装置,包括:
11.发音质量获取单元,用于获取目标听障用户的发音质量;
12.第一语音合成模型获取单元,用于若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的
音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;
13.第一语音合成模型处理单元,用于获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
14.第三方面,提供了一种听障用户语音合成设备,包括:存储器和处理器;
15.所述存储器,用于存储程序;
16.所述处理器,用于执行所述程序,实现如上所述的听障用户语音合成方法的各个步骤。
17.第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的听障用户语音合成方法的各个步骤。
18.借由上述技术方案,本技术首先确定目标听障用户的发音质量,在确定满足设定的第一发音质量条件时,获取到预配置的与该条件对应的第一语音合成模型。本技术中预先配置的第一语音合成模型包含韵律编码模块、文本编码模块、音编码模块和解码模块,由此可见,本技术通过设置韵律、音、文本三个编码模块,能够将语音的韵律、音实现解耦,同时,第一语音合成模型训练时所使用的训练数据是以健全人发音数据的音、文本以及相似听障韵律合成的,该相似听障韵律为与健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律,也即,训练数据保留了听障用户的韵律,同时迁移了健全人的发音风格,基于该训练数据所训练的第一语音合成模型能够学习到健全人发音的风格。在第一语音合成模型的基础上,本技术获取到目标听障用户的音特征和韵律特征,将第一语音合成模型中韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将音编码模块的编码特征固定为目标听障用户的音特征,基于此得到的处理后语音合成模型作为目标听障用户的个性化语音合成模型,从而实现对目标听障用户合成个性化语音,且由于模型学习到了健全人的发音风格,使得最终合成的语音更加顺畅、清晰。
附图说明
19.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
20.图1为本技术实施例提供的听障用户语音合成方法的一流程示意图;
21.图2示例了一种自编码神经网络模型训练过程示意图;
22.图3为本技术实施例提供的一种文本处理装置结构示意图;
23.图4为本技术实施例提供的文本处理设备的结构示意图。
具体实施方式
24.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本技术保护的范围。
25.本技术提供了一种听障用户语音合成方案,可以适用于对听障用户进行语音合成的场景。
26.本技术方案可以基于具备数据处理能力的终端实现,该终端可以是录音笔、手机、电脑、服务器、云端等。
27.接下来,结合图1所述,本技术的听障用户语音合成方法可以包括如下步骤:
28.步骤s100、获取目标听障用户的发音质量。
29.其中,目标听障用户即为需要进行语音合成的听障用户。其发音质量可以通过发音等级、发音得分等形式来评定。本技术可以预先设定不同的发音质量条件,不同的发音质量条件代表对发音质量的不同要求。本步骤中获取到目标听障用户的发音质量,可以确定其所满足的发音质量条件。对于不同的发音质量条件,可以设置不同的语音合成策略。
30.步骤s110、若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型。
31.所述第一语音合成模型可以包括韵律编码模块、文本编码模块、音编码模块及解码模块,第一语音合成模型以模拟听障用户的发音数据作为训练数据训练得到。其中,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的。该相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律。
32.本实施例中设置第一语音合成模型包含韵律编码、文本编码和音编码三个模块,从而将韵律和音解耦。
33.进一步,为了让第一语音合成模型能够合成更加清晰、顺畅的语音,本实施例中在训练第一语音合成模型时,在收集的听障用户的发音集合中,选取与健全人发音数据的韵律相似的韵律,进而利用该选取的韵律,以及健全人发音数据的音和转写文本,合成语音,本实施例中定义该合成语音为模拟听障用户的发音数据,利用该模拟听障用户的发音数据来训练第一语音合成模型,可以使得训练后的第一语音合成模型能够迁移学习到健全人的发音风格。
34.步骤s120、获取所述目标听障用户的音特征和韵律特征,并基于此对第一语音合成模型进行处理,得到目标听障用户的个性化语音合成模型。
35.本步骤中,获取目标听障用户的音特征的过程,可以是基于预训练的音表征模型(音又可以理解为声纹,因此音表征模型又可以称之为声纹表征模型),对目标听障用户的发音数据进行音提取。
36.获取目标听障用户的韵律特征的过程,可以是基于预训练的韵律表征模型,对目标听障用户的发音数据进行韵律提取。
37.本步骤中,利用目标听障用户的音特征和韵律特征对所述第一语音合成模型进行处理的过程,可以包括:
38.将第一语音合成模型中的韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
39.其中,目标听障用户的韵律特征可以是韵律分布空间,也即将第一语音合成模型中的韵律编码模块的编码特征固定在目标听障用户的韵律分布空间中。在对不同文本进行
语音合成时,韵律编码模块可以根据所要合成文本的不同,在目标听障用户的韵律分布空间中选取具体的韵律特征,进而按照选取的韵律特征,结合音编码模块所固定的音特征,对文本进行语音合成,得到合成后的符合目标听障用户个性的语音。
40.本技术实施例提供的方法,首先确定目标听障用户的发音质量,在确定满足设定的第一发音质量条件时,获取到预配置的与该条件对应的第一语音合成模型。本技术中预先配置的第一语音合成模型包含韵律编码模块、文本编码模块、音编码模块和解码模块,由此可见,本技术通过设置韵律、音、文本三个编码模块,能够将语音的韵律、音实现解耦,同时,第一语音合成模型训练时所使用的训练数据是以健全人发音数据的音、文本以及相似听障韵律合成的,该相似听障韵律为与健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律,也即,训练数据保留了听障用户的韵律,同时迁移了健全人的发音风格,基于该训练数据所训练的第一语音合成模型能够学习到健全人发音的风格。在第一语音合成模型的基础上,本技术获取到目标听障用户的音特征和韵律特征,将第一语音合成模型中韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将音编码模块的编码特征固定为目标听障用户的音特征,基于此得到的处理后语音合成模型作为目标听障用户的个性化语音合成模型,从而实现对目标听障用户合成个性化语音,且由于模型学习到了健全人的发音风格,使得最终合成的语音更加顺畅、清晰。
41.在本技术的一些实施例中,对上述步骤s100,获取目标听障用户的发音质量的过程进行介绍。
42.一种可选的实现方式,本技术可以获取经由专业发音质量评测机构所给出的目标听障用户的发音质量,示例如经由专科医生、研究员对所述目标听障用户评定的发音质量。
43.另一种可选的实现方式,本技术可以获取目标听障用户的发音数据,进而对发音数据进行发音质量测评,得到目标听障用户的发音质量。
44.具体地,本技术实施例中可以获取目标听障用户在指定带读用户的带读下,对指定文本内容的发音数据。示例如,本技术可以选择若干位不同声的专业带读人士朗读指定文本内容,得到录音。目标听障用户可以根据音从中选择一个专业带读人士的录音,并在该录音的带读下朗读指定文本内容,本技术获取目标听障用户对指定文本内容的发音数据。
45.进一步地,对发音数据进行发音质量测评,得到目标听障用户的发音质量的过程,可以包括:
46.利用预训练的发音质量测评模型,对目标听障用户的发音数据进行测评,得到目标听障用户的发音质量。
47.其中,发音质量测评模型可以是,基于标注有发音质量评价结果的听障用户的发音数据训练得到,其中,发音质量评价结果基于发音数据的转写准确率及,与标准声学模型比对的声学似然度共同确定。
48.具体地,发音质量测评模型的建立过程,可以包括:
49.s1、获取标准声学模型。
50.其中,所述标准声学模型可以是基于采集的非听障用户的普通用户的发音数据所建立。本实施例中可以采集大量(如10万条或其它可选数值)普通人的发音数据,采用语音信号处理技术获取每条发音数据的声学特征,再根据统计建模标识各声学特征的特点,得
到标准声学模型,该标准声学模型可以是高斯模型,也可以是其它概率统计模型。
51.s2、获取听障人语音数据库。
52.其中,听障人数据库中包含多条听障用户的发音数据及对应的标注文本,每条发音数据对应的标注文本可以是人工标注的该发音数据对应的文本内容。
53.s3、识别听障人数据库中每条发音数据的语音转写文本,并与对应的标注文本进行比对,基于比对结果确定每条发音数据的转写准确率。
54.具体地,可以通过语音转写模型识别每条发音数据的转写文本。进一步,将识别到的转写文本与发音数据对应的标注文本进行比对,基于比对结果确定每条发音数据的转写准确率。该转写准确率能够表征发音数据的表达清晰度。
55.s4、将数据库中每条发音数据与所述标准声学模型进行比对,得到每条发音数据的声学似然度。
56.具体地,可以将每条发音数据输入至标准声学模型,得到标准声学模型输出的每条发音数据的声学似然度,该声学似然度反映了发音数据的声学特征与标准发音的声学特征间的差距。
57.s5、结合每条发音数据的转写准确率和声学似然度,确定每条发音数据的质量评价结果。
58.具体地,可以采用线性加权的方式,将转写准确率和声学似然度进行结合,结果作为发音数据的质量评价结果。当然,除此之外,还可以采用其他融合方式,将发音数据的转写准确率和声学似然度相结合,以得到发音数据的质量评价结果。
59.其中,质量评价结果可以是质量等级、质量评分等形式。本实施例中以质量等级为例进行说明:
60.可以按照发音质量由高到底划分为若干等级,如划分为1-16级。其中,1-5级可以定义为发音质量较好,6-13级可以定义为发音质量中等,14-16级可以定义为发音质量较差。当然,上述发音质量较好、中等、较差均是按照用户定义的标准进行划分的。
61.前述图1对应的实施例中,发音质量满足第一发音质量条件,其中第一发音质量条件可以是发音等级处于6-13级,也即第一发音质量条件可以是表示发音质量中等的条件。
62.进一步地,下文中本技术还会提到第二发音质量条件和第三发音质量条件,以本实施例中对发音质量等级的划分方式为例,对应的第二发音质量条件可以是发音等级处于1-5级,也即第二发音质量条件可以是表示发音质量较好的条件。第三发音质量条件可以是发音等级处于14-16级,也即第三发音质量条件可以是表示发音质量较差的条件。
63.s6、以数据库中各条发音数据及其对应的质量评价结果作为训练数据,训练得到发音质量测评模型。
64.具体地,按照前述各步骤的处理,听障人数据库中各条发音数据均确定了对应的质量评价结果。进一步,本步骤中可以以该标注有质量评价结果的各条发音数据作为训练数据,训练发音质量测评模型。训练后的发音质量测评模型可以用于预测发音数据的质量评价结果。
65.在本技术的一些实施例中,对上述步骤s110中,获取的预配置的与所述第一发音质量条件对应的第一语音合成模型进行介绍。
66.具体地,第一语音合成模型的建立过程,可以参考如下步骤:
67.s11、从设定的健全人声学数据库中选取健全人发音数据,提取所述健全人发音数据的音特征和转写文本。
68.具体地,本技术可以预先采集大量的健全人的发音数据,组成健全人声学数据库。进一步,从健全人声学数据库中随机选取健全人发音数据,提取该发音数据的音特征和对应的转写文本。
69.进一步地,本技术还可以预先采集听障用户的发音数据,组成听障人声学数据库。
70.为了便于表述,定义从健全人声学数据库中选取的健全人发音数据为源发音数据。
71.s12、利用预训练的韵律表征模型提取所述健全人发音数据的第一韵律特征,利用所述韵律表征模型提取设定的听障人声学数据库中每条听障用户的发音数据的第二韵律特征。
72.具体地,本技术可以预先训练得到韵律表征模型,用于提取发音数据的韵律特征。在此基础上,利用韵律表征模型提取上述源发音数据的第一韵律特征,以及,提取听障人声学数据库中每条听障用户的发音数据的第二韵律特征。
73.s13、在各条所述第二韵律特征中,选取与所述第一韵律特征最相似的相似听障韵律特征,利用所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,合成得到模拟听障用户的发音数据。
74.具体地,上一步骤得到了听障人声学数据库中每条听障用户的发音数据的第二韵律特征,在此基础上,可以分别计算每个第二韵律特征与步骤s2中提取的源发音数据的第一韵律特征的相似度,计算过程可以采用欧氏距离或其它形式来表示相似度。进而确定相似度最高的第二韵律特征,将该相似度最高的第二韵律特征定义为相似听障韵律特征。
75.在得到相似听障韵律特征之后,利用步骤s1中选取的源发音数据的音特征、转写文本以及相似听障韵律特征,合成语音,定义该合成后的语音为模拟听障用户的发音数据。
76.通过上述方案介绍可知,本实施例中合成后的模拟听障用户的发音数据保留了听障用户的韵律特征,同时迁移了健全人的说话风格。
77.s14、基于所述模拟听障用户的发音数据,训练第一语音合成模型。
78.由于模拟听障用户的发音数据保留了听障用户的韵律,同时迁移了健全人的发音风格,基于该训练数据所训练的第一语音合成模型能够学习到健全人发音的风格。
79.在本技术的另一些实施例中,介绍了上述第一语音合成模型的另一种建立过程,可以参考如下步骤:
80.s21、将健全人声学数据库和听障人声学数据库混合,并基于混合后数据库训练自编码神经网络模型。
81.其中,健全人声学数据库和听障人声学数据库可以参照前文介绍。
82.参照图2所示,所述自编码神经网络模型可以包括韵律编码模块、文本编码模块、音编码模块及解码模块。
83.其中,文本编码模块和音编码模块为预配置好的,在训练过程网络参数保持不变。
84.也即,在自编码神经网络模型训练过程,仅需要通过韵律编码模块提取输入的发音数据x的韵律特征即可。发音数据x的文本特征c可以采用预配置文本编码模块来确定,音特征s可以通过预配置的音编码模块来确定。训练过程中,韵律特征z、文本特征c和音特征s可以采用互信息(mmi)进行约束,根据先验假设输入语音数据中主要包含音特征s、文本特征c,剩下的就只是韵律特征z。其中,音特征s和文本特征c是采用预配置好的文本编码模块和音编码模块确定好的,所以通过互信息约束就可以将发音数据进行解耦,利用韵律编码模块得到对应的韵律特征。
85.解码模块利用韵律特征z、文本特征c和音特征s可以解码得到发音数据x。
86.按照上述训练方式,训练后的自编码神经网络模型中的韵律编码模块,具备从发音数据中提取韵律特征的能力,因此可以将其作为韵律表征模型,以供下述步骤s23中使用。
87.s22、从设定的健全人声学数据库中选取健全人发音数据,提取所述健全人发音数据的音特征和转写文本。
88.s23、利用预训练的韵律表征模型提取所述健全人发音数据的第一韵律特征,利用所述韵律表征模型提取设定的听障人声学数据库中每条听障用户的发音数据的第二韵律特征。
89.具体地,本步骤中所提及的韵律表征模型可以采用上述步骤s21中训练后的韵律编码模块。
90.s24、在各条所述第二韵律特征中,选取与所述第一韵律特征最相似的相似听障韵律特征,将所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,输入至训练后的自编码神经网络模型中的解码模块,得到解码后合成的模拟听障用户的发音数据。
91.具体地,上述步骤s21中训练后的自编码神经网络模型中的解码模块,具备基于输入的韵律特征z、文本特征c和音特征s解码得到发音数据x的能力。因此,本步骤中可以将健全人发音数据的音特征、转写文本及所述相似听障韵律特征,输入上述解码模块,得到解码后合成的模拟听障用户的发音数据。
92.s25、基于所述模拟听障用户的发音数据,训练第一语音合成模型。
93.具体地,在得到模拟听障用户的发音数据之后,可以利用该发音数据作为训练数据,重新训练一个语音合成模型。
94.本实施例介绍的第一语音合成模型的建立方法,通过训练自编码神经网络模型,得到韵律编码模块和解码模块,利用该韵律编码模块作为韵律表征模型,可以提取健全人发音数据的第一韵律特征,以及提取听障人声学数据库中每条听障用户的发音数据的第二韵律特征。利用解码模块,可以基于确定的健全人发音数据的音特征、转写文本及所述相似听障韵律特征,得到解码后合成的模拟听障用户的发音数据,最后利用模拟听障用户的发音数据训练第一语音合成模型。
95.可以理解的是,本实施例中训练得到的韵律表征模型,还可以用于前述步骤s120中,提取所述目标听障用户的发音数据的韵律特征。
96.在本技术的一些实施例中,介绍了听障用户语音合成方法的另一种可选实现方式,在前述实施例的基础上,方法还可以包括如下步骤:
97.若所述发音质量满足设定的第二发音质量条件,则将预配置的与所述第二发音质
量条件对应的第二语音合成模型,作为所述目标听障用户的个性化语音合成模型。
98.其中,所述第二发音质量条件对发音质量的要求高于所述第一发音质量条件。按照前文介绍的,若将发音质量划分为1-16级,其中数字级别越高代表发音质量越差,如16级的发音质量低于1级的发音质量。
99.其中,第一发音质量条件可以是发音等级处于6-13级,第二发音质量条件可以是发音等级处于1-5级。
100.所述第二语音合成模型可以是采用目标听障用户的发音数据及对应的转写文本,对通用语音合成模型进行微调后的语音合成模型。
101.本实施例中,在确定目标听障用户的发音质量满足第二发音质量条件时,也即认定发音质量较好,可以在通用语音合成模型的基础上进行微调即可。
102.其中通用语音合成模型可以是适用于健全人语音合成的模型。在对其进行微调时,可以仅对音编码层和解码层进行微调,以保证调整后的模型输出的合成语音的音与目标听障用户的音相近。
103.在本技术的一些实施例中,介绍了听障用户语音合成方法的又一种可选实现方式,在前述实施例的基础上,方法还可以包括:
104.若所述发音质量满足设定的第三发音质量条件,则按照本实施例中下述方式获取目标听障用户的个性化语音合成模型。
105.其中,第三发音质量条件对发音质量的要求低于第一发音质量条件。
106.按照前文介绍的,若将发音质量划分为1-16级。其中,第一发音质量条件可以是发音等级处于6-13级,第二发音质量条件可以是发音等级处于1-5级。第三发音质量条件可以是发音等级处于14-16级。
107.具体地,在满足第三发音质量条件时,获取目标听障用户的个性化语音合成模型的过程,可以包括如下步骤:
108.s1、获取目标听障用户的音特征。
109.具体地,可以通过预先训练的音表征模型来提取目标听障用户的音特征。
110.s2、在预配置的混合音空间中,选取与目标听障用户的音特征满足设定音相似度条件的若干个音特征,并计算选取的若干个音特征的平均音特征。
111.其中,所述混合音空间可以基于混合有健全用户及听障用户的发音数据所建立。具体的,可以将采集的健全用户的发音数据和采集的听障用户的发音数据混合在一起,并分别提取混合后每一条发音数据的音特征,将提取的各条音特征组成混合音空间。
112.通过混合健全用户和听障用户的音特征来构建混合音空间,可以保证能够选取到与目标听障用户的音特征足够相似的。通过对选取的相似度满足条件的若干个音特征求平均,得到平均音特征,实现了目标听障用户的音的迁移。
113.其中,选取的满足设定音相似度条件的若干个音特征,可以是一个或多个音特征。
114.s3、获取一个以上的其它用户发音的韵律特征,并将获取的每一韵律特征分别与所述平均音特征、设定文本进行合成,得到与每一韵律特征对应的合成语音。
115.具体地,对于目标听障用户的发音质量满足第三发音质量条件时,可以理解该目
标听障用户的发音质量较差了,意味着基于目标听障用户的发音数据所提取的韵律特征已经无法使用,若基于该韵律特征进行语音合成,可能导致合成语音不清晰。为此,本步骤中选取使用其他用户发音的韵律特征来代替目标听障用户发音的韵律特征进行语音合成。其中,其他用户可以是发音质量超过第三发音质量条件要求的其它用户,示例如,可以在满足第二发音质量条件要求的用户作为本步骤中的其它用户。在此基础上,将获取的其它用户发音的韵律特征与平均音特征、设定文本进行合成,保证合成语音的清晰。
116.此外,为了使得目标听障用户有更多的选择空间,本步骤中可以获取一个或多个其他用户发音的韵律特征,则可以得到每一个韵律特征对应的合成语音。示例性的,本步骤中可以选取6个不同用户的发音的韵律特征,进而可以得到6个不同韵律特征各自对应的合成语音。
117.s4、输出与每一韵律特征对应的合成语音,并响应目标听障用户从中选取目标合成语音的操作,确定所述目标合成语音对应的目标韵律特征。
118.具体地,目标听障用户可以根据自己的喜好从输出的各条合成语音中选取自己所喜欢的目标合成语音,进而本步骤中确定目标合成语音对应的目标韵律特征。
119.s5、获取包括韵律编码模块、文本编码模块、音编码模块及解码模块的第三语音合成模型,对所述第三语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型。
120.其中,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标韵律特征,将所述音编码模块的编码特征固定为所述平均音特征。
121.具体地,为了得到与目标听障用户对应的个性化语音合成模型,本步骤中将第三语音合成模型中的韵律编码模块的编码特征固定为上一步骤所确定的目标韵律特征,将音编码模块的编码特征固定为上述步骤所确定的平均音特征。
122.其中,目标韵律特征可以是韵律分布空间,也即将第三语音合成模型中的韵律编码模块的编码特征固定在目标韵律特征对应的韵律分布空间中。在对不同文本进行语音合成时,韵律编码模块可以根据所要合成文本的不同,在韵律分布空间中选取具体的韵律特征,进而按照选取的韵律特征,结合音编码模块所固定的音特征,对文本进行语音合成,得到合成后的符合目标听障用户个性的语音。
123.可选的,上述步骤s3中得到的若干条合成语音,由于在合成时基于不同的韵律特征进行合成的,可能导致部分合成语音的音与目标听障用户的音差距过大的情况,若将此类合成语音输出,则被目标听障用户选中的概率很低,而且会影响到目标听障用户的选取操作。为此,本技术实施例中可以在上述步骤s3和s4之间增加如下步骤:
124.s6、分别获取每一韵律特征对应的合成语音的音特征,并计算每一合成语音的音特征与所述目标听障用户的音特征的相似度,选取相似度最高的前n条合成语音。
125.在此基础上,上述步骤s4输出与每一韵律特征对应的合成语音的过程,具体包括:
126.输出上述步骤s6中选取的前n条合成语音。
127.在本技术的一些实施例中,介绍了上述s2中预配置的混合音空间的一种可选建立方式,具体过程如下:
128.1)、对混合有健全用户及听障用户的发音数据的数据库中每条发音数据,分别提取音特征。
129.2)、将提取的各音特征进行聚类,由聚类得到的各聚类簇组成混合音空间。
130.具体地,按照本实施例的方式,混合音空间是由若干聚类簇组成,每一聚类簇中包含若干音特征。可以理解的是,同一聚类簇中各条音特征的相似度较高。
131.在此基础上,上述步骤s2在预配置的混合音空间中,选取与所述目标听障用户的音特征满足设定音相似度条件的若干个音特征的过程,可以包括:
132.s21、计算所述目标听障用户的音特征与混合音空间中每一聚类簇的聚类中心的距离,确定距离最短的目标聚类簇。
133.s22、将所述目标聚类簇包含的各音特征作为所述满足设定音相似度条件的音特征,或,在所述目标聚类簇中计算与所述目标听障用户的音特征最相似的音特征,作为所述满足设定音相似度条件的音特征,再或者,将所述目标聚类簇的聚类中心对应的音特征作为所述满足设定音相似度条件的音特征。
134.下面对本技术实施例提供的听障用户语音合成装置进行描述,下文描述的听障用户语音合成装置与上文描述的听障用户语音合成方法可相互对应参照。
135.参见图3,图3为本技术实施例公开的一种听障用户语音合成装置结构示意图。
136.如图3所示,该装置可以包括:
137.发音质量获取单元11,用于获取目标听障用户的发音质量;
138.第一语音合成模型获取单元12,用于若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;
139.第一语音合成模型处理单元13,用于获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
140.可选的,本技术的装置还可以包括:
141.第二语音合成模型获取单元,用于若所述发音质量满足设定的第二发音质量条件,则将预配置的与所述第二发音质量条件对应的第二语音合成模型,作为所述目标听障用户的个性化语音合成模型,所述第二语音合成模型为采用所述目标听障用户的发音数据及对应的转写文本,对通用语音合成模型进行微调后的语音合成模型;
142.其中,所述第二发音质量条件对发音质量的要求高于所述第一发音质量条件。
143.可选的,本技术的装置还可以包括:
144.第三语音合成模型获取单元,用于若所述发音质量满足设定的第三发音质量条件,则按照如下处理方式获取并处理第三语音合成模型,得到目标听障用户的个性化语音合成模型,处理方式包括:
145.获取所述目标听障用户的音特征,所述第三发音质量条件对发音质量的要求低于所述第一发音质量条件;
146.在预配置的混合音空间中,选取与所述目标听障用户的音特征满足设定音
相似度条件的若干个音特征,并计算选取的若干个音特征的平均音特征,所述混合音空间基于混合有健全用户及听障用户的发音数据所建立;
147.获取一个以上的其它用户发音的韵律特征,并将获取的每一韵律特征分别与所述平均音特征、设定文本进行合成,得到与每一韵律特征对应的合成语音;
148.输出与每一韵律特征对应的合成语音,并响应目标听障用户从中选取目标合成语音的操作,确定所述目标合成语音对应的目标韵律特征;
149.获取包括韵律编码模块、文本编码模块、音编码模块及解码模块的第三语音合成模型,对所述第三语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标韵律特征,将所述音编码模块的编码特征固定为所述平均音特征。
150.可选的,本技术的装置还可以包括:
151.第一语音合成模型建立单元,用于建立第一语音合成模型,该建立过程可以包括:
152.从设定的健全人声学数据库中选取健全人发音数据,提取所述健全人发音数据的音特征和转写文本,并利用预训练的韵律表征模型提取所述健全人发音数据的第一韵律特征,利用所述韵律表征模型提取设定的听障人声学数据库中每条听障用户的发音数据的第二韵律特征;
153.在各条所述第二韵律特征中,选取与所述第一韵律特征最相似的相似听障韵律特征,利用所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,合成得到模拟听障用户的发音数据;
154.基于所述模拟听障用户的发音数据,训练第一语音合成模型。
155.可选的,第一语音合成模型建立单元在提取所述健全人发音数据的音和转写文本之前,还可以包括:
156.将所述健全人声学数据库和所述听障人声学数据库混合,并基于混合后数据库训练自编码神经网络模型,所述自编码神经网络模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,其中,文本编码模块和音编码模块为预配置好的,在训练过程网络参数保持不变;由训练后的自编码神经网络模型中的韵律编码模块,作为所述韵律表征模型;
157.在此基础上,第一语音合成模型建立单元利用所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,合成得到模拟听障用户的发音数据的过程,可以包括:
158.将所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,输入至训练后的自编码神经网络模型中的解码模块,得到解码后合成的模拟听障用户的发音数据。
159.可选的,本技术的装置还可以包括:
160.混合音空间建立单元,用于建立混合音空间,该过程包括:
161.对混合有健全用户及听障用户的发音数据的数据库中每条发音数据,分别提取音特征;
162.将提取的各音特征进行聚类,由聚类得到的各聚类簇组成混合音空间。在此基础上,上述第三语音合成模型获取单元在预配置的混合音空间中,选取与所述目标听障用户的音特征满足设定音相似度条件的若干个音特征的过程,可以包括:
163.计算所述目标听障用户的音特征与混合音空间中每一聚类簇的聚类中心的距离,确定距离最短的目标聚类簇;
164.将所述目标聚类簇包含的各音特征作为所述满足设定音相似度条件的音特征,或,在所述目标聚类簇中计算与所述目标听障用户的音特征最相似的音特征,作为所述满足设定音相似度条件的音特征。
165.可选的,上述第三语音合成模型获取单元获取一个以上的其它用户发音的韵律特征的过程,可以包括:
166.在发音质量超过所述第三发音质量条件要求的其它用户中,选取一个以上的其它用户发音的韵律特征。
167.可选的,上述第三语音合成模型获取单元在输出与每一韵律特征对应的合成语音之前,还可以包括:
168.分别获取每一韵律特征对应的合成语音的音特征,并计算每一合成语音的音特征与所述目标听障用户的音特征的相似度;选取相似度最高的前n条合成语音。在此基础上,第三语音合成模型获取单元输出与每一韵律特征对应的合成语音的过程,可以包括:
169.输出所述前n条合成语音。
170.可选的,本技术的发音质量获取单元获取目标听障用户的发音质量的过程,可以包括:
171.获取目标听障用户的发音数据;
172.对所述目标听障用户的发音数据进行发音质量测评,得到所述目标听障用户的发音质量。
173.可选的,上述发音质量获取单元对所述目标听障用户的发音数据进行发音质量测评,得到所述目标听障用户的发音质量的过程,可以包括:
174.利用预训练的发音质量测评模型,对所述目标听障用户的发音数据进行测评,得到所述目标听障用户的发音质量;
175.其中,所述发音质量测评模型为,基于标注有发音质量评价结果的听障用户的发音数据训练得到,其中,发音质量评价结果基于发音数据的转写准确率及与标准声学模型比对的声学似然度共同确定。
176.本技术实施例提供的听障用户语音合成装置可应用于听障用户语音合成设备,如录音笔、手机、电脑等。可选的,图4示出了听障用户语音合成设备的硬件结构框图,参照图4,听障用户语音合成设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
177.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
178.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
179.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
180.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
181.获取目标听障用户的发音质量;
182.若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;
183.获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
184.可选的,所述程序的细化功能和扩展功能可参照上文描述。
185.本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
186.获取目标听障用户的发音质量;
187.若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;
188.获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。
189.可选的,所述程序的细化功能和扩展功能可参照上文描述。
190.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
191.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
192.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被
限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种听障用户语音合成方法,其特征在于,包括:获取目标听障用户的发音质量;若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。2.根据权利要求1所述的方法,其特征在于,还包括:若所述发音质量满足设定的第二发音质量条件,则将预配置的与所述第二发音质量条件对应的第二语音合成模型,作为所述目标听障用户的个性化语音合成模型,所述第二语音合成模型为采用所述目标听障用户的发音数据及对应的转写文本,对通用语音合成模型进行微调后的语音合成模型;其中,所述第二发音质量条件对发音质量的要求高于所述第一发音质量条件。3.根据权利要求1所述的方法,其特征在于,还包括:若所述发音质量满足设定的第三发音质量条件,则获取所述目标听障用户的音特征,所述第三发音质量条件对发音质量的要求低于所述第一发音质量条件;在预配置的混合音空间中,选取与所述目标听障用户的音特征满足设定音相似度条件的若干个音特征,并计算选取的若干个音特征的平均音特征,所述混合音空间基于混合有健全用户及听障用户的发音数据所建立;获取一个以上的其它用户发音的韵律特征,并将获取的每一韵律特征分别与所述平均音特征、设定文本进行合成,得到与每一韵律特征对应的合成语音;输出与每一韵律特征对应的合成语音,并响应目标听障用户从中选取目标合成语音的操作,确定所述目标合成语音对应的目标韵律特征;获取包括韵律编码模块、文本编码模块、音编码模块及解码模块的第三语音合成模型,对所述第三语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标韵律特征,将所述音编码模块的编码特征固定为所述平均音特征。4.根据权利要求1所述的方法,其特征在于,所述第一语音合成模型的建立过程,包括:从设定的健全人声学数据库中选取健全人发音数据,提取所述健全人发音数据的音特征和转写文本,并利用预训练的韵律表征模型提取所述健全人发音数据的第一韵律特征,利用所述韵律表征模型提取设定的听障人声学数据库中每条听障用户的发音数据的第二韵律特征;在各条所述第二韵律特征中,选取与所述第一韵律特征最相似的相似听障韵律特征,利用所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,合成得到模拟
听障用户的发音数据;基于所述模拟听障用户的发音数据,训练第一语音合成模型。5.根据权利要求4所述的方法,其特征在于,在提取所述健全人发音数据的音和转写文本之前,还包括:将所述健全人声学数据库和所述听障人声学数据库混合,并基于混合后数据库训练自编码神经网络模型,所述自编码神经网络模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,其中,文本编码模块和音编码模块为预配置好的,在训练过程网络参数保持不变;由训练后的自编码神经网络模型中的韵律编码模块,作为所述韵律表征模型;所述利用所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,合成得到模拟听障用户的发音数据,包括:将所述健全人发音数据的音特征、转写文本及所述相似听障韵律特征,输入至训练后的自编码神经网络模型中的解码模块,得到解码后合成的模拟听障用户的发音数据。6.根据权利要求4所述的方法,其特征在于,获取所述目标听障用户的韵律特征的过程,包括:利用预训练的韵律表征模型提取所述目标听障用户的发音数据的韵律特征。7.根据权利要求3所述的方法,其特征在于,所述混合音空间的建立过程,包括:对混合有健全用户及听障用户的发音数据的数据库中每条发音数据,分别提取音特征;将提取的各音特征进行聚类,由聚类得到的各聚类簇组成混合音空间;所述在预配置的混合音空间中,选取与所述目标听障用户的音特征满足设定音相似度条件的若干个音特征,包括:计算所述目标听障用户的音特征与混合音空间中每一聚类簇的聚类中心的距离,确定距离最短的目标聚类簇;将所述目标聚类簇包含的各音特征作为所述满足设定音相似度条件的音特征,或,在所述目标聚类簇中计算与所述目标听障用户的音特征最相似的音特征,作为所述满足设定音相似度条件的音特征。8.根据权利要求3所述的方法,其特征在于,所述获取一个以上的其它用户发音的韵律特征,包括:在发音质量超过所述第三发音质量条件要求的其它用户中,选取一个以上的其它用户发音的韵律特征。9.根据权利要求3所述的方法,其特征在于,在所述输出与每一韵律特征对应的合成语音之前,该方法还包括:分别获取每一韵律特征对应的合成语音的音特征,并计算每一合成语音的音特征与所述目标听障用户的音特征的相似度;选取相似度最高的前n条合成语音;所述输出与每一韵律特征对应的合成语音,包括:输出所述前n条合成语音。10.根据权利要求1-9任一项所述的方法,其特征在于,所述获取目标听障用户的发音质量,包括:
获取目标听障用户的发音数据;对所述目标听障用户的发音数据进行发音质量测评,得到所述目标听障用户的发音质量。11.根据权利要求10所述的方法,其特征在于,对所述目标听障用户的发音数据进行发音质量测评,得到所述目标听障用户的发音质量,包括:利用预训练的发音质量测评模型,对所述目标听障用户的发音数据进行测评,得到所述目标听障用户的发音质量;其中,所述发音质量测评模型为,基于标注有发音质量评价结果的听障用户的发音数据训练得到,其中,发音质量评价结果基于发音数据的转写准确率及与标准声学模型比对的声学似然度共同确定。12.一种听障用户语音合成装置,其特征在于,包括:发音质量获取单元,用于获取目标听障用户的发音质量;第一语音合成模型获取单元,用于若所述发音质量满足设定的第一发音质量条件,则获取预配置的与所述第一发音质量条件对应的第一语音合成模型,所述第一语音合成模型包括韵律编码模块、文本编码模块、音编码模块及解码模块,模型以模拟听障用户的发音数据作为训练数据训练得到,所述模拟听障用户的发音数据是以健全人发音数据的音、文本及相似听障韵律合成的,其中,相似听障韵律为与所述健全人发音数据的韵律满足设定韵律相似度条件的听障用户的发音数据的韵律;第一语音合成模型处理单元,用于获取所述目标听障用户的音特征和韵律特征,对所述第一语音合成模型进行处理,处理后作为所述目标听障用户的个性化语音合成模型,所述处理包括:将其中所述韵律编码模块的编码特征固定为所述目标听障用户的韵律特征,将所述音编码模块的编码特征固定为所述目标听障用户的音特征。13.一种听障用户语音合成设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的听障用户语音合成方法的各个步骤。14.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的听障用户语音合成方法的各个步骤。

技术总结


本申请公开了一种听障用户语音合成方法、装置、设备及存储介质,在确定目标听障用户的发音质量满足第一发音质量条件时,获取到第一语音合成模型,模型训练时的训练数据以健全人发音数据的音、文本以及相似听障韵律合成,相似听障韵律为与健全人发音数据的韵律相似的听障用户的发音数据的韵律,基于此训练的模型能够学习到健全人发音的风格。进一步,将模型中韵律编码模块的编码特征固定为目标听障用户的韵律特征,将音编码模块的编码特征固定为目标听障用户的音特征,得到的处理后语音合成模型作为目标听障用户的个性化语音合成模型,能够合成个性化语音,且由于模型学习到了健全人的发音风格,使得最终合成的语音更加顺畅、清晰。清晰。清晰。


技术研发人员:

彭英伦 吴明辉 刘平平 陈锐泽

受保护的技术使用者:

科大讯飞股份有限公司

技术研发日:

2022.08.02

技术公布日:

2022/9/30

本文发布于:2023-03-30 16:50:03,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/82480.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:发音   韵律   所述   音色
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图