数据增强方法、装置、设备及存储介质与流程

阅读: 评论:0



1.本发明涉及计算机技术领域,具体而言,涉及一种数据增强方法、装置、设备及存储介质。


背景技术:



2.文本到语音(text to speech,tts)系统的语音输出质量,需保证tts系统所需的训练语料足够充分。在目前训练语料有限的情况下,可先对语料进行处理,以实现语料的扩充增强,继而根据该处理后的语料进行训练。
3.目前的数据处理方法,一般将待训练的语料以句子为单位,对所有句子的语音进行相同次数的上采样,得到增强处理后的语音集合。
4.然而,上述数据处理方式,对语料中所有字的发音均上采样了相同的次数,而大多数语料中所有字的发音均存在不均衡的情况,因此经过这种处理方式得到的语音集合仍存在发音分布不均的情况,那么,基于该语音集合的模型训练可能会使得有些字的发音的训练过于充分,而对于另外一些字的发音训练不够充分,从而使得基于该语音集合训练的模型的输出语音的质量严重不均衡,即模型输出语音的质量时好时坏,输出语音的稳定性较差。


技术实现要素:



5.本发明的目的在于,针对上述现有技术中的不足,提供一种数据增强方法、装置、设备及存储介质,以实现语音集合中不同发音的均匀训练,提高模型输出语音的质量稳定性。
6.为实现上述目的,本发明实施例采用的技术方案如下:
7.第一方面,本发明实施例提供了一种数据增强方法,包括:
8.获取待训练语料,所述待训练语料中每个字预先标注有对应的发音信息;
9.确定所述待训练语料中不同发音信息的评分;
10.根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数;
11.根据所述上采样次数,对所述每个句子的语音进行多次上采样,得到所述每个句子的上采样语音,所述每个句子的上采样语音包括:所述每个句子对应的所述上采样次数个的语音;
12.输出目标语音集合,所述目标语音集合包括:所述待训练语料中各个句子的上采样语音。
13.可选地,所述确定所述待训练语料中不同发音信息的评分,包括:
14.计算所述不同发音信息中每个发音信息的发音单元频率,所述发音单元频率为所述每个发音信息在所述待训练语料中的出现概率;
15.根据所述每个发音信息的发音单元频率,计算所述每个发音信息的评分。
16.可选地,所述方法还包括:
17.计算所述每个发音信息的逆文档发音单元频率,所述逆文档发音单元频率为出现所述每个发音信息的句子在所述待训练语料中的出现概率;
18.所述根据所述每个发音信息的发音单元频率,计算所述每个发音信息的评分,包括:
19.根据所述发音单元频率和所述逆文档发音单元频率的比值,计算所述每个发音信息的发音单元指数;
20.根据所述每个发音信息的发音单元指数,计算所述每个发音信息的评分。
21.可选地,所述根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数,包括:
22.根据所述每个句子中出现的各发音信息的评分,计算所述每个句子的发音评分;
23.根据所述每个句子的发音评分,计算所述每个句子的上采样次数,其中,所述发音评分和所述上采样次数负相关。
24.可选地,所述根据所述每个句子的发音评分,计算所述每个句子的上采样次数,包括:
25.对所述待训练语料中各个句子的发音评分的分布进行统计,确定目标评分;
26.根据所述每个句子的发音评分,和所述目标评分,确定所述每个句子的上采样次数。
27.可选地,所述对所述待训练语料中各个句子的发音评分的分布进行统计,确定目标评分,包括:
28.对所述待训练语料中各个句子的发音评分进行排序;
29.根据排序后的所述待训练语料中各个句子的发音评分,统计排列在预设位置的发音评分作为所述目标评分。
30.可选地,所述方法还包括:
31.根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分;
32.根据所述不同发音信息的目标评分,重新计算所述每个句子的上采样次数;
33.根据重新计算的上采样次数,对所述每个句子的语音进行迭代上采样,直至得到的所述每个句子的目标语音满足预设的迭代停止条件。
34.可选地,所述根据所述各个句子的上采样语音,重新确定所述不同发音信息的目标评分之前,所述方法还包括:
35.判断所述每个句子的上采样语音是否满足所述迭代停止条件;
36.所述根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分,包括:
37.若所述待训练语料中各个句子中存在目标句子的上采样语音,不满足所述迭代停止条件,则根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分。
38.可选地,所述判断所述每个句子的上采样语音是否满足所述迭代停止条件,包括:
39.根据所述每个句子的上采样语音中各发音信息的目标评分,判断所述每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件;
40.若所述评分分布满足所述评分分布条件,则确定满足所述迭代停止条件;
41.若所述评分分布不满足所述评分分布条件,则确定不满足所述迭代停止条件。
42.可选地,所述根据所述每个句子的上采样语音中各发音信息的目标评分,判断所述每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件,包括:
43.根据所述每个句子的上采样语音中各发音信息的目标评分,计算所述每个句子的上采样语音中各发音信息的目标评分的标准差;
44.判断所述标准差,是否低于预设标准差阈值;
45.若所述标准差低于所述预设标准差阈值,则确定所述评分分布满足所述评分分布条件;
46.若所述标准差大于或等于所述预设标准差阈值,则确定所述评分分布不满足所述评分分布条件。
47.可选地,所述输出目标语音集合之前,所述方法还包括:
48.对上采样得到的语音集合进行随机化处理,得到所述目标语音集合。
49.第二方面,本技术实施例还提供一种数据增强装置,包括:获取模块、确定模块、计算模块、上采样模块和输出模块,其中:
50.所述获取模块,用于获取待训练语料,所述待训练语料中每个字预先标注有对应的发音信息;
51.所述确定模块,用于确定所述待训练语料中不同发音信息的评分;
52.所述计算模块,用于根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数;
53.所述上采样模块,用于根据所述上采样次数,对所述每个句子的语音进行多次上采样,得到所述每个句子的上采样语音,所述每个句子的上采样语音包括:所述每个句子对应的所述上采样次数个的语音;
54.所述输出模块,用于输出目标语音集合,所述目标语音集合包括:所述待训练语料中各个句子的上采样语音。
55.可选地,所述计算模块,具体用于计算所述不同发音信息中每个发音信息的发音单元频率,所述发音单元频率为所述每个发音信息在所述待训练语料中的出现概率;根据所述每个发音信息的发音单元频率,计算所述每个发音信息的评分。
56.可选地,所述计算模块,具体用于计算所述每个发音信息的逆文档发音单元频率,所述逆文档发音单元频率为出现所述每个发音信息的句子在所述待训练语料中的出现概率;根据所述发音单元频率和所述逆文档发音单元频率的比值,计算所述每个发音信息的发音单元指数;根据所述每个发音信息的发音单元指数,计算所述每个发音信息的评分。
57.可选地,所述计算模块,具体用于根据所述每个句子中出现的各发音信息的评分,计算所述每个句子的发音评分;根据所述每个句子的发音评分,计算所述每个句子的上采样次数,其中,所述发音评分和所述上采样次数负相关。
58.可选地,所述确定模块,具体用于对所述待训练语料中各个句子的发音评分的分布进行统计,确定目标评分;根据所述每个句子的发音评分,和所述目标评分对应的预设次数,确定所述每个句子的上采样次数。
59.可选地,所述统计模块,具体用于对所述待训练语料中各个句子的发音评分进行
排序;根据排序后的所述待训练语料中各个句子的发音评分,统计排列在预设位置的发音评分作为所述目标评分。
60.可选地,所述确定模块,具体用于根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分;
61.所述计算模块,具体用于根据所述不同发音信息的目标评分,重新计算所述每个句子的上采样次数;
62.所述上采样模块,具体用于根据重新计算的上采样次数,对所述每个句子的语音进行迭代上采样,直至得到的所述每个句子的目标语音满足预设的迭代停止条件。
63.可选地,所述装置还包括:判断模块,用于判断所述每个句子的上采样语音是否满足所述迭代停止条件;
64.所述计算模块,具体用于若所述待训练语料中各个句子中存在目标句子的上采样语音,不满足所述迭代停止条件,则根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分。
65.可选的,所述判断模块,具体用于根据所述每个句子的上采样语音中各发音信息的目标评分,判断所述每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件;
66.所述确定模块,还用于若所述评分分布满足所述评分分布条件,则确定满足所述迭代停止条件;若所述评分分布不满足所述评分分布条件,则确定不满足所述迭代停止条件。
67.可选地,所述计算模块,具体用于根据所述每个句子的上采样语音中各发音信息的目标评分,计算所述每个句子的上采样语音中各发音信息的目标评分的标准差;
68.所述判断模块,具体用于判断所述标准差,是否低于预设标准差阈值;
69.所述确定模块,具体用于若所述标准差低于所述预设标准差阈值,则确定所述评分分布满足所述评分分布条件;若所述标准差大于或等于所述预设标准差阈值,则确定所述评分分布不满足所述评分分布条件。
70.可选地,所述装置还包括:随机化模块,用于对上采样得到的语音集合进行随机化处理,得到所述目标语音集合。
71.第三方面,本技术实施例还提供一种数据增强设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所提供的任一数据增强方法。
72.第四方面,本技术实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面所提供的任一数据增强方法。
73.本技术的有益效果是:
74.本技术所提供的数据增强方法、装置、设备及存储介质中,在获取到每个字预先标注有对应的发音信息的待训练语料后,可确定待训练语料中不同发音信息的评分,并根据不同发音信息的评分计算待训练语料中每个句子的上采样次数,并根据每个句子的上采样次数对每个句子的语音进行上采样,得到每个句子的上采样语音,继而输出包括每个句子的上采样语音的目标语音集合。该方法中,由于每个句子的上采样次数是根据待训练语料中各句子的不同发音信息的评分计算得到的,如此,基于该每个句子中各发音信息的评分
所计算的该每个句子的上采样次数,实质是基于该每个句子中各发音信息的评分所计算得到的,对于文本语料中的不同句子,其上采样次数并非是固定的相同上采样次数,因此,基于每个句子中各发音信息的评分所计算的该每个句子的上采样次数对该每个句子的语音进行上采样,可使输出的目标语音集合中不同发音信息的均衡分布,从而提高了目标语音集合的质量,那么,基于该目标语音集合中的语音进行模型训练,可有效保证模型训练过程中不同发音信息的训练足够均衡,从而保证模型的输出语音的质量更稳定,避免了模型输出语音的质量时好时坏的缺陷,有效提高模型输出语音的稳定性。
附图说明
75.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
76.图1为本发明实施例提供的数据增强方法的流程示意图一;
77.图2为本发明实施例提供的数据增强方法的流程示意图二;
78.图3为本发明实施例提供的数据增强方法的流程示意图三;
79.图4为本发明实施例提供的数据增强方法的流程示意图四;
80.图5为本发明实施例提供的数据增强方法的流程示意图五;
81.图6为本发明实施例提供的数据增强方法的流程示意图六;
82.图7为本发明实施例提供的数据增强方法的流程示意图七;
83.图8为本技术实施例提供的一种数据增强装置的示意图;
84.图9为本技术实施例提供的另一种数据增强装置的示意图;
85.图10为本技术实施例提供的又一种数据增强装置的示意图。
具体实施方式
86.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
87.传统tts系统的模型训练所需的训练语料通常是从开源音库、自建音库或商业音库中获得,但因为成本问题,无论自建音库、开源音库,商业音库都会有数据上的限制,从而由于语料有限,使得对于稀少字的发音训练不够充分,从而使得基于该语音集合训练的模型的输出语音的质量严重不均衡,即模型输出语音的质量时好时坏,输出语音的稳定性较差。因此,在模型训练之前,可先对训练语料进行增强处理,可有助于之后的训练和输出语音的质量。
88.本技术提供的方法旨在tts系统的模型训练之前,通过执行下述各实施例提供的数据增强方法最主要的是可通过对待训练语料进行数据增强处理,使得增强处理后输出的目标语音集合中的不同发音的分布更加均匀,避免了待训练语料中发音不均衡的缺陷,使得基于目标语音集合的模型训练过程,对待训练语料中的不同的发音得到充分的训练,提高了基于目标语音集合进行训练后模型输出的语音质量,使得模型输出的语音更接近于真
实人声,并且还提高了模型输出的语音质量的稳定性。
89.如下通过多个实施例对本技术所提供的数据增强方法进行示例说明。图1为本发明实施例提供的数据增强方法的流程示意图一,该数据增强方法可由预先安装有数据增强软件的计算机设备实现。如图1所示,该方法可包括:
90.s101:获取待训练语料。
91.其中,待训练语料中每个字预先标注有对应的发音信息。
92.在可能的实现方式中,先获取该待训练语料,并对待训练语料中的每个字的发音进行标注,使得每个字标注有对应的发音信息。示例地,可将待训练语料以句子为单位进行划分,每个句子中的每个字可预先标注有对应的发音信息。
93.如下先对待训练语料的获取方式进行示例说明。在一种可能实现方式中,直接从预设的语音语料库中获取待训练语料。
94.在另一种可能实现方式中,可以通过网络爬取的方式,获取各个句子,以及每个句子中的每个字的语音,从而得到待训练语料。
95.在又一种可能实现方式中,可从预设文本语料库中获取各个句子,随后通过语音收集器获取每个句子的语音,从而得到待训练语料。
96.在其它的可能实现方式中,还可通过网络爬取多个语音,对多个语音进行语音文本转换,得到多个语音的句子,如此,得到了待训练语料。
97.应当理解上述各可能实现方式仅为获取待训练语料的示例性说明,具体的获取方式可以根据用户需要灵活调整,并不以上述实施例给出的为限。
98.在获取到待训练语料的情况下,可采用预设的发音标注方式对该待训练语料中每个字的发音进行标注。示例的,可采用人工标注的方式对该待训练语料中每个字的发音进行标注,也可采用机器标注的方式对该待训练语料中每个字的发音进行标注,例如,采用预设的标注模块或标注器对该待训练语料中每个字进行发音识别并进行发音标注。
99.需要说明的是,该待训练语料中预先标注的每个字的发音信息可用于指示每个字的发音,该待训练语料中相同发音标注有相同的发音信息。该每个字的发音信息例如可以为拼音或音素。
100.s102:确定待训练语料中不同发音信息的评分。
101.在一种可能实现方式中,可根据该待训练语料中每个字的发音信息,采用人工评分的方式对不同发音信息进行评分,例如,可对该待训练语料中每个字的发音信息进行统计后进行展示,使得参与人工评分的目标用户可获知该不同发音信息的统计情况,继而获取该目标用户输入的针对该不同发音信息的评分。
102.在另一种可能实现方式中,可根据该待训练语料中每个字的发音信息,采用机器客观评分的方式对该不同发音信息进行评分,例如,可由预设的发音评价模块或者发音评价器,采用预设的评分规则,对该待训练语料中每个字的发音信息信息统计,以确定该每个发音信息在待训练语料中的出现概率,继而根据该每个发音信息在待训练语料中的出现概率,计算得到该每个发音信息的评分。也就是说,每个发音信息的评分可根据每个发音信息在该待训练语料中的出现频率得到。其中,每个发音信息的评分规则例如可以为:该发音信息在待训练语料中的出现频率越高,则对应的评分越高;该发音信息在待训练语料中出现的频率越低,对应的评分越低;即在待训练语料中,高频词的发音评分高,低频词的发音评
分低。
103.s103:根据不同发音信息的评分,计算待训练语料中每个句子的上采样次数。
104.在可能的示例中,可根据该不同发音信息的评分,采用预设的评分统计算法,以句子为单位对该待训练语料中各句子的语音中出现的发音信息的评分进行统计,根据统计结果,计算该每个句子的上采样次数。该每个句子的上采样次数是基于该每个句子中出现的各个发音信息的评分所计算的,而每个发音信息的评分是根据该每个发音信息在该待训练语料中的出现概率计算的,如此,实质是上采样次数是基于该每个句子中出现各发音信息的出现频率所计算得到的,对于待训练语料中的不同句子,其上采样次数并非是固定的相同上采样次数。如果按照上文中示例出的评分计算规则,即发音信息出现频率越高,则对应字的评分越高,来计算语料中每个句子的总的评分。该计算每个句子的总的评分的方法可以是:一个完整句子中的每个字的评分简单相加的和即为该句子总的评分。一般而言,包含高频词越多的句子,该句子总的评分越高;包含低频词越多的句子,该句句子的总的评分则越低。这种情况下,在计算每句句子的上采样次数时,评分低的句子上采样次数高于评分高的上采样次数。
105.采用本技术提供的方式,可使得低频词得到更多的上采样,从而使得之后训练时,低频词的语料也相对充分,这样既可使得低频字的发音信息也可以得到充分的上采样,还可避免高频字的发音信息的上采样过多,使得基于该上采样次数训练得到的上采样语音中,不同的出现频率的发音信息在上采样语音中的均衡分布。
106.当然,上述每个发音信息的评分规则以及评分方式仅是举例。例如还可以是,在对于每个发音信息的评分规则也可以是:出现频率越高,评分越低。此时,相应地,每个句子的总的评分如果也是对该句中的每个发音信息的评分的简单相加的和,则评分越高的句子,上采样次数越多。
107.s104:根据上采样次数,对每个句子的语音进行多次上采样,得到每个句子的上采样语音。
108.其中,每个句子的上采样语音包括:每个句子对应的上采样次数个的语音。
109.对该每个句子的语音进行一次上采样,便可得到该每个句子的一个语音,如此,对该每个句子的语音进行多次上采样,便可得到该每个句子对应的该上采样次数个的语音。不同句子的语音,采用是采用各句子的上采样次数进行上采样,那么,得到的不同句子的上采样语音的数量并非固定的数量,其可能相同,也可能不同,这取决于,上述方法中所计算的每个句子的上采样次数。
110.s105:输出目标语音集合。
111.其中,目标语音集合包括:待训练语料中各个句子的上采样语音。
112.由于每个句子的上采样次数是基于该不同发音信息的评分计算得到的,如此可使得该目标语音集合中每个句子的上采样语音的数量,实质是基于该不同发音信息所确定的,从而可使得目标语音集合中各发音信息的分布相对均衡。
113.在一些可能的实施例中,目标语音集合例如可以作为tts系统的模型训练所需的语音数据集,示例的,可采用该目标语音集合中的语音以及该待训练语料对应的文本预料进行模型训练,得到目标模型,该目标模型可以称为tts模型,也可称为语音合成模型,又或者,语音生成模型等基于自然语言处理的文本语音模型。
114.由于目标语音集合中各发音信息的分布均衡,使得基于目标语音集合进行模型训练,可使得不同发音均可以得到充分的训练,使得针对不同发音的训练足够均衡,可避免可低频字的发音不足,高频字的发音训练过于充分的缺陷,从而可以使得训练得到的模型可以保持稳定的、高质量的语音输出,使得模型的输出语音更加接近真实人声。
115.本技术所提供的数据增强方法中,获取到预先标注有每个字的发音信息的待训练语料后,确定待训练语料中的不同发音信息的评分,随后根据不同发音信息的评分,计算待训练语料中每个句子的上采样次数,并根据每个句子的上采样次数,对每个句子的语音进行上采样,得到每个句子的上采样语音,最后输出包括各个句子的上采样语音的目标语音集合。该方法中,由于每个句子的上采样次数是根据该待训练语料中不同发音信息的评分确定的,其实是基于不同发音信息计算每个句子的上采样次数,因此待训练语料中的不同句子的上采样次数不一定相同,所以采用本技术提供的方法可以使得目标语音集合中的不同发音信息可以均衡分布,从而提高了目标语音集合的质量,解决了现有技术中由于目标语音集合的质量不高,可用性不强等问题;使得后续基于该目标语音集合中的语音进行模型训练时,可以有效保证不同发音信息的训练都可以足够均衡,保证了根据该目标语音集合训练得到的模型输出的语音质量的稳定性,解决了传统模型输出的语音质量不稳定的问题。
116.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法中确定多个发音信息的评分的实现过程进行示例说明。图2为本技术实施例提供的数据增强方法的流程示意图二,如图2所示,s102可包括:
117.s106:计算不同发音信息中每个发音信息的发音单元频率。
118.发音单元频率为每个发音信息在待训练语料中的出现概率,其可表征该每个发音信息在待训练语料中的占比和稀有程度。
119.在本技术的一个实施例中,例如可以先对待训练语料中的发音信息进行统计,如分别统计待训练语料中每个发音信息的出现数量,和待训练语料中不同发音信息的总出现数量;再根据出现数量和总出现数量的比值,计算该每个发音信息的发音单元频率。
120.例如可采用下述公式计算每个发音信息的发音单元频率pf:pf=np/∑np,其中,np为每个发音信息的出现数量,∑np为不同发音信息的总出现数量。当然,也可根据该出现数量和总出现数量,采用其他的计算公式,计算该每个发音信息的发音单元频率,本技术不对此限制。
121.发音信息的发音单元频率越高,表明该发音信息在待训练语料中的出现频率越高,发音信息的发音单元频率越低,表明该发音信息在待训练语料中的出现频率越低。
122.s107:根据每个发音信息的发音单元频率,计算每个发音信息的评分。
123.示例地,在本技术的一个实施例中,可根据每个发音信息的发音单元频率,采用预设的发音评分规则,计算该每个发音信息的评分,其中,该发音评分规则为:发音信息的发音单元频率和发音信息的评分正相反,即发音信息的发音单元频率越高,发音信息的评分越高,发音信息的发音单元频率越低,发音信息的评分越低。
124.这种根据各发音信息的发音单元频率确定各发音评分的方式,可以使得计算的每个发音信息的评分可更准确的表征各发音信息在整个待训练语料中出现频率,继而可使得计算的句子的上采样次数与句子中发音信息的出现频率更相关,有效保证上采样后得到的
目标语音集合中各发音信息的均衡分布,从而使得后期模型训练的过程中,出现频率较低的发音信息可以得到的训练次数较多,而出现频率较高的发音信息得到的训练数较低,从而实现不同发音信息的均匀训练。
125.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法的实现过程进行示例说明。图3为本技术实施例提供的数据增强方法的流程示意图三,如图3所示,该方法还可包括:
126.s108:计算每个发音信息的逆文档发音单元频率。
127.逆文档发音单元频率为出现每个发音信息的句子在待训练语料中的出现概率,其可用于表征出现每个发音信息的句子在该待训练语料中的重要性。
128.需要说明的是,计算逆文档发音单元频率的步骤和上述计算发音单元频率的步骤执行顺序可以任意设置,可以先后执行,也可同时执行,具体可以根据用户需要灵活调整。
129.示例地,在一些可能的实施例中,可以根据待训练语料中各个句子的语音中的发音信息,分别统计出现每个发音信息的句子数量,和待训练语料中句子总数量;根据句子数量和句子总数量的比值,计算该每个发音信息的逆文档发音单元频率。
130.例如,可根据下述公式计算逆文档发音单元频率idpf:idpf=log(|s|/(s
p
+1)),其中,s为待训练语料中句子总数,sp为包含有当前计算的发音单元的句子数量。加1是为了防止统计值为零而做的平滑处理。
131.对应地,s107可包括:
132.s109:根据发音单元频率和逆文档发音单元频率的比值,计算每个发音信息的发音单元指数。
133.例如可根据发音单元频率pf和逆文档发音单元频率idpf,采用下述公式计算发音单元指数pi:pi=pf/idpf。当然,也可根据发音单元频率和逆文档发音单元频率,采用其他的计算公式,计算该发音单元指数pi,本技术不对此限制。
134.其中,逆文档发音单元频率可类比与逆文档频率,只是将逆文档频率中文档的概念替换为句子,将逆文档频率中字或词的出现频率,替换为出现发音信息的句子的出现频率。
135.s110:根据每个发音信息的发音单元指数,计算每个发音信息的评分。
136.在可能的实现示例中,可将该每个发音信息的发音单元指数确定为每个发音信息的评分,也可根据该每个发音信息的发音单元指数,采用其他方式进行处理之后,得到每个发音信息的评分。
137.这种根据pf和idpf共同确定各发音信息的评分的方式,由于idpf可以体现各句子在整个待训练语料中的重要性,因此在计算各发音信息的评分时,除了考虑各发音信息在整个待训练语料中的占比和稀有程度的同时,还考虑的出现该发音信息的句子在整个待训练语料中的重要性,因此得到的各发音信息的评分更加准确,更加可以体现各发音信息的发音频率的实际分布。
138.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法中计算上采样次数的实现过程进行示例说明。图4为本技术实施例提供的数据增强方法的流程示意图四,如图4所示,s103可包括:
139.s111:根据每个句子中出现的各发音信息的评分,计算每个句子的发音评分。
140.示例地,在本技术的一个实施例中,例如对于一个句子的发音评分的计算,可以是根据该句子中出现的各发音信息的评分的分数相加得到的。即可以以句子为单位计算得分,根据score-s=∑pi进行排序,其中score-s为一个句子的发音评分,pi为每个句子中出现的各发音信息的发音单元指数。
141.可选地,在本技术的一个实施例中,例如可以根据每个句子中出现的各发音信息的评分,和预设评分基准值,例如10、100、或150等任意数值,计算每个句子的发音评分,使得每个句子的评分是以预设评分规则得到的,例如以满分制为100的评分规则为例进行说明,在得到每个句子的语音中的各发音信息的评分后,计算每个句子的初始发音评分,并将初始发音评分乘以一百,得到最终计算的句子的发音评分;应当理解上述预设评分基准值仅为示例性说明,一般常用满分值为10、100或150的评分规则,但是具体预设评分基准值可以根据用户需要灵活调整,并不以上述实施例给出的为限。这种计算句子的发音评分的方式使得各个句子有统一的评分规则。
142.s112:根据每个句子的发音评分,计算每个句子的上采样次数。
143.其中,发音评分和上采样次数负相关,即每个句子的发音评分越高,对应的上采样次数越少,每个句子的发音评分越低,对应的上采样次数越多。
144.仍以对于每一个句子的发音评分进行排序后确定上采样次数为例进行说明,这样确定上采样次数的方式可以使得可以在排序后可以对于评分较低的句子,即低频词聚集的句子优先进行上采样。
145.示例地,在一些可能的实施例中,例如可以优先对发音评分低的句子进行上采样,即优先对包括低频词的句子进行上采样。
146.示例地,在本技术的一个实施例中,例如可以对待训练语料中各个句子的发音评分的分布进行统计,确定目标评分;根据每个句子的发音评分,和目标评分,确定每个句子的上采样次数。
147.其中,目标评分例如可以为目标基准评分,例如可以确定各个句子中的平均评分为目标基准评分,或确定各个句子中最高的评分为目标基准评分,具体目标基准评分的确定方式可以根据用户需要灵活调整,并不以上述实施例给出的为限制。
148.此时确定每个句子的上采样次数的方式例如可以为:根据目标评分和每个句子的发音评分之间的评分差值和第一预设对应规则,确定每个句子的上采样次数。其中,该第一预设对应规则包括:多个预设评分差值范围与上采样次数的对应关系。例如以满分值为100,目标基准评分为各个句子中最高的评分为例进行说明:第一预设规则例如可以以10为一个判断单位依据,一个判断单位依据对应100次上采样次数;举例说明:若句子的评分和目标基准评分之间相差0-10分以内,则对应100次的上采样次数;若句子的评分和目标基准评分之间相差30-40以内,则对应400次的上采样次数;应当理解上述实施例仅为示例性说明,具体目标基准评分的确定方式、满分值的设置,和一个判断单位依据与上采样次数之间的关系,可以根据用户需要灵活调整。
149.可选地,在本技术的另一实施例中,例如可以对待训练语料中各个句子的发音评分进行排序;根据排序后的待训练语料中各个句子的发音评分,统计排列在预设位置的发音评分作为目标评分。其中,预设位置例如可以为待训练语料中各个句子发音评分排序后的中位数位置,也可以为其他位置,本技术在此不做任何限制。
150.此时确定每个句子的上采样次数的方式例如可以为:根据预设位置和每个句子在排列中的位置之间的排序位置差值和第二预设对应规则,确定每个句子的上采样次数。其中,该第二预设对应规则包括:多个预设排序位置差值范围与上采样次数的对应关系。例如以预设位置为各个句子发音评分排序后的中位数位置为例进行说明,排序差为预设位置和各句子在排列中的位置的差值,第二预设规则例如可以以在排序差为正数时,上采样的次数与排序差正相关,即上采样的次数随着排序差的增大而增大;排序差为负数时,上采样的次数与排序差负相关,即上采样的次数随着排序差的增大而减小;这样的设置使得高于预设位置的句子上采样次数越来越小,使得低于预设位置的句子上采样次数越来越大,应当理解上述实施例仅为示例性说明,具体预设位置的确定方式、第二预设对应规则的设置,可以根据用户需要灵活调整。
151.这种根据每个句子的发音评分,和目标评分,确定每个句子的上采样次数的方式,使得对于确定不同的句子的上采样次数有了明确的划分,例如确定低于目标评分的各句子的上采样次数较多,其中,各句子与目标评分的评分差越大,上采样次数越多;确定高于目标评分的各句子的上采样次数较少,其中各句子与目标评分差越大,上采样次数越少,使得根据目标评分确定上采样次数更具有参考性,使得上采样语音中各评分句子在上采样语音中可以均衡分布,由于各句子的评分是根据句子中每个发音信息的评分确定的,因此采用上述方法根据目标评分确定上采样次数,进一步保证了不同出现频率的发音信息在上采样后的语音中可以均衡分布。
152.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法的实现过程进行示例说明。图5为本技术实施例提供的数据增强方法的流程示意图五,如图5所示,该方法还可包括:
153.s113:根据待训练语料中各个句子的上采样语音,重新确定不同发音信息的目标评分。
154.s114:根据不同发音信息的目标评分,重新计算每个句子的上采样次数。
155.s115:根据重新计算的上采样次数,对每个句子的语音进行迭代上采样,直至得到的每个句子的目标语音满足预设的迭代停止条件。
156.该预设的迭代停止条件可以为预设的迭代次数,或者其他的迭代条件,如下文所示的评分分布条件等。
157.这种通过迭代的方式确定目标语音集合的方式,使得完成迭代的目标语音集合中的各句子的分布均匀。
158.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法的实现过程进行示例说明。图6为本技术实施例提供的数据增强方法的流程示意图六,如图6所示,s113之前,该方法还可包括:
159.s116:判断每个句子的上采样语音是否满足迭代停止条件。
160.其中,判断规则例如可以为:根据每个句子的上采样语音中各发音信息的目标评分,判断每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件;若评分分布满足评分分布条件,则确定满足迭代停止条件;若评分分布不满足评分分布条件,则确定不满足迭代停止条件。
161.在本技术的一个实施例中,判断规则例如可以为:根据每个句子的上采样语音中
各发音信息的目标评分,计算每个句子的上采样语音中各发音信息的目标评分的标准差;判断标准差,是否低于预设标准差阈值;若标准差低于预设标准差阈值,则确定评分分布满足评分分布条件;若标准差大于或等于预设标准差阈值,则确定评分分布不满足评分分布条件。
162.若待训练语料中存在目标句子的上采样语音,不满足迭代停止条件,则执行s117。
163.s117:根据待训练语料中各个句子的上采样语音,重新确定不同发音信息的目标评分。
164.可选地,在上述实施例的基础上,本技术另一实施例还可提供一种数据增强方法,如下结合附图对上述方法的实现过程进行示例说明。图7为本技术实施例提供的数据增强方法的流程示意图七,如图7所示,s105之前,该方法还可包括:
165.s118:对上采样得到的语音集合进行随机化处理,得到目标语音集合。
166.示例的,可采用预设的随机化处理模块或者随机化处理器,对该上采样得到的语音集合中各个句子的上采样语音的排布进行随机化处理,以避免同一个句子的上采样语音过于集中。
167.通过对上采样得到的语音集合进行随机化处理,可使得各个句子的上采样语音的排布更随机,更真实,可使得目标语音集合中各个语音更加真实的接近于真实语料的语音分布,避免多个相同的语音连续出现造成的发音训练的失衡,从而有效保证基于该目标语音集合进行模型训练的输出准确度,提高了模型输出语音的质量,使得输出语音更加接近真人声。
168.下述对用以执行的本技术所提供的数据增强方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
169.图8为本技术实施例提供的一种数据增强装置的示意图,如图8所示,该数据增强装置200可包括:获取模块201、确定模块202、计算模块203、上采样模块204和输出模块205,其中:
170.获取模块201,用于获取待训练语料,待训练语料中每个字预先标注有对应的发音信息。
171.确定模块202,用于确定待训练语料中不同发音信息的评分。
172.计算模块203,用于根据不同发音信息的评分,计算待训练语料中每个句子的上采样次数。
173.上采样模块204,用于根据上采样次数,对每个句子的语音进行多次上采样,得到每个句子的上采样语音,每个句子的上采样语音包括:每个句子对应的上采样次数个的语音。
174.输出模块205,用于输出目标语音集合,目标语音集合包括:待训练语料中各个句子的上采样语音。
175.可选地,计算模块203,具体用于计算不同发音信息中每个发音信息的发音单元频率,发音单元频率为每个发音信息在待训练语料中的出现概率;根据每个发音信息的发音单元频率,计算每个发音信息的评分。
176.可选地,计算模块203,具体用于计算每个发音信息的逆文档发音单元频率,逆文档发音单元频率为出现每个发音信息的句子在待训练语料中的出现概率;根据发音单元频
率和逆文档发音单元频率的比值,计算每个发音信息的发音单元指数;根据每个发音信息的发音单元指数,计算每个发音信息的评分。
177.图9为本技术实施例提供的另一种数据增强装置的示意图,如图9所示,该数据增强装置200还包括:统计模块206,用于统计每个发音信息在每个句子中的出现数量,和每个发音信息在待训练语料中的总出现数量。
178.计算模块203,具体用于根据出现数量和总出现数量的比值,计算发音单元频率。
179.可选地,统计模块206,具体用于统计出现每个发音信息的句子数量,和待训练语料中的句子总数量;
180.计算模块203,具体用于根据句子数量和句子总数量的比值,计算逆文档发音单元频率。
181.可选地,计算模块203,具体用于根据每个句子中出现的各发音信息的评分,计算每个句子的发音评分;根据每个句子的发音评分,计算每个句子的上采样次数,其中,发音评分和上采样次数负相关。
182.可选地,确定模块202,具体用于对待训练语料中各个句子的发音评分的分布进行统计,确定目标评分;根据每个句子的发音评分,和目标评分对应的预设次数,确定每个句子的上采样次数。
183.可选地,统计模块206,具体用于对待训练语料中各个句子的发音评分进行排序;根据排序后的待训练语料中各个句子的发音评分,统计排列在预设位置的发音评分作为目标评分。
184.可选地,确定模块202,具体用于根据待训练语料中各个句子的上采样语音,重新确定不同发音信息的目标评分。
185.计算模块203,具体用于根据不同发音信息的目标评分,重新计算每个句子的上采样次数。
186.上采样模块204,具体用于根据重新计算的上采样次数,对每个句子的语音进行迭代上采样,直至得到的每个句子的目标语音满足预设的迭代停止条件。
187.如图9所示,该数据增强装置200还包括:判断模块207,用于判断每个句子的上采样语音是否满足迭代停止条件。
188.计算模块203,具体用于若待训练语料中各个句子中存在目标句子的上采样语音,不满足迭代停止条件,则根据待训练语料中各个句子的上采样语音,重新确定不同发音信息的目标评分。
189.判断模块207,用于根据每个句子的上采样语音中各发音信息的目标评分,判断每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件。
190.确定模块202,具体用于若评分分布满足评分分布条件,则确定满足迭代停止条件;若评分分布不满足评分分布条件,则确定不满足迭代停止条件。
191.可选地,计算模块203,具体用于根据每个句子的上采样语音中各发音信息的目标评分,计算每个句子的上采样语音中各发音信息的目标评分的标准差;
192.判断模块207,具体用于判断标准差,是否低于预设标准差阈值;
193.确定模块202,具体用于若标准差低于预设标准差阈值,则确定评分分布满足评分分布条件;若标准差大于或等于预设标准差阈值,则确定评分分布不满足评分分布条件。
194.如图9所示,该数据增强装置200还包括:随机化模块208,用于对上采样得到的语音集合进行随机化处理,得到目标语音集合。
195.上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
196.以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital singnal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
197.图10为本技术实施例提供的又一种数据增强装置的示意图,该装置可以集成于设备或者设备的芯片,该设备可以是具备数据处理功能的计算设备或服务器。
198.该数据增强装置600包括:存储器601、处理器602。存储器601和处理器602通过总线连接。
199.存储器601用于存储程序,处理器602调用存储器601存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
200.可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
201.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
202.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
203.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
204.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-only memory,简称:rom)、随机存取存储器(英文:random access memory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
205.上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本
技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:


1.一种数据增强方法,其特征在于,包括:获取待训练语料,所述待训练语料中每个字预先标注有对应的发音信息;确定所述待训练语料中不同发音信息的评分;根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数;根据所述上采样次数,对所述每个句子的语音进行多次上采样,得到所述每个句子的上采样语音,所述每个句子的上采样语音包括:所述每个句子对应的所述上采样次数个的语音;输出目标语音集合,所述目标语音集合包括:所述待训练语料中各个句子的上采样语音。2.根据权利要求1所述的方法,其特征在于,所述确定所述待训练语料中不同发音信息的评分,包括:计算所述不同发音信息中每个发音信息的发音单元频率,所述发音单元频率为所述每个发音信息在所述待训练语料中的出现概率;根据所述每个发音信息的发音单元频率,计算所述每个发音信息的评分。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:计算所述每个发音信息的逆文档发音单元频率,所述逆文档发音单元频率为出现所述每个发音信息的句子在所述待训练语料中的出现概率;所述根据所述每个发音信息的发音单元频率,计算所述每个发音信息的评分,包括:根据所述发音单元频率和所述逆文档发音单元频率的比值,计算所述每个发音信息的发音单元指数;根据所述每个发音信息的发音单元指数,计算所述每个发音信息的评分。4.根据权利要求1所述的方法,其特征在于,所述根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数,包括:根据所述每个句子中出现的各发音信息的评分,计算所述每个句子的发音评分;根据所述每个句子的发音评分,计算所述每个句子的上采样次数,其中,所述发音评分和所述上采样次数负相关。5.根据权利要求4所述的方法,其特征在于,所述根据所述每个句子的发音评分,计算所述每个句子的上采样次数,包括:对所述待训练语料中各个句子的发音评分的分布进行统计,确定目标评分;根据所述每个句子的发音评分,和所述目标评分,确定所述每个句子的上采样次数。6.根据权利要求5所述的方法,其特征在于,所述对所述待训练语料中各个句子的发音评分的分布进行统计,确定目标评分,包括:对所述待训练语料中各个句子的发音评分进行排序;根据排序后的所述待训练语料中各个句子的发音评分,统计排列在预设位置的发音评分作为所述目标评分。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分;根据所述不同发音信息的目标评分,重新计算所述每个句子的上采样次数;
根据重新计算的上采样次数,对所述每个句子的语音进行迭代上采样,直至得到的所述每个句子的目标语音满足预设的迭代停止条件。8.根据权利要求7所述的方法,其特征在于,所述根据所述各个句子的上采样语音,重新确定所述不同发音信息的目标评分之前,所述方法还包括:判断所述每个句子的上采样语音是否满足所述迭代停止条件;所述根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分,包括:若所述待训练语料中各个句子中存在目标句子的上采样语音,不满足所述迭代停止条件,则根据所述待训练语料中各个句子的上采样语音,重新确定所述不同发音信息的目标评分。9.根据权利要求8所述的方法,其特征在于,所述判断所述每个句子的上采样语音是否满足所述迭代停止条件,包括:根据所述每个句子的上采样语音中各发音信息的目标评分,判断所述每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件;若所述评分分布满足所述评分分布条件,则确定满足所述迭代停止条件;若所述评分分布不满足所述评分分布条件,则确定不满足所述迭代停止条件。10.根据权利要求9所述的方法,其特征在于,所述根据所述每个句子的上采样语音中各发音信息的目标评分,判断所述每个句子的上采样语音中各发音信息的评分分布,是否满足预设的评分分布条件,包括:根据所述每个句子的上采样语音中各发音信息的目标评分,计算所述每个句子的上采样语音中各发音信息的目标评分的标准差;判断所述标准差,是否低于预设标准差阈值;若所述标准差低于所述预设标准差阈值,则确定所述评分分布满足所述评分分布条件;若所述标准差大于或等于所述预设标准差阈值,则确定所述评分分布不满足所述评分分布条件。11.根据权利要求1-10中任一所述的方法,其特征在于,所述输出目标语音集合之前,所述方法还包括:对上采样得到的语音集合进行随机化处理,得到所述目标语音集合。12.一种数据增强装置,其特征在于,包括:获取模块、确定模块、计算模块、上采样模块和输出模块,其中:所述获取模块,用于获取待训练语料,所述待训练语料中每个字预先标注有对应的发音信息;所述确定模块,用于确定所述待训练语料中不同发音信息的评分;所述计算模块,用于根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数;所述上采样模块,用于根据所述上采样次数,对所述每个句子的语音进行多次上采样,得到所述每个句子的上采样语音,所述每个句子的上采样语音包括:所述每个句子对应的所述上采样次数个的语音;
所述输出模块,用于输出目标语音集合,所述目标语音集合包括:所述待训练语料中各个句子的上采样语音。13.一种数据增强设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-11任一项所述的数据增强方法。14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-11任一项所述的数据增强方法。

技术总结


本申请提供一种数据增强方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取待训练语料,所述待训练语料中每个字预先标注有对应的发音信息;确定所述待训练语料中不同发音信息的评分;根据所述不同发音信息的评分,计算所述待训练语料中每个句子的上采样次数;根据所述上采样次数,对所述每个句子的语音进行多次上采样,得到所述每个句子的上采样语音,所述每个句子的上采样语音包括:所述每个句子对应的所述上采样次数个的语音;输出目标语音集合,所述目标语音集合包括:所述待训练语料中各个句子的上采样语音。本发明可使语音合成训练语料集中发音分布更加均衡,从而达到训练收敛速度更快,语音质量更好和更加稳定的目的。定的目的。定的目的。


技术研发人员:

高羽 袁云浩

受保护的技术使用者:

美的集团股份有限公司

技术研发日:

2021.01.19

技术公布日:

2022/7/29

本文发布于:2022-12-01 12:18:17,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/18305.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:发音   所述   句子   语料
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图