基于说话人情感语音合成模型的对抗与元学习方法与流程

阅读：评论：0

1.本发明属于深度学习技术领域，具体涉及一种基于说话人情感语音合成模型的对抗与元学习方法，利用对抗训练与元学习的方式对情感语音合成系统进行优化。

背景技术：

2.语音是人类交际的重要工具之一。人类的说话中不仅包含了文字符号信息，还包含了人们的感情和情绪的变化。例如，同样一句话，往往由于说话人的情感不同。其意思和给听者的印象就会不同，所谓“听话听音”就是这个意思。而通用的语音合成系统多着眼于合成语音的自然度和准确度，忽略了包含在语音信号中的情感因素。
3.近几年来，在深度学习等方法的推动下，语音合成技术得到了很大的发展，尤其是情感语音合成，由于它能够很好地将语音的口语分析、情感分析与计算机技术有机的融合，为实现以人为本、具有个性化特征的语音交互系统奠定基础。
4.目前，国内外研究中，大多数是通过一个无监督的风格编码器来学习参考音频的情感嵌入，从而实现端到端的情感语音合成。然而，由于情感来自参考音频（源）说话人的语音，该源说话人的音信息也可以被传递到合成语音，使合成语音听起来像源说话人或者介于源说话人和和目标说话人之间，会产生所谓的说话人音泄漏问题。此外，由于情感数据录制的成本较高，我们很难获得任一说话人的大量的不同情感的数据，导致合成语音中传递的情感表现力不足，从而制约情感语音合成的质量。
5.为了从源说话人的参考音频中迁移情感来合成目标说话人的情感语音，同时在合成语音中保持目标说话人的音，我们提出了一种基于对抗训练的情感解耦模块，在模型训练过程当中抹去情感嵌入中所包含的说话人信息。此外，考虑到录制一个带有不同情感类别的语料库非常具有挑战性，我们采用元学习的方式提升情感语音合成模型的泛化能力，使其能够在少量说话人语音数据上进行快速适应。

技术实现要素：

6.本发明为解决背景技术中提出的技术问题，采用一种基于说话人情感语音合成模型的对抗与元学习方法。
7.本发明的技术方案是基于说话人情感语音合成模型的对抗与元学习方法，包括如下步骤：步骤一，数据的预处理：文本需要进行前端处理，而文本与音频成对的数据作为训练数据，同时还需进行梅尔谱特征的提取；步骤二，端到端语音合成基础模型的设计：基于端到端语音合成tacotron2进行设计，对于情感语音合成任务，我们进行了以下修改：1）添加说话人信息，不同的说话人编码为不同的speaker id，同时将speaker id作为输入，经过查表lut得到说话人嵌入表示；2）添加情感编码器，用来学习情感嵌入表示，其中情感编码器的输入为参考音频，
情感编码器包含一个5层的一维卷积，以及一个双向的lstm，经过情感编码器后会得到情感嵌入表示；其中，说话人嵌入表示和情感嵌入表示会和tacotron2模型的文本编码器输出的文本表示结合，共同指导最终的梅尔谱特征的生成；步骤三，添加对抗训练模块：添加对抗训练模块用来抹去情感嵌入表示中的音信息，对抗模块主要包含一个梯度反转层和一个speaker分类器；在添加完对抗训练模块之后，首先采用几个不同说话人和情感的数据进行预先训练，用来得到一个基础的情感语音合成模型，实现对于训练集中的说话人的情感语音合成；定义为此时的神经网络参数，并作为步骤四的初始参数；步骤四，基于元学习的训练：采用元学习的方式对步骤三所训练得到的情感语音合成模型进行再次的训练，包含以下步骤：1)首先利用多说话人语音合成数据库中构建一系列的meta-tasks元任务集，每个meta-task元任务的support set训练集和query set测试集均包含相同说话人的k个样本和q个样本，并定义；定义每个样本为，其中为样本的文本表示，为样本的声学特征，声学特征为梅尔谱特征；2)开始迭代执行以下训练过程：a.采样任意一个训练任务m，使用任务m的support set，基于任务m的学习率，对步骤三所训练得到的情感语音合成模型进行一次优化，更新得到新的参数；进行一次优化即表示对训练的神经网络权重进行一次反向传播，并根据梯度进行梯度下降，从而更新权重；b.基于一次优化后的，使用query set计算任务m的loss=,并计算对的梯度；其中，loss为步骤三所训练得到的情感语音合成模型的损失函数，在本文中指的是模型预测的声学特征和样本的真实特征之间的误差；c.用上述梯度，乘以meta网络的学习率，更新神经网络参数得到其中，指的是步骤三之后得到的神经网络模型参数，指的是一次更新之后的参数；d.重复以上a-c的训练过程；步骤五，合成音频。
8.所述步骤一对于文本的前端处理采用python的自然语言处理工具包nltk，来进行分词和汉字转拼音操作，对于梅尔谱特征的提取预处理直接采用python的常用音频处理工具包librosa，经过分帧，加窗和预加重，从音频中提取梅尔谱特征。
9.所述步骤五具体：在完成模型最终的训练之后，顺序执行以下步骤，用以合成情感
语音；采用少量的目标说话人的数据集对步骤四得到的神经网络模型的参数进行最终的微调；输入文本和参考音频以及目标speaker的id，经过模型预测得到梅尔谱特征，并最终转换为音频。
10.有益效果1.搭建端到端情感语音合成系统，并采用无监督的风格编码器来学习音频中的情感嵌入表示。
11.2.设计一种基于对抗训练的情感解耦模块，在模型训练过程当中抹去情感嵌入中所包含的说话人信息。
12.3.采用元学习的方式提升情感语音合成模型的泛化能力，使其能够在少量说话人语音数据上进行快速适应。
附图说明
13.图1语音合成基础模型。
14.图2 添加对抗模块之后的模型图。
15.图 3 梅尔谱示意图。
具体实施方式
16.以下结合附图和实施例来对本发明做进一步地说明。
17.基于说话人情感语音合成模型的对抗与元学习方法，具体步骤如下：步骤一，数据的预处理，文本需要进行前端处理，通常以字符作为输入，而文本与音频成对的数据可以作为训练数据。同时，预处理还需进行梅尔谱特征的提取。
18.对于文本的预处理通常采用python的自然语言处理工具包nltk，来进行分词和汉字转拼音等操作，对于梅尔谱特征的提取，可以直接采用python的常用音频处理工具包librosa，经过分帧，加窗和预加重等过程，从音频中提取梅尔谱特征。
19.例如，中文文本“卡尔普陪外孙玩滑梯”，经过预处理之后得到“ka3 er3 pu3 #1 pei1 wai4 sun1 #1 wan2 hua1 ti1 #3”，其中#1，#3表示不同程度的停顿时长。
20.对于文本所对应的音频，经过预处理后得到的梅尔谱如图3所示。
21.步骤二，端到端语音合成基础模型的设计。本发明基于端到端语音合成tacotron2进行设计。tacotron2的作用是输入文本并预测得到梅尔谱特征，对于情感语音合成任务，我们进行了以下修改：1）添加说话人信息，不同的说话人编码为不同的speaker id，同时将speaker id作为输入，经过查表lut得到说话人嵌入表示。
22.例如，以三个说话人为例，三个说话人分别可以按照以下形式输入：speaker_1 = [1,0,0]speaker_2 = [0,1,0]speaker_3 = [0,0,1]2）添加情感编码器，用来学习情感嵌入表示，其中情感编码器的输入为参考音频，
情感编码器包含一个5层的一维卷积，以及一个双向的lstm，经过情感编码器后会得到情感嵌入表示。
[0023]
其中，说话人嵌入表示和情感嵌入表示会和tacotron2模型的文本编码器输出的文本表示结合，共同指导最终的梅尔谱特征的生成，如图1所示。
[0024]
步骤三，添加对抗训练模块。考虑到情感嵌入表示可能会包含一些说话人信息，会对最后合成语音的音产生干扰，因此添加了对抗训练模块用来抹去情感嵌入表示中的音信息。对抗模块主要包含一个梯度反转层，以及一个speaker分类器，如图2中的虚线框所示。
[0025]
在添加完对抗训练模块之后，可以首先采用几个不同说话人和情感的数据进行预先训练，用来得到一个基础的情感语音合成模型，可以实现对于训练集中的说话人的情感语音合成；定义为此时的神经网络参数，并作为步骤四的初始参数。
[0026]
步骤四，基于元学习的训练。为了提升模型的泛化能力，减少模型对数据的依赖，采用元学习的方式对步骤三所训练得到的模型进行再次的训练。具体，包含以下步骤：首先，利用多说话人语音合成数据库中构建一系列的meta-tasks(元任务集)，每个meta-task(元任务)的supportset（训练集）和queryset（测试集）均包含相同说话人的k个样本和q个样本，并定义；定义每个样本为，其中为样本的文本表示，为样本的声学特征，声学特征为梅尔谱特征；其次，开始迭代执行以下训练过程：a.采样任意一个训练任务m，使用任务m的supportset,基于任务m的学习率，对网络进行一次优化，更新得到新的参数。进行一次优化即表示对训练的神经网络权重进行一次反向传播，并根据梯度进行梯度下降，从而更新权重。
[0027]
b.基于一次优化后的，使用queryset计算任务m的loss=,并计算对的梯度。其中，loss为步骤三所训练得到的情感语音合成模型的损失函数，在本文中指的是模型预测的声学特征和样本的真实特征之间的误差。
[0028]
c.用上述梯度，乘以meta网络的学习率，更新原始网络的参数得到，其中，
ϕ
指的是步骤三之后得到的神经网络模型参数，指的是一次更新之后的参数。
[0029]
d.重复以上a-c的训练过程。（根据训练数据集的大小，例如如果训练数据集只包含100条数据，将所有的元任务集迭代20次左右便停止）步骤五，合成音频。在完成模型最终的训练之后，可以顺序执行以下步骤，用以合成情感语音。
[0030]
1.通过步骤四得到网络的参数，采用少量的目标说话人的数据集对参数进行最终的finetune微调。
[0031]
当需要合成指定说话人的音时，指定说话人的音频资源可能只有3-5分钟，因此，需要利用这少量的数据对上述网络进行最后的微调。
[0032]
2.输入文本和参考音频（与目标情感一致）以及目标speaker的id，经过模型预测得到梅尔谱特征，并最终转换为音频。

技术特征：

1.基于说话人情感语音合成模型的对抗与元学习方法，其特征在于，包括如下步骤：步骤一，数据的预处理：文本需要进行前端处理，而文本与音频成对的数据作为训练数据，同时还需进行梅尔谱特征的提取；步骤二，端到端语音合成基础模型的设计：基于端到端语音合成tacotron2进行设计，对于情感语音合成任务修改如下：添加说话人信息，不同的说话人编码为不同的speaker id，同时将speaker id作为输入，经过查表lut得到说话人嵌入表示；添加情感编码器，用来学习情感嵌入表示，其中情感编码器的输入为参考音频，情感编码器包含一个5层的一维卷积，以及一个双向的lstm，经过情感编码器后会得到情感嵌入表示；其中，说话人嵌入表示和情感嵌入表示会和tacotron2模型的文本编码器输出的文本表示结合，共同指导最终的梅尔谱特征的生成；步骤三，添加对抗训练模块：添加对抗训练模块用来抹去情感嵌入表示中的音信息，对抗模块主要包含一个梯度反转层和一个speaker分类器；在添加完对抗训练模块之后，首先采用几个不同说话人和情感的数据进行预先训练，用来得到一个基础的情感语音合成模型，实现对于训练集中的说话人的情感语音合成；定义为此时的神经网络参数，并作为步骤四的初始参数；步骤四，基于元学习的训练：采用元学习的方式对步骤三所训练得到的情感语音合成模型进行再次的训练，包含以下步骤：首先利用多说话人语音合成数据库中构建一系列的meta-tasks元任务集，每个meta-task元任务的support set训练集和query set测试集均包含相同说话人的k个样本和q个样本，并定义；定义每个样本为，其中为样本的文本表示，为样本的声学特征，声学特征为梅尔谱特征；开始迭代执行以下训练过程：采样任意一个训练任务m，使用任务m的support set，基于任务m的学习率，对进行一次优化，更新得到新的参数；进行一次优化即表示对训练的神经网络权重进行一次反向传播，并根据梯度进行梯度下降，从而更新权重；基于一次优化后的，使用query set计算任务m的loss=，并计算对的梯度；其中，loss为步骤三所训练得到的情感语音合成模型的损失函数，具体指的是模型预测的声学特征和样本的真实特征之间的误差；
用上述梯度，乘以meta网络的学习率，更新神经网络参数得到；其中，指的是步骤三之后得到的神经网络模型参数，指的是一次更新之后的参数；重复以上a至c的训练过程；步骤五，合成音频。2.根据权利要求1所述的基于说话人情感语音合成模型的对抗与元学习方法，其特征在于，所述步骤一对于文本的前端处理采用python的自然语言处理工具包nltk，来进行分词和汉字转拼音操作，对于音频特征的提取，直接采用python的常用音频处理工具包librosa，经过分帧，加窗和预加重，从音频中提取梅尔谱特征。3.根据权利要求1所述的基于说话人情感语音合成模型的对抗与元学习方法，其特征在于，所述步骤五具体包括：在完成模型最终的训练之后，顺序执行以下步骤，用以合成情感语音；采用少量的目标说话人的数据集对步骤四得到的神经网络模型的参数进行最终的微调；输入文本和参考音频以及目标speaker的id，经过模型预测得到梅尔谱特征，并最终转换为音频。

技术总结

本发明属于语音合成深度学习技术领域，具体涉及一种基于说话人情感语音合成模型的对抗与元学习方法，利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、端到端语音合成基础模型的设计以及添加对抗训练模块用来抹去情感嵌入表示中的音信息，对抗模块主要包含一个梯度反转层和一个speaker分类器和基于元学习的训练。采用元学习的方式提升情感语音合成模型的泛化能力，使其能够在少量说话人语音数据上进行快速适应。其能够在少量说话人语音数据上进行快速适应。其能够在少量说话人语音数据上进行快速适应。