基于语音雷达和深度学习的语音合成方法及系统

阅读: 评论:0



1.本发明属于雷达技术领域,特别是一种基于语音雷达和深度学习的语音合成方法及系统。


背景技术:



2.语音合成一直是语音领域最热门的研究之一。生物雷达已经被证明可用于语音信号的获取与合成,然而语音的质量尚有待改进。合成语音的质量与合成模型的选择、参数的准确度都有一定的关系。
3.语音激励源的准确度与合成语音的质量密切相关,目前已有研究大多使用基频产生脉冲从而生成激励源,而这种方法生成的激励源具有很强的规律性,且失去了发声过程中基频连续变化的特性,因此使用这种方法合成的语音在听感上具有机械感,要获得更加自然的语音则需要更多的参数。
4.近年来,随着人工智能技术的普及,深度学习技术在图像处理领域得到广泛地应用,并在语音识别领域取得了一些成果,但尚未见将深度学习技术应用于视频处理并获得语音信号相关特征的研究,而已有的通过图像特征拟合经验公式获取共振峰频率的技术,其流程繁琐且结果误差较大。


技术实现要素:



5.本发明的目的在于针对上述现有技术存在的问题,提供一种基于语音雷达和深度学习的语音合成方法及系统。
6.实现本发明目的的技术解决方案为:一种基于语音雷达和深度学习的语音合成方法,包括以下步骤:
7.步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;
8.步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;
9.步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;
10.步骤4,对步骤1获得的语音合成激励源和步骤3获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。
11.进一步地,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:
12.步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;
13.步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号s;
14.步骤1-3,利用经验小波变换算法对信号s进行模式分解,分解后的第k个模式fk(t)表示为:
[0015][0016]
式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波x=f1(t);
[0017]
步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号x(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:
[0018][0019]
式中,c为削波电平。
[0020]
进一步地,步骤2中深度学习方法采用改进的3d卷积神经网络,该网络包括依次设置的大小为1
×1×
1的点状卷积滤波器,之后是三个相并列的大小为1
×3×
3的卷积核、大小为3
×1×
1的卷积核和大小为3
×3×
3的卷积核,最后是一个全连接层。
[0021]
进一步地,步骤2的具体过程包括:
[0022]
步骤2-1,录制发声视频,之后进行唇区分割获得唇区视频;
[0023]
步骤2-2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取n组时变共振峰参数,每组包括n个共振峰参数;
[0024]
步骤2-3,基于改进的3d卷积神经网络构建共振峰参数估计模型,具体为:
[0025]
基于步骤2-1获得多个唇区视频数据,作为3d卷积神经网络的输入,n组共振峰作为对应唇区视频在3d卷积神经网络中的输出;
[0026]
唇区视频数据首先经过大小为1
×1×
1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1
×3×
3的卷积核卷积提取空间特征、与大小为3
×1×
1的卷积核卷积提取时间特征、与大小为3
×3×
3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出n组共振峰;
[0027]
步骤2-4,训练共振峰参数估计模型,具体为:神经网络选用adam优化器,采用poly学习率策略更新学习率,损失函数采用rmse函数,对不同标签损失进行综合,计算最终的损失函数为:l=(l1+l2+

+ln)/n,其中l为模型综合损失,l1、l2、

、ln分别为n组共振峰对应标签的损失。
[0028]
一种基于语音雷达和深度学习的语音合成系统,所述系统包括:
[0029]
第一模块,用于由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;
[0030]
第二模块,用于从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;
[0031]
第三模块,用于将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;
[0032]
第四模块,用于对第一模块获得的语音合成激励源和第三模块获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。
[0033]
本发明与现有技术相比,其显著优点为:1)本发明是针对发音主体个性化特征的语音合成,语音的长度、音等特征随发音主体变化,具有更大的灵活性;2)从雷达信号提取基频分量,经过削波处理后直接作为激励源,保留了基频变化的连续性,使得语音合成的听感更加流畅,减少了基频提取过程中的误差给语音质量带来的影响;3)使用深度学习方法训练嘴唇运动特征与共振峰之间的映射关系,提高了共振峰频率估计的准确性和鲁棒性,利用大量数据生成的模型可以减少传统共振峰频率估计方法中常出现的虚假峰值、共振峰合并等问题;4)与本领域中使用基频生成激励源恢复的语音相比,本发明合成的语音具有更高的流畅度和自然度。
[0034]
下面结合附图对本发明作进一步详细描述。
附图说明
[0035]
图1为本发明基于雷达回波激励源模型的高质量语音合成方法的流程图。
[0036]
图2为本发明由发音时的唇区视频训练共振峰参数估计模型的流程图。
[0037]
图3为本发明共振峰参数模型训练网络结构图。
[0038]
图4为本发明共振峰参数估计模型获得共振峰参数的流程图。
[0039]
图5为一个实施例中基于雷达回波的激励源模型的示意图,其中图(a)为一帧基波波形,图(b)为中心削波后的激励源波形。
[0040]
图6为一个实施例中共振峰参数估计模型计算的语音“e”的共振峰与麦克风音频获取的共振峰参数对比图。
[0041]
图7为一个实施例中合成语音“e”的合成语音波形和麦克风同步录制的原始语音波形,其中图(a)为合成语音波形,图(b)为麦克风录制的原始语音波形。
具体实施方式
[0042]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0043]
另外,若本发明中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0044]
结合图1,提供了一种基于语音雷达和深度学习的语音合成方法,所述方法包括以下步骤:
[0045]
步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;具体过程包括:
[0046]
步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信
号;
[0047]
步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号s;
[0048]
步骤1-3,利用经验小波变换算法对信号s进行模式分解,分解后的第k个模式fk(t)表示为:
[0049][0050]
式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波x=f1(t);
[0051]
步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号x(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:
[0052][0053]
式中,c为削波电平。
[0054]
步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;
[0055]
这里,深度学习方法采用改进的3d卷积神经网络,该网络包括依次设置的大小为1
×1×
1的点状卷积滤波器,之后是三个相并列的大小为1
×3×
3的卷积核、大小为3
×1×
1的卷积核和大小为3
×3×
3的卷积核,最后是一个全连接层。
[0056]
结合图2,该步骤具体包括:
[0057]
步骤2-1,录制发声视频,之后进行唇区分割获得唇区视频;具体过程包括:
[0058]
步骤2-1-1,录制发音者发音时的视频,利用dlib人脸识别模块获得20个嘴唇轮廓特征点;
[0059]
步骤2-1-2,根据嘴唇轮廓特征点进行唇区分割,获得大小为h
×
w的唇区图像,其中h为图像的高度,w为图像的宽度;
[0060]
步骤2-1-3,选取发音者从张口到闭口的连续m帧图像构成大小为m
×h×
w的唇区视频数据。
[0061]
步骤2-2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取n组时变共振峰参数,每组包括n个共振峰参数;
[0062]
步骤2-3,基于改进的3d卷积神经网络构建共振峰参数估计模型,结合图3和图4,具体为:
[0063]
基于步骤2-1获得多个唇区视频数据,作为3d卷积神经网络的输入,n组共振峰作为对应唇区视频在3d卷积神经网络中的输出;
[0064]
唇区视频数据首先经过大小为1
×1×
1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1
×3×
3的卷积核卷积提取空间特征、与大小为3
×1×
1的卷积核卷积提取时间特征、与大小为3
×3×
3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇
区发声视频的时空特征,最后经过一个全连接层输出n组共振峰;
[0065]
步骤2-4,训练共振峰参数估计模型,具体为:神经网络选用adam优化器,采用poly学习率策略更新学习率,损失函数采用rmse函数,对不同标签损失进行综合,计算最终的损失函数为:l=(l1+l2+

+ln)/n,其中l为模型综合损失,l1、l2、

、ln分别为n组共振峰对应标签的损失。
[0066]
步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;
[0067]
步骤4,对步骤1获得的语音合成激励源和步骤3获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。
[0068]
本发明提出了一种基于语音雷达和深度学习的语音合成系统,所述系统包括:
[0069]
第一模块,用于由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;该模块包括依次执行的:
[0070]
第一信号获取单元,用于由语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;
[0071]
第二信号获取单元,用于对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号s;
[0072]
模式分解单元,用于利用经验小波变换算法对信号s进行模式分解,分解后的第k个模式fk(t)表示为:
[0073][0074]
式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波x=f1(t);
[0075]
语音合成激励源获取单元,用于根据合成需求,将基波分为m帧,对第i帧的信号x(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:
[0076][0077]
式中,c为削波电平。
[0078]
第二模块,用于从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;该模块包括依次执行的:
[0079]
唇区视频获取单元,用于录制发声视频,之后进行唇区分割获得唇区视频;该单元包括依次执行的:
[0080]
特征点提取子单元,用于录制发音者发音时的视频,利用dlib人脸识别模块获得嘴唇轮廓特征点;
[0081]
唇区分割子单元,用于根据嘴唇轮廓特征点进行唇区分割,获得大小为h
×
w的唇区图像,其中h为图像的高度,w为图像的宽度;
[0082]
唇区视频选取子单元,用于选取发音者从张口到闭口的连续m帧图像构成大小为m
×h×
w的唇区视频数据。
[0083]
共振峰参数提取单元,用于提取视频中麦克风录取的发音者发音时对应的语音信号,提取n组时变共振峰参数,每组包括n个共振峰参数;
[0084]
模型构建单元,用于基于改进的3d卷积神经网络构建共振峰参数估计模型,具体为:
[0085]
基于唇区视频获取单元获得多个唇区视频数据,作为3d卷积神经网络的输入,n组共振峰参数作为对应唇区视频在3d卷积神经网络中的输出;
[0086]
唇区视频数据首先经过大小为1
×1×
1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1
×3×
3的卷积核卷积提取空间特征、与大小为3
×1×
1的卷积核卷积提取时间特征、与大小为3
×3×
3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出n组共振峰参数;
[0087]
模型训练单元,用于训练共振峰参数估计模型,具体为:神经网络选用adam优化器,采用poly学习率策略更新学习率,损失函数采用rmse函数,对不同标签损失进行综合,计算最终的损失函数为:l=(l1+l2+

+ln)/n,其中l为模型综合损失,l1、l2、

、ln分别为n组共振峰对应标签的损失。
[0088]
第三模块,用于将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;
[0089]
第四模块,用于对第一模块获得的语音合成激励源和第三模块获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。
[0090]
关于基于语音雷达和深度学习的语音合成系统的具体限定可以参见上文中对于基于语音雷达和深度学习的语音合成方法的限定,在此不再赘述。上述基于语音雷达和深度学习的语音合成系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0091]
下面结合实施例对本发明做进一步详细的描述。
[0092]
实施例
[0093]
本实施例是一成年男子发英文字符“i”,该发音者在发“i”时由雷达接收声包含声带振动信息的回波信号。语音雷达向发音者发送连续正弦波,通过接收天线接收回波信号,对雷达信号进行高通滤波处理后进行经验小波变换,选取第一模式分量加窗分帧,然后进行中心削波后作为语音合成激励源。图5为中心削波前后对比图,其中图(a)为一帧示意图基波波形,图(b)为中心削波后的激励源波形。
[0094]
将多位发音者大量不同的发音视频片段作为输入,麦克风同步获取的语音信号提取的共振峰参数作为标签,使用深度学习方法进行训练,获得通过嘴唇运动估计4组共振峰参数的模型。将待合成发音者的嘴唇区域视频作为输入,获得对应发音者语音的4组共振峰参数如图6所示,从图中可以看出,使用本发明的方法可以较为准确地估计共振峰频率,并避免了共振峰合并的问题。最后由雷达回波作为激励源和视频估计的4组共振峰参数进行语音合成,获得“i”的合成语音,如图7所示,从图中可以看出,使用本发明的方法可以较好地从雷达回波信号恢复语音信号。
[0095]
本发明方法依托雷达回波激励源模型和基于深度学习的共振峰参数估计模型,实
现高质量语音合成。该方法从雷达信号中提取基频分量,经过削波处理后直接作为激励源,保留了基频变化的连续性,使得语音合成的听感更加流畅,同时通过深度学习方法获得共振峰参数估计模型,提高了共振峰估计的准确度和鲁棒性。
[0096]
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征:


1.一种基于语音雷达和深度学习的语音合成方法,其特征在于,所述方法包括以下步骤:步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;步骤4,对步骤1获得的语音合成激励源和步骤3获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。2.根据权利要求1所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号s;步骤1-3,利用经验小波变换算法对信号s进行模式分解,分解后的第k个模式f
k
(t)表示为:式中,为第k个模式经验小波变换的系数,ψ
k
(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波x=f1(t);步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号x(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:式中,c为削波电平。3.根据权利要求2所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2中深度学习方法采用改进的3d卷积神经网络,该网络包括依次设置的大小为1
×1×
1的点状卷积滤波器,之后是三个相并列的大小为1
×3×
3的卷积核、大小为3
×1×
1的卷积核和大小为3
×3×
3的卷积核,最后是一个全连接层。4.根据权利要求3所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2的具体过程包括:步骤2-1,录制发声视频,之后进行唇区分割获得唇区视频;步骤2-2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取n组时变共振峰参数,每组包括n个共振峰参数;步骤2-3,基于改进的3d卷积神经网络构建共振峰参数估计模型,具体为:基于步骤2-1获得多个唇区视频数据,作为3d卷积神经网络的输入,n组共振峰参数作为对应唇区视频在3d卷积神经网络中的输出;
唇区视频数据首先经过大小为1
×1×
1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1
×3×
3的卷积核卷积提取空间特征、与大小为3
×1×
1的卷积核卷积提取时间特征、与大小为3
×3×
3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出n组共振峰参数;步骤2-4,训练共振峰参数估计模型,具体为:神经网络选用adam优化器,采用poly学习率策略更新学习率,损失函数采用rmse函数,对不同标签损失进行综合,计算最终的损失函数为:l=(l1+l2+

+l
n
)/n,其中l为模型综合损失,l1、l2、

、l
n
分别为n组共振峰对应标签的损失。5.根据权利要求4所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2-1的具体过程包括:步骤2-1-1,录制发音者发音时的视频,利用dlib人脸识别模块获得嘴唇轮廓特征点;步骤2-1-2,根据嘴唇轮廓特征点进行唇区分割,获得大小为h
×
w的唇区图像,其中h为图像的高度,w为图像的宽度;步骤2-1-3,选取发音者从张口到闭口的连续m帧图像构成大小为m
×
h
×
w的唇区视频数据。6.实现权利要求1至5任意一项所述方法的基于语音雷达和深度学习的语音合成系统,其特征在于,所述系统包括:第一模块,用于由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;第二模块,用于从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续m帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;第三模块,用于将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的n组共振峰参数;第四模块,用于对第一模块获得的语音合成激励源和第三模块获得的n组共振峰参数进行语音合成,得到高自然度的合成语音信号。7.根据权利要求6所述的基于语音雷达和深度学习的语音合成系统,其特征在于,所述第一模块包括依次执行的:第一信号获取单元,用于由语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;第二信号获取单元,用于对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号s;模式分解单元,用于利用经验小波变换算法对信号s进行模式分解,分解后的第k个模式f
k
(t)表示为:式中,为第k个模式经验小波变换的系数,ψ
k
(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波x=f1(t);语音合成激励源获取单元,用于根据合成需求,将基波分为m帧,对第i帧的信号x(i)进
行中心削波,获得语音合成激励源;其中,中心削波的公式为:式中,c为削波电平。8.根据权利要求7所述的基于语音雷达和深度学习的语音合成系统,其特征在于,所述深度学习方法采用改进的3d卷积神经网络,该网络包括依次设置的大小为1
×1×
1的点状卷积滤波器,之后是三个相并列的大小为1
×3×
3的卷积核、大小为3
×1×
1的卷积核和大小为3
×3×
3的卷积核,最后是一个全连接层。9.根据权利要求8所述的基于语音雷达和深度学习的语音合成系统,其特征在于,所述第二模块包括依次执行的:唇区视频获取单元,用于录制发声视频,之后进行唇区分割获得唇区视频;共振峰参数提取单元,用于提取视频中麦克风录取的发音者发音时对应的语音信号,提取n组时变共振峰参数,每组包括n个共振峰参数;模型构建单元,用于基于改进的3d卷积神经网络构建共振峰参数估计模型,具体为:基于唇区视频获取单元获得多个唇区视频数据,作为3d卷积神经网络的输入,n组共振峰参数作为对应唇区视频在3d卷积神经网络中的输出;唇区视频数据首先经过大小为1
×1×
1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1
×3×
3的卷积核卷积提取空间特征、与大小为3
×1×
1的卷积核卷积提取时间特征、与大小为3
×3×
3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出n组共振峰参数;模型训练单元,用于训练共振峰参数估计模型,具体为:神经网络选用adam优化器,采用poly学习率策略更新学习率,损失函数采用rmse函数,对不同标签损失进行综合,计算最终的损失函数为:l=(l1+l2+

+l
n
)/n,其中l为模型综合损失,l1、l2、

、l
n
分别为n组共振峰对应标签的损失。10.根据权利要求9所述的基于语音雷达和深度学习的语音合成系统,其特征在于,所述唇区视频获取单元包括依次执行的:特征点提取子单元,用于录制发音者发音时的视频,利用dlib人脸识别模块获得嘴唇轮廓特征点;唇区分割子单元,用于根据嘴唇轮廓特征点进行唇区分割,获得大小为h
×
w的唇区图像,其中h为图像的高度,w为图像的宽度;唇区视频选取子单元,用于选取发音者从张口到闭口的连续m帧图像构成大小为m
×
h
×
w的唇区视频数据。

技术总结


本发明公开了一种基于语音雷达和深度学习的语音合成方法及系统,方法包括:由雷达获得声带振动回波信号;将雷达回波信号经过模式分解获取基波,然后对基波进行中心削波作为语音激励源;由发音者发音时嘴唇区域视频通过深度学习方法训练共振峰估计模型;将测试者发音的视频作为输入,获得共振峰参数;最后基于雷达回波激励源模型和共振峰参数进行语音合成。本发明方法可以获得保留基频连续变化特性的语音激励源和更加准确的共振峰参数估计,通过语音合成器,可以获得自然度更高的合成语音。可以获得自然度更高的合成语音。可以获得自然度更高的合成语音。


技术研发人员:

孙理 韦益民 薛彪 洪弘 李彧晟 顾陈 朱晓华

受保护的技术使用者:

南京理工大学

技术研发日:

2020.12.17

技术公布日:

2022/6/21

本文发布于:2022-11-26 10:33:02,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/4917.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   参数   语音   发音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图