一种口型动画的生成方法、装置、电子设备及存储介质与流程

阅读：评论：0

1.本技术涉及计算机技术领域，尤其涉及一种口型动画的生成方法、装置、电子设备及存储介质。

背景技术：

2.语音作为一种自然交流形式，在人机交互领域表现出了突出的影响力，这一点可以通过我们日常生活中日益普及的社交软件明显看出。然而在人机交互过程中，产生逼真的口型动画是极为复杂的，现有的技术仅依靠有限、单一的关键帧动画，产生的符合高斯分布的口型动画帧数据。但是该方案很难表现出正常人在说话时，口型及面部肌肉的运动，导致最终生成的口型动画效果不符合真实场景。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种口型动画的生成方法、装置、电子设备及存储介质。
5.根据本技术实施例的一个方面，提供了一种口型动画的生成方法，包括：
6.获取用于生成口型动画的目标语音数据；
7.解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，其中，所述音素序列包括基于时间顺序排列的音素单元；
8.获取所述音素序列中每个音素单元对应的目标持续时间，以及获取所述音素单元对应的目标动画单元，其中，所述目标动画单元包括至少一个携带所述音素单元对应口型动作的动画关键帧；
9.基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元，生成所述目标语音数据对应的口型动画。
10.进一步的，所述解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，包括：
11.识别所述目标语音数据，得到所述目标语音数据对应的文本内容；
12.获取所述文本内容所包括的文字，以及每个所述文字对应的拼音信息；
13.从所述拼音信息中获取每个所述文字对应的音素单元，并将所述音素单元基于文字播放数据排列生成所述音素序列。
14.进一步的，所述获取所述音素序列中每个音素单元对应的目标持续时间，包括：
15.获取所述文字在所述目标语音数据中对应的起止时间戳，并基于所述起止时间戳确定所述文字对应的时间长度；
16.获取所述文字所对应每个音素单元的权重值，其中，所述权重值重用于表示所述音素单元对应的发音强度，所述发音强度与持续时间成正比例关系；
17.利用所述权重与所述时间长度计算每个所述音素单元对应的目标持续时间。
18.进一步的，所述获取所述文字所对应每个音素单元的权重值，包括：
19.基于所述拼音信息确定所述文字对应的所述音素单元的目标类型，其中，所述目标类型包括声母类型以及韵母类型；
20.获取所述目标类型对应的权重列表，并从所述权重列表中获取所述音素单元对应的权重值。
21.进一步的，所述获取所述音素单元对应的目标动画单元，包括：
22.获取动画数据库，其中，所述动画数据库包括至少一个动画单元；
23.从所述动画数据库的至少一个动画单元中获取与所述音素单元相匹配的原始动画单元，其中，所述原始动画单元包括第一帧数的动画关键帧；
24.获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系；
25.基于映射关系，确定所述原始动画单元所包括的第一帧数对应的第二帧数，并基于所述第二帧数以及所述动画关键帧生成所述目标动画单元。
26.进一步的，所述基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元，生成所述目标语音数据对应的口型动画，包括：
27.将目标持续时间确定为所述目标动画单元对应的目标播放时间；
28.基于所述音素单元对应的时间顺序排列所述目标动画单元，以及每个所述目标动画单元对应的目标播放时间，生成所述口型动画。
29.进一步的，所述方法还包括：
30.基于所述口型动画获取每个所述音素单元对应的动画关键帧集合，并基于所述动画关键帧集合确定所述音素单元对应的原始起始动画关键帧以及原始结束动画关键帧；
31.获取所述原始起始动画关键帧之前的第n个动画关键帧，以及所述原始结束动画关键帧之后的第m个动画关键帧，其中，m和n均为大于0的整数；
32.将所述第n个动画关键帧确定为目标起始动画关键帧，以及将所述第m个动画关键帧确定为目标结束动画关键帧；
33.利用所述目标起始动画关键帧以及所述目标结束动画关键帧更新每个所述音素单元对应的动画关键帧集合，得到更新后的口型动画。
34.根据本技术实施例的再一个方面，还提供了一种口型动画的生成装置，包括：
35.第一获取模块，用于获取用于生成口型动画的目标语音数据；
36.解析模块，用于解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，其中，所述音素序列包括基于时间顺序排列的音素单元；
37.第二获取模块，用于获取所述音素序列中每个音素单元对应的目标持续时间，以及所述音素单元对的动画单元，其中，所述动画单元包括所述音素单元对应的口型动作；
38.生成模块，用于基于所述音素序列中每个音素对应的目标持续时间以及动画单元，生成所述目标语音数据对应的口型动画。
39.根据本技术实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的步骤。
40.根据本技术实施例的另一方面，还提供了一种电子装置，包括处理器、通信接口、
存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
41.本技术实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的步骤。
42.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：本技术实施例提供的方法通过检测语音数据中的音素单元，并确定每个音素单元在语音数据中的持续时间以及音素单元对应的动画单元，最终利用音素单元的持续时间以及动画单元生成口型动画，以此将口型动画的发音动作与文本中文字的发音顺序准确的贴合，使最终生成的口型动画能够更加符合真实场景。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的一种口型动画的生成方法的流程图；
46.图2为本技术实施例提供的一种口型动画的生成装置的框图；
47.图3为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
48.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
49.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
50.本技术实施例提供了一种口型动画的生成方法、装置、电子设备及存储介质。本发明实施例所提供的方法可以应用于任意需要的电子设备，例如，可以为服务器、终端等电子设备，在此不做具体限定，为描述方便，后续简称为电子设备。
51.根据本技术实施例的一方面，提供了一种口型动画的生成方法的方法实施例。图1为本技术实施例提供的一种口型动画的生成方法流程图，如图1所示，该方法包括：
52.步骤s11，获取用于生成口型动画的目标语音数据。
53.本技术实施例提供的方法应用于能够进行音视频处理的智能终端，智能终端可以是电脑、智能手机、ipad等等。在本技术实施例中，智能终端获取目标语音数据的过程可以是：通过用户上传的音频文件获取，也可以是从视频库中的视频获取。具体的，获取用户输入的查询信息，从视频库中获取与查询信息相匹配的目标视频，获取用于对目标视频进行分割的用户需求，从待处理视频中获取与用户需求相匹配的目标视频片段，从目标视频片段中提取用于生成口型动画的目标语音数据。或者，获取用户输入的查询信息，从视频库中获取与查询信息相匹配的目标视频，并从目标视频中获取热度值大于预设热度值的候选视频片段，显示候选视频片段，检测用户触发的选中操作，基于选中操作确定目标视频片段。从目标视频片段中提取用于生成口型动画的目标语音数据。
54.步骤s12，解析目标语音数据，得到目标语音数据所对应的音素序列，其中，音素序列包括基于时间顺序排列的音素单元。
55.在本技术实施例中，步骤s12，解析目标语音数据，得到目标语音数据所对应的音素序列，包括以下步骤a1-a3：
56.步骤a1，识别目标语音数据，得到目标语音数据对应的文本内容。
57.步骤a2，获取文本内容所包括的文字，以及每个文字对应的拼音信息。
58.步骤a3，从拼音信息中获取每个文字对应的音素单元，并将音素单元基于文字播放数据排列生成音素序列。
59.在本技术实施例中，调用语音识别模型，将目标语音数据输入语音识别模型，以使语音识别模型提取目标语音数据对应的语音特征，并确定语音特征对应的文本内容。然后提取文本内容所包括的文字，并确定每个文字对应的拼音信息。从拼音信息中获取每个文字对应的音素单元，例如：文本"波动"字所对应的拼音为“bo”、“dong”，其中音素单元为b、o、d、o、n、g。然后将音素单元按照文字播放顺序生成音素序列“b-o-d-o-n-g”。
60.步骤s13，获取音素序列中每个音素单元对应的目标持续时间，以及获取音素单元对应的目标动画单元，其中，目标动画单元包括至少一个携带音素单元对应口型动作的动画关键帧。
61.在本技术实施例中，步骤s13，获取音素序列中每个音素单元对应的目标持续时间，包括以下步骤b1-b3：
62.步骤b1，获取文字在目标语音数据中对应的起止时间戳，并基于起止时间戳确定文字对应的时间长度。
63.在本技术实施例中，获取文字在目标语音数据中对应的起始时间戳t1以及终止时间戳t2，基于起始时间戳t1和终止时间戳t2计算文字对应的时间长度，时间长度为t2-t1。
64.步骤b2，获取文字所对应每个音素单元的权重值，其中，权重值重用于表示音素单元对应的发音强度，发音强度与持续时间成正比例关系。
65.在本技术实施例中，获取文字所对应每个音素单元的权重值，包括：基于拼音信息确定文字对应的音素单元的目标类型，其中，目标类型包括声母类型以及韵母类型；获取目标类型对应的权重列表，并从权重列表中获取音素单元对应的权重值。
66.需要说明的是，为了得到每个音素单元对应精准的持续时间，首先根据拼音信息确定音素单元对应的目标类型，目标类型包括声母类型以及韵母类型，声母类型又包括：爆
破音类型、翘舌音类型以及平舌音类型等。韵母类型又包括：单韵母类型以及复韵母类型。
67.作为一个示例：声母中b，p，m属于爆破音类型，发音强度比韵母的发音强度，所以在某个拼音的音素序列中，爆破音类型的声母的权重小于0.5，韵母的权重大于0.5。
68.步骤b3，利用权重与时间长度计算每个音素单元对应的目标持续时间。
69.在本技术实施例中，利用权重与时间长度计算每个音素单元对应的目标持续时间的过程如下：时间长度为t2-t1，音素单元包括b、o，其中音素单元b对应的权重为w1，音素单元o对应的权重为2。音素单元b对应的目标持续时间为：(t2-t1)
×
w1。音素单元o对应的目标持续时间为：(t2-t1)
×
w2。
70.在本技术实施例中，获取音素单元对应的目标动画单元，包括：获取动画数据库，其中，动画数据库包括至少一个动画单元；从动画数据库的至少一个动画单元中获取与音素单元相匹配的目标动画单元。
71.在本技术实施例中，获取动画数据库，其中，动画数据库包括至少一个动画单元，动画单元是开发人员预选设置的符合真实人类说话时口型动作的动画数据，但是这种动画数据存在长短不一，且发音中任何一个音素持续的时长不固定的问题，因此无法将这些动画数据直接加以计算。为此，本技术实施例将动画数据进行多项式拟合，用多项式函数曲线去描述每个动画数据，得到动画单元，动画单元包括音素单元对应口型动作的至少一个动画关键帧。
72.在本技术实施例中，由于音素单元在实际发音中口型动作所需要的帧数与标准发音中口型动作所需要的帧数(即动画单元所包括的帧数)存在一定的差异，因此，从动画数据库中获取音素单元对应的动画单元后，首先确定音素单元对应原始动画单元包括的第一帧数，以及获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系，基于映射关系确定第一帧数对应的第二帧数，最终利用第二帧数以及动画关键帧生成音素单元对应的目标动画单元。
73.需要说明的是，本技术实施例通过实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系，利用该映射关系得到表示实际口型动作的目标动画单元，以此保证实际口型动作与文本的适配度更高。
74.步骤s14，基于音素序列中每个音素单元对应的目标持续时间以及目标动画单元，生成目标语音数据对应的口型动画。
75.在本技术实施例中，步骤s14，基于音素序列中每个音素单元对应的目标持续时间以及目标动画单元，生成目标语音数据对应的口型动画，包括以下步骤c1-c2：
76.步骤c1，将目标持续时间确定为目标动画单元对应的目标播放时间。
77.步骤c2，基于音素单元对应的时间顺序排列目标动画单元，以及每个目标动画单元对应的目标播放时间，生成口型动画。
78.在本技术实施例中，在生成口型动画时，首先将目标持续时间确定为目标动画单元对应的目标播放时间，例如：音素单元包括：r1，r2，r3，r4。每个音素单元对应的目标持续时间为t1，t2，t3，t4。每个音素单元对应的目标动画单元为p1，p2、p3、p4。然后将t1设置为p1的目标播放时间，将t2设置为p2的目标播放时间，将t3设置为p3的目标播放时间，将t4设置为p4的目标播放时间。最终利用音素单元对应的时间顺序排列目标动画单元，以及每个目标动画单元对应的目标播放时间，生成口型动画。
79.本技术实施例提供的方法通过检测语音数据中的音素单元，并确定每个音素单元在语音数据中的持续时间以及音素单元对应的动画单元，最终利用音素单元的持续时间以及动画单元生成口型动画，以此将口型动画的发音动作与文本中文字的发音顺序准确的贴合，使最终生成的口型动画能够更加符合真实场景。
80.在本技术实施例中，方法还包括以下步骤d1-d4：
81.步骤d1，基于口型动画获取每个音素单元对应的动画关键帧集合，并基于动画关键帧集合确定音素单元对应的原始起始动画关键帧以及原始结束动画关键帧。
82.步骤d2，获取原始起始动画关键帧之前的第n个动画关键帧，以及原始结束动画关键帧之后的第m个动画关键帧，其中，m和n均为大于0的整数。
83.步骤d3，将第n个动画关键帧确定为目标起始动画关键帧，以及将第m个动画关键帧确定为目标结束动画关键帧。
84.步骤d4，利用目标起始动画关键帧以及目标结束动画关键帧更新每个音素单元对应的动画关键帧集合，得到更新后的口型动画。
85.在本技术实施例中，针对任何一段语音，将其分割成音素序列和每个音素单元对应的时间戳信息后，直接将音素单元对应的动画单元进行组合就能够得到这段语音的口型动画。但这种组合得到的口型动画通过动画软件展现出的效果仍然不符合正常人说话时的口型动作效果。为此，本技术实施例将相邻音素之间的动画数据进行扩展。具体的，获取原始起始动画关键帧之前的第n个动画关键帧，以及原始结束动画关键帧之后的第m个动画关键帧。将第n个动画关键帧确定为目标起始动画关键帧，以及将第m个动画关键帧确定为目标结束动画关键帧，以确保相邻音素的动画数据有重叠。
86.作为一个示例：音素单元“b”在一段语音中对应的动画关键帧为第n到第n+5帧，音素单元“o”在语音中对应的动画关键帧为第n+6至n+12帧，则在动画数据的处理上可以将音素“b”的范围设为第n-1到第n+6帧，将音素“o”的范围设为第n+5到第n+13帧，这样保证了两个音素在n+5和n+6这两帧实现重合，进一步对重合的数据进行均值加权融合，作为这两帧的数据，从而确保了音素之间良好的发音衔接。
87.图2为本技术实施例提供的一种口型动画的生成装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2所示，该装置包括：
88.第一获取模块21，用于获取用于生成口型动画的目标语音数据；
89.解析模块22，用于解析目标语音数据，得到目标语音数据所对应的音素序列，其中，音素序列包括基于时间顺序排列的音素单元；
90.第二获取模块23，用于获取音素序列中每个音素单元对应的目标持续时间，以及音素单元对的动画单元，其中，动画单元包括音素单元对应的口型动作；
91.生成模块24，用于基于音素序列中每个音素对应的目标持续时间以及动画单元，生成目标语音数据对应的口型动画。
92.在本技术实施例中，解析模块22，用于识别目标语音数据，得到目标语音数据对应的文本内容；获取文本内容所包括的文字，以及每个文字对应的拼音信息；从拼音信息中获取每个文字对应的音素单元，并将音素单元基于文字播放数据排列生成音素序列。
93.在本技术实施例中，第二获取模块23，用于获取文字在目标语音数据中对应的起止时间戳，并基于起止时间戳确定文字对应的时间长度；获取文字所对应每个音素单元的
权重值，其中，权重值重用于表示音素单元对应的发音强度，发音强度与持续时间成正比例关系；利用权重与时间长度计算每个音素单元对应的目标持续时间。
94.在本技术实施例中，第二获取模块23，用于基于拼音信息确定文字对应的音素单元的目标类型，其中，目标类型包括声母类型以及韵母类型；获取目标类型对应的权重列表，并从权重列表中获取音素单元对应的权重值。
95.在本技术实施例中，第二获取模块23，用于获取动画数据库，其中，动画数据库包括至少一个动画单元；从动画数据库的至少一个动画单元中获取与音素单元相匹配的原始动画单元，其中，原始动画单元包括第一帧数的动画关键帧；获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系；基于映射关系，确定原始动画单元所包括的第一帧数对应的第二帧数，基于第二帧数以及动画关键帧生成目标动画单元。
96.在本技术实施例中，生成模块24，用于将目标持续时间确定为目标动画单元对应的目标播放时间；基于音素单元对应的时间顺序排列目标动画单元，以及每个目标动画单元对应的目标播放时间，生成口型动画。
97.在本技术实施例中，生成模块24，具体用于基于口型动画获取每个音素单元对应的动画关键帧集合，并基于动画关键帧集合确定音素单元对应的原始起始动画关键帧以及原始结束动画关键帧；获取原始起始动画关键帧之前的第n个动画关键帧，以及原始结束动画关键帧之后的第m个动画关键帧，其中，m和n均为大于0的整数；将第n个动画关键帧确定为目标起始动画关键帧，以及将第m个动画关键帧确定为目标结束动画关键帧；利用目标起始动画关键帧以及目标结束动画关键帧更新每个音素单元对应的动画关键帧集合，得到更新后的口型动画。
98.本技术实施例还提供一种电子设备，如图3所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。
99.存储器1503，用于存放计算机程序；
100.处理器1501，用于执行存储器1503上所存放的计算机程序时，实现上述实施例的步骤。
101.上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
102.通信接口用于上述终端与其他设备之间的通信。
103.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
104.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
105.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的口型动画的生成方法。
106.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的口型动画的生成方法。
107.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk)等。
108.以上所述仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。
109.以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种口型动画的生成方法，其特征在于，包括：获取用于生成口型动画的目标语音数据；解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，其中，所述音素序列包括基于时间顺序排列的音素单元；获取所述音素序列中每个音素单元对应的目标持续时间，以及获取所述音素单元对应的目标动画单元，其中，所述目标动画单元包括至少一个携带所述音素单元对应口型动作的动画关键帧；基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元，生成所述目标语音数据对应的口型动画。2.根据权利要求1所述的方法，其特征在于，所述解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，包括：识别所述目标语音数据，得到所述目标语音数据对应的文本内容；获取所述文本内容所包括的文字，以及每个所述文字对应的拼音信息；从所述拼音信息中获取每个所述文字对应的音素单元，并将所述音素单元基于文字播放顺序排列生成所述音素序列。3.根据权利要求2所述的方法，其特征在于，所述获取所述音素序列中每个音素单元对应的目标持续时间，包括：获取所述文字在所述目标语音数据中对应的起止时间戳，并基于所述起止时间戳确定所述文字对应的时间长度；获取所述文字所对应每个音素单元的权重值，其中，所述权重值重用于表示所述音素单元对应的发音强度，所述发音强度与持续时间成正比例关系；利用所述权重与所述时间长度计算每个所述音素单元对应的目标持续时间。4.根据权利要求3所述的方法，其特征在于，所述获取所述文字所对应每个音素单元的权重值，包括：基于所述拼音信息确定所述文字对应的所述音素单元的目标类型，其中，所述目标类型包括声母类型以及韵母类型；获取所述目标类型对应的权重列表，并从所述权重列表中获取所述音素单元对应的权重值。5.根据权利要求1所述的方法，其特征在于，所述获取所述音素单元对应的目标动画单元，包括：获取动画数据库，其中，所述动画数据库包括至少一个动画单元；从所述动画数据库的至少一个动画单元中获取与所述音素单元相匹配的原始动画单元，其中，所述原始动画单元包括第一帧数的动画关键帧；获取实际口型动作的动画关键帧数与标准口型动作的动画关键帧数之间的映射关系；基于映射关系，确定所述原始动画单元所包括的第一帧数对应的第二帧数，并基于所述第二帧数以及所述动画关键帧生成所述目标动画单元。6.根据权利要求1所述的方法，其特征在于，所述基于所述音素序列中每个音素单元对应的目标持续时间以及所述目标动画单元，生成所述目标语音数据对应的口型动画，包括：将目标持续时间确定为所述目标动画单元对应的目标播放时间；
基于所述音素单元对应的时间顺序排列所述目标动画单元，以及每个所述目标动画单元对应的目标播放时间，生成所述口型动画。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：基于所述口型动画获取每个所述音素单元对应的动画关键帧集合，并基于所述动画关键帧集合确定所述音素单元对应的原始起始动画关键帧以及原始结束动画关键帧；获取所述原始起始动画关键帧之前的第n个动画关键帧，以及所述原始结束动画关键帧之后的第m个动画关键帧，其中，m和n均为大于0的整数；将所述第n个动画关键帧确定为目标起始动画关键帧，以及将所述第m个动画关键帧确定为目标结束动画关键帧；利用所述目标起始动画关键帧以及所述目标结束动画关键帧更新每个所述音素单元对应的动画关键帧集合，得到更新后的口型动画。8.一种口型动画的生成装置，其特征在于，包括：第一获取模块，用于获取用于生成口型动画的目标语音数据；解析模块，用于解析所述目标语音数据，得到所述目标语音数据所对应的音素序列，其中，所述音素序列包括基于时间顺序排列的音素单元；第二获取模块，用于获取所述音素序列中每个音素单元对应的目标持续时间，以及所述音素单元对的动画单元，其中，所述动画单元包括所述音素单元对应的口型动作；生成模块，用于基于所述音素序列中每个音素对应的目标持续时间以及动画单元，生成所述目标语音数据对应的口型动画。9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。

技术总结

本申请公开了一种口型动画的生成方法、装置、电子设备及存储介质。方法包括：获取用于生成口型动画的目标语音数据；解析目标语音数据，得到目标语音数据所对应的音素序列；获取音素序列中每个音素单元对应的目标持续时间，以及获取音素单元对应的目标动画单元；基于音素序列中每个音素单元对应的目标持续时间以及目标动画单元，生成目标语音数据对应的口型动画。本申请通过检测语音数据中的音素单元，并确定每个音素单元在语音数据中的持续时间以及音素单元对应的动画单元，最终利用音素单元的持续时间以及动画单元生成口型动画，以此将口型动画的发音动作与文本中文字的发音顺序准确的贴合，使最终生成的口型动画能够更加符合真实场景。符合真实场景。符合真实场景。