动作生成方法及装置、设备、介质与流程

阅读: 评论:0



1.本公开涉及计算机技术领域,尤其涉及一种动作生成方法及装置、设备、介质。


背景技术:



2.随着视频分享平台的普及,发布分享视频成为人们的日常。
3.由于一些用户的视频录制条件有限(比如场地较小,用户不会跳舞),为提高用户视频制作的便捷性,相关技术中,结合用户输入的图像素材(比如目标人物的全身照、或者目标人物的一段视频),模拟视频动作模板中的人物动作,以自动生成对应的动作视频。
4.相关技术中,可以采用图像素材重排、图形学方法、机器学习来模拟视频动作模板中的人物动作。但是图像重排无法模拟出图像素材中未出现的动作,对图像素材的数量以及图像质量要求较高。而图形学的方法需要构建较为精细的人体模型以及光照模型,导致从图像素材到动作视频的转换时间长,视频生成效率低,实时性差。而机器学习的方法所需采集的图像素材数量较多(例如5到10秒的视频素材),需要部署更多的图像处理资源,而且最终动作视频的生成效果还依赖于线上微调(finetune)实现,导致视频生成效率低,实时性差。
5.因此,如何生成视频中的人物动作,以提高视频生成效率,成为亟待解决的技术问题。


技术实现要素:



6.本公开提供一种动作生成方法及装置、设备、介质,用以生成目标图像中目标对象执行的目标动作,提高图像生成效率,保证图像生成过程的实时性。
7.根据本公开实施例的第一方面,本公开提供一种动作生成方法,该方法包括:
8.响应于用户输入的待处理图像,通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息;
9.通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理,得到所述待处理图像中所述目标对象执行目标动作的低层语义特征;所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见的特征;
10.通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,目标图像表示目标对象执行目标动作的图像。
11.在一可选实施例中,通过第一网络提取待处理图像中目标对象的高层语义特征,包括:通过第一网络中的编码器对待处理图像中的图像内容进行编码处理,得到编码数据;通过第一网络中的注意力模块对编码数据进行基于注意力机制的特征提取处理,得到待处理图像中的初始高层语义特征;通过第一网络中的残差模块对初始高层语义特征进行模型深度提升处理,得到高层语义特征。
12.在一可选实施例中,通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征,包括:
13.获取预先设置的背景图像;通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据;通过第二网络中的风格编码模型,对待处理图像和背景图像进行处理,得到待处理图像中目标对象在背景图像对应的背景下的外观属性数据;将人体解析数据和外观属性数据,确定为低层语义特征。
14.在一可选实施例中,通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据,包括:
15.通过第二网络中的人体参数化三维模型获取待处理图像中目标对象在初始动作下的三维人体参数,初始动作为目标对象在待处理图像中执行的动作;通过第二网络中的渲染模型对三维人体参数和目标动作信息进行处理,得到目标对象执行目标动作的初始人体解析数据;通过第二网络中的人体解析模型,对初始人体解析数据以及预先设置的背景图像进行解析处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据。
16.在一可选实施例中,通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像之前,还包括:通过第二网络中的渲染模型对三维人体参数进行处理,得到目标对象在初始动作下的运动流估计数据,运动流估计数据表示目标对象执行动作时的动作姿态。
17.通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,包括:通过第一网络对运动流估计数据、低层语义特征与高层语义特征进行融合,生成目标图像。
18.在一可选实施例中,通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,包括:
19.通过第一网络中的融合模块将低层语义特征中的人体解析数据输入到第一网络的残差模块以及解码器中;通过第一网络中的归一化模块将低层语义特征中的外观属性数据,输入到第一网络的残差模块以及解码器中;通过残差模块将第一网络中的注意力模块从待处理图像中提取到的初始高层语义特征,与人体解析数据以及外观属性数据进行融合,得到待处理的融合语义特征;通过第一网络中的解码器将融合语义特征转换为目标图像。
20.根据本公开实施例的第二方面,本公开提供一种动作生成装置,该装置包括:
21.提取单元,被配置为通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息;通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征;低层语义特征用于表征目标对象执行目标动作时视觉可见的特征;
22.生成单元,被配置为通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,目标图像表示目标对象执行目标动作的图像。
23.在一可选实施例中,提取单元通过第一网络提取待处理图像中目标对象的高层语义特征的过程中,被具体配置为:
24.通过第一网络中的编码器对待处理图像中的图像内容进行编码处理,得到编码数据;通过第一网络中的注意力模块对编码数据进行基于注意力机制的特征提取处理,得到待处理图像中的初始高层语义特征;通过第一网络中的残差模块对初始高层语义特征进行
模型深度提升处理,得到高层语义特征。
25.在一可选实施例中,提取单元通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征的过程中,被具体配置为:
26.获取预先设置的背景图像;通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据;通过第二网络中的风格编码模型,对待处理图像和背景图像进行处理,得到待处理图像中目标对象在背景图像对应的背景下的外观属性数据;将人体解析数据和外观属性数据,确定为低层语义特征。
27.在一可选实施例中,提取单元通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据的过程中,被具体配置为:
28.通过第二网络中的人体参数化三维模型获取待处理图像中目标对象在初始动作下的三维人体参数,初始动作为目标对象在待处理图像中执行的动作;通过第二网络中的渲染模型对三维人体参数和目标动作信息进行处理,得到目标对象执行目标动作的初始人体解析数据;通过第二网络中的人体解析模型,对初始人体解析数据以及预先设置的背景图像进行解析处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据。
29.在一可选实施例中,提取单元通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像之前,还被配置为:通过第二网络中的渲染模型对三维人体参数进行处理,得到目标对象在初始动作下的运动流估计数据,运动流估计数据表示目标对象执行动作时的动作姿态。
30.生成单元通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像的过程中,被具体配置为:通过第一网络对运动流估计数据、低层语义特征与高层语义特征进行融合,生成目标图像。
31.在一可选实施例中,生成单元通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像的过程中,被具体配置为:
32.通过第一网络中的融合模块将低层语义特征中的人体解析数据输入到第一网络的残差模块以及解码器中;通过第一网络中的归一化模块将低层语义特征中的外观属性数据,输入到第一网络的残差模块以及解码器中;通过残差模块将第一网络中的注意力模块从待处理图像中提取到的初始高层语义特征,与人体解析数据以及外观属性数据进行融合,得到待处理的融合语义特征;通过第一网络中的解码器将融合语义特征转换为目标图像。
33.根据本公开实施例的第三方面,提供一种电子设备,其中包括处理器和存储器,其中,存储器上存储有可执行代码,当可执行代码被处理器执行时,使处理器至少可以实现第一方面中的动作生成方法。
34.根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备执行时,使得电子设备能够执行至少可以实现第一方面中的动作生成方法。
35.本公开的实施例提供的技术方案至少带来以下有益效果:
36.本公开中,通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息。进而,通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征,低层语义特征用于表征目标对象执行目标动作时视觉可见的特征。进而,通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,该目标图像表示目标对象执行目标动作的图像。上述方案中,从待处理图像中提取高层语义特征和低层语义特征作为生成目标动作的参考,并对高层语义特征和低层语义特征进行融合以生成目标图像,从而通过第一网络和第二网络有效融合高层语义特征和低层语义特征中的图像语义信息,在保证目标动作质量的情况下显著提高图像生成效率,保证图像生成过程的实时性。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
38.图1是根据一示例性实施例示出的一种动作生成方法的流程示意图。
39.图2是根据一示例性实施例示出的一种网络结构示意图。
40.图3是根据一示例性实施例示出的一种动作生成装置的结构示意图。
41.图4是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
42.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
43.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
44.如前文所述,随着视频分享平台的普及,发布分享视频成为人们的日常。由于场地条件限制,或者用户自身条件限制,导致一些用户无法完成视频录制。以舞蹈视频为例,用户所处场景空间较小(如宿舍、过道等),可能会因空间不足导致舞蹈视频录制失败;或者用户不会某一种流行舞蹈,无法录制相应的舞蹈视频;或者用户动作并不熟练,造成舞蹈视频效果较差。
45.为便于用户在上述情况下完成舞蹈视频的录制、制作,用户输入图像素材(比如目标人物的全身照、或者目标人物的一段视频)之后,模拟视频动作模板中的人物动作,以自动生成对应的动作视频。例如,输入用户的全身照,即可结合视频动作模板中的舞蹈动作,生成该用户的舞蹈视频。值得说明的是,视频动作模板也可以称为驱动视频、驱动图像。视频动作模板中的人物动作可以是预先录制,也可以是通过三维虚拟引擎生成的。
46.相关技术中,通常采用图像素材重排、图形学方法、机器学习来模拟视频动作模板
中的人物动作。在一相关技术中,可以采用图像素材重排的方式,将图像素材中现有的动作拆分组合为视频动作模板中的人物动作,但这种方式局限性较大,无法生成图像素材中没有出现的动作,因而需要用户输入包含较多动作的图像素材,操作繁琐。
47.另一相关技术中,采用图形学的方式来模拟视频动作模板中的人物动作。这种方式主要针对单人单着装的场景,以跳舞视频为例,通常是通过大量的单人跳舞视频数据集对图形学模型进行训练。进而,针对目标人物采集5到10秒的动作视频,在动作视频的基础上图形学模型进行finetune,生成最终的舞蹈视频效果。但是,图形学的方法需要构建较为精细的人体模型以及光照模型,导致从图像素材到动作视频的转换时间较长,实时性较差。
48.其他相关技术中,还可以采用机器学习的方法来模拟视频动作模板中的人物动作。具体就是,这种方式同样也需要采集较多数量的图像素材(例如5到10秒的视频素材),因而还需部署更多的图像处理资源用以处理这些图像素材。而且,这种方式需要使用输入的图像素材中的两帧结构进行配对训练,同样也需要进行finetune,才能生成最终的舞蹈视频效果。最终动作视频的生成效果还依赖于线上finetune实现,导致视频生成效率较低,实时性较差。
49.因此,如何生成视频中的人物动作,以提高动作生成效率,保证动作生成过程的实时性,成为亟待解决的技术问题。
50.为解决相关技术中存在的至少一个技术问题,本公开提供了一种动作生成方法及装置、设备、介质。
51.上述技术方案的核心思想是:通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息。进而,通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征,低层语义特征用于表征目标对象执行目标动作时视觉可见的特征。进而,通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,该目标图像表示目标对象执行目标动作的图像。上述方案中,从待处理图像中提取高层语义特征和低层语义特征作为生成目标动作的参考,并对高层语义特征和低层语义特征进行融合以生成目标图像,从而通过第一网络和第二网络有效融合高层语义特征和低层语义特征中的图像语义信息,在保证目标动作质量的情况下显著提高图像生成效率,保证图像生成过程的实时性。
52.基于前文介绍的核心思想,本公开实施例提供了一种动作生成方法,图1为本公开一示例性实施例提供的动作生成方法的流程示意图。如图1所示,该方法包括:
53.101、通过第一网络提取待处理图像中目标对象的高层语义特征;
54.102、通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征;
55.103、通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像。其中目标图像表示目标对象执行目标动作的图像。
56.实际应用中,上述方法中各个步骤可以由一个电子设备实现,该电子设备可以是诸如手机、可穿戴设备(如智能手环、vr设备等)、平板电脑、pc机、笔记本电脑等终端设备。以手机为例,可调用搭载在手机中的专用应用程序实现,也可调用即时通信应用或其他类型应用中设置的小程序实现,还可通过手机应用调用云服务器实现。上述方法中的步骤也可由多个电子设备配合实现。例如,服务器可以将执行结果发送到终端设备中,以供终端设
备渲染并显示该执行结果。该服务器可以是包含一独立主机的物理服务器,或者也可以为主机集承载的虚拟服务器,或者也可以为云服务器,本公开并不限定。
57.值得说明的是,本公开并不限定步骤101至103的执行顺序,实际上,上述步骤可以同时执行,也可采用不同顺序分别执行。
58.下面结合具体实施例介绍动作生成方法中的各个步骤。
59.首先,101中,通过第一网络提取待处理图像中目标对象的高层语义特征。
60.本公开中,目标对象是指待处理图像中需要生成动作效果的主体,例如是,自拍照中的目标人物,短视频中的目标人物,合影中的目标人物。实际应用中并不限定目标对象的数量以及类型,例如,目标对象可以是待处理图像中一个人物,也可以是多个人物,还可以是人物与其他主体(如宠物)的组合。
61.本公开中可选地,101中识别目标对象的具体方式比如是,响应于用户对待处理图像发出的选取指令,将用户选取的主体作为目标对象。例如,点击或框选待处理图像中的人物,作为需要生成目标动作效果的目标对象。
62.或者,根据预先设置的目标对象类型,从待处理图像中检测出与目标对象类型匹配的主体对象作为目标对象。比如是,采用目标识别策略识别待处理图像中与目标对象类型匹配的目标对象。实际应用中,目标对象类型可以根据目标图像类型设置,例如需要生成舞蹈视频(即目标图像)中的人物动作,那么,目标对象类型可以设置为人物。值得说明的是,目标对象的其他属性参数也可以采用此方式设置,例如,需要生成三人动作效果的视频(即目标图像)中的人物动作,那么,目标对象类型可以设置为人物,目标对象数量设置为3个。
63.或者,也可以将处于待处理图像中目标位置的主体作为目标对象。该目标位置可以根据图像拍摄参数确定,例如,对于采用中央重点测光方式拍摄的图像,将处于图像几何中心位置的主体作为目标对象。值得说明的是,该步骤可以在输入待处理图像后自动触发的。
64.本公开中,可以理解的是,图像的语义特征分为高层语义特征和低层语义特征。其中,高层语义特征用于表征图像包含的抽象语义信息,抽象语义信息包括图像所表达的抽象概念,例如物体名称、类型、尺寸。高层语义特征可以是图像中包含的物体类型,例如,一张风景图像的高层语义特征比如是风景图像中包含的树木、石头、土地、草、昆虫、动物等。显然高层语义特征更接近于人类可理解的概念。通常来说,高层语义特征是经过多次特征提取(例如卷积)后得到的,因而高层语义特征的感受野较大,更为抽象,更有助于实现图像分类。而低层语义特征用于表征待处理图像包含的视觉特征,视觉特征包括但不限于轮廓特征、边缘特征、颜特征、纹理特征、形状特征、属性特征。属性特征例如是某一对象在某一时刻的属性状态。
65.简单来说,假设待处理图像中包括沙滩、天空、海水等景物,那么,低层语义特征会从轮廓特征、边缘特征、颜特征、纹理特征、形状特征等方面去分区域描述,高层语义特征将则待处理图像分为沙滩、天空、海水等景物,或者表示为海滩(即待处理图像所要表示的语义)。
66.本公开中,第一网络主要用于提取待处理图像中目标对象的高层语义特征。此处第一仅用于与本公开中其他网络进行区分。在一可选实施例中,第一网络可以至少包括以
下结构:编码器、注意力模块、多层残差模块、解码器。其中,第一网络中的编码器可以实现为内容编码器(content enc),内容编码器用于编码图像内容,从而提取图像中高层语义特征。注意力模块采用简化注意力机制(simply attn)实现,从而通过注意力机制进一步提取图像的语义特征。残差模块(res block)用于提高神经网络模型的深度,从而进一步提取图像的语义特征。相较于单一的残差模块,多层残差模块可以通过相互协作进一步加强语义特征的提取。本实施例中的残差模型用于提高第一网络的深度。解码器(dec)主要用于将语义特征转化为最终输出的目标图像,例如rgb图像。可选地,第一网络中还包括归一化模块(adinin)和融合模块(例如spade模块)。其中,归一化模块可用于自适应像素归一化,是用于稳定神经网络模型的训练方式。spade模块用于融合高层语义特征以及目标对象的解析数据(parsing),从而提升目标对象的动作效果质量。上述第一网络的结构如图2所示。
67.在一可选实施例中,假设第一网络包括编码器、注意力模块、多层残差模块,基于此,101中,通过第一网络提取待处理图像中目标对象的高层语义特征,可以实现为:通过第一网络中的编码器、注意力模块以及多层残差模块,从待处理图像中提取出高层语义特征。其中,编码器用于编码待处理图像中的图像内容,注意力模型用于通过注意力机制提取待处理图像中的语义特征,残差模型用于提高第一网络的深度。具体而言,通过第一网络中的编码器对待处理图像中的图像内容进行编码处理,得到编码数据;通过第一网络中的注意力模块对编码数据进行基于注意力机制的特征提取处理,得到待处理图像中的初始高层语义特征;通过第一网络中的残差模块对初始高层语义特征进行模型深度提升处理,得到高层语义特征。
68.举例来说,如果监测到用户意图制作一段包含目标动作的视频,那么,可以向用户提示需要上传的图像素材(如预设数量的图像、预设时长的视频),并将用户上传的图像素材作为待处理图像。或者,也可以从数据库中获取与该用户匹配的图像素材作为待处理图像,例如用户授权使用的视频或者照片。进而,101中,获取到用户匹配的图像素材之后,将图像素材输入到第一网络中,逐层经由第一网络中的编码器、注意力模块以及三层残差模块,从该图像素材中提取出目标对象的高层语义特征。其中残差模型的层数仅为示例,本公开中并不限定。
69.进而,102中,通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征。低层语义特征用于表征目标对象执行目标动作时视觉可见的特征。本公开中目标对象的低层语义特征包括但不限于:目标对象的人体解析数据以及外观属性数据。
70.本公开中可选地,目标动作信息可以实现为图像形式或数据形式。例如,假设目标动作为跳跃,那么,目标动作信息可以是包含跳跃动作的图片、视频,目标动作信息也可以是针对跳跃动作采集到的动作捕捉数据、关节数据。当然,目标动作信息还可以是其他形式,此处不限定。
71.具体而言,在102的一种可选实施例中,获取预先设置的背景图像;通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据;通过第二网络中的风格编码模型,对待处理图像和背景图像进行处理,得到待处理图像中目标对象在背景图像对应的背景下的外观属性数据;将人体解析数据和外观属性数据,确定为低层语义特征。
72.上述实施例中,预先设置的背景图像可以是纯图片、透明图片、或者其他形式的图片。102中,获取背景图像之后,通过第二网络中的人体参数化三维模型(skinned multi-person linear model,smpl)获取待处理图像中目标对象在初始动作下的三维人体参数,其中初始动作为目标对象在待处理图像中执行的动作。smpl是一种参数化人体模型,也可以理解为一种人体建模方式,通过该模型可以执行任意的人体建模和动画驱动。本公开中可选地,smpl中三维人体参数一般有85个,包括但不限于:相机(camera)参数、姿势(pose)参数、外形(shape)参数。camera参数有三个,主要用于表示针对目标对象的观察视角。pose参数一共有3*24个,主要用于表示人物动作。shape参数一共有10个,主要用于表示人物体型,此处shape参数与人物的着装无关。进而,通过第二网络中的渲染(render)模型对三维人体参数和目标动作信息进行处理,得到目标对象执行目标动作下的初始人体解析数据。
73.接着,102中,通过第二网络中的人体解析模型,对初始人体解析数据以及预先设置的背景图像进行解析处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据。示例性地,人体解析模型可以由图2所示的人体解析编码器(parse enc)以及人体解析解码器(parse dec)构成,通过parse enc以及parse dec可以将目标对象在初始动作下的初始人体解析数据以及背景图像融合为目标对象在背景图像对应的背景下执行目标动作的人体解析数据。背景图像中不同灰度区域分别代表目标对象的衣服、裤子、手、脸、帽子。举例来说,假设意图让目标人物从待处理视频中所执行的a动作(即初始动作),迁移至驱动视频中的b动作(即目标动作),那么,目标人物所执行的a动作对应的人体解析数据为初始人体解析数据,目标人物所执行的b动作对应的人体解析数据为人体解析数据,此步骤意在通过初始人体解析数据估计出人体解析数据。通过目标对象在背景图像对应的背景下执行目标动作的人体解析数据,可以为第一网络提供用于生成目标图像的低层语义特征,以进一步提高目标图像的动作效果。
74.对于上述三维人体参数,还可以采用第二网络执行如下处理。本公开中可选地,103之前,通过第二网络中的渲染模型,对三维人体参数进行处理,得到目标对象在初始动作下的运动流估计数据。进而,103中,通过第一网络对运动流估计数据、低层语义特征与高层语义特征进行融合,生成目标图像。其中运动流估计数据表示目标对象执行动作时的动作姿态。通过目标对象的运动流估计数据,同样也可以为第一网络最终输出的目标图像的获取过程提供低层语义特征,以进一步提高目标图像的动作效果。
75.本公开中,第二网络除了提取人体解析数据之外,还会从待处理图像中提取目标对象的外观属性数据。可选地,102的另一种可选实施例中,通过第二网络提取待处理图像中目标对象的低层语义特征,并将低层语义特征输入到第一网络中,可以实现为:通过第二网络中的风格编码(style enc)模型,对待处理图像以及预先设置的背景图像进行处理,提取出待处理图像中目标对象的外观属性数据。本公开中,外形属性参数至少包括以下之一:肤、服饰颜、服饰纹理。通过目标对象的外观属性数据,同样也可以为第一网络最终输出的目标图像的获取过程提供低层语义特征,以进一步提高目标图像的动作效果。
76.上述步骤通过第二网络中使用到的多种模块构建成低层语义特征的多条提取路径,从而能够待处理图像中提取到更为丰富的低层语义特征。在后续步骤中进一步将上述多条提取路径得到的低层语义特征通过不同模块融合到第一网络中,提升第一网络的图像输出质量,进一步提高图像生成效果,提升最终输出的图像质量。
77.103中,通过第一网络对低层语义特征与高层语义特征进行融合,以生成由目标对象执行一组目标动作的目标图像。具体而言,在103的一种可选实现方式中,通过第一网络中的融合模块将低层语义特征中的人体解析数据输入到第一网络的残差模块以及解码器中;通过第一网络中的归一化模块将低层语义特征中的外观属性数据,输入到第一网络的残差模块以及解码器中。进而,通过第一网络中的残差模块,将第一网络中的注意力模块从待处理图像中提取到的初始高层语义特征,与人体解析数据以及外观属性数据进行融合,得到待处理的融合语义特征。进而,通过第一网络中的解码器将融合语义特征转换为目标对象执行目标动作的图像,即目标图像。
78.具体来说,上述实施例中,通过第一网络中的第一层残差模块,将第一网络中的注意力模块的初始高层语义特征,与人体解析数据以及外观属性数据进行融合,得到待处理的初始融合语义特征。通过非首层残差模块,将上一层残差模块处理得到的初始融合语义特征,与人体解析数据以及外观属性数据进行融合,得到最终输出的融合语义特征。进而,结合人体解析数据以及外观属性数据,通过第一网络中的解码器将最后一层残差模块输出的融合语义特征转换为目标图像。该目标图像可以是目标对象执行目标动作时对应的一组rgb图像,或者也可以是其他形式,此处不限定。
79.举例来说,如图2所示,在第一网络中通过注意力模块以及3层残差模块的组合可以增强高层语义特征的提取效果,并在第一网络的解码器中将前文所述的低层语义特征与高层语义特征进行融合,以输出目标对象执行目标动作时对应的rgb图像。为进一步提升动作效果的质量,前文所述的低层语义特征还可以输入到3层残差模块中,以提升高层语义特征的提取质量。
80.通过图1示出的动作生成方法中,通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息。进而,通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征,低层语义特征用于表征目标对象执行目标动作时视觉可见的特征。进而,通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,该目标图像表示目标对象执行目标动作的图像。上述方案中,从待处理图像中提取高层语义特征和低层语义特征作为生成目标动作的参考,并对高层语义特征和低层语义特征进行融合以生成目标图像,从而通过第一网络和第二网络有效融合高层语义特征和低层语义特征中的图像语义信息,在保证目标动作质量的情况下显著提高图像生成效率,保证图像生成过程的实时性。
81.图3为本公开实施例提供的一种动作生成装置。如图3所示,该装置包括:
82.提取单元301,被配置为通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息;通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征;低层语义特征用于表征目标对象执行目标动作时视觉可见的特征;
83.生成单元302,被配置为通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,该目标图像表示目标对象执行目标动作的图像。
84.可选地,提取单元301通过第一网络提取待处理图像中目标对象的高层语义特征的过程中,被具体配置为:
85.通过第一网络中的编码器对待处理图像中的图像内容进行编码处理,得到编码数据;通过第一网络中的注意力模块对编码数据进行基于注意力机制的特征提取处理,得到待处理图像中的初始高层语义特征;通过第一网络中的残差模块对初始高层语义特征进行模型深度提升处理,得到高层语义特征。
86.可选地,提取单元301通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征的过程中,被具体配置为:
87.获取预先设置的背景图像;通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据;通过第二网络中的风格编码模型,对待处理图像和背景图像进行处理,得到待处理图像中目标对象在背景图像对应的背景下的外观属性数据;将人体解析数据和外观属性数据,确定为低层语义特征。
88.可选地,提取单元301通过第二网络对待处理图像、目标动作信息和背景图像进行处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据的过程中,被具体配置为:
89.通过第二网络中的人体参数化三维模型获取待处理图像中目标对象在初始动作下的三维人体参数,初始动作为目标对象在待处理图像中执行的动作;通过第二网络中的渲染模型对三维人体参数和目标动作信息进行处理,得到目标对象执行目标动作的初始人体解析数据;通过第二网络中的人体解析模型,对初始人体解析数据以及预先设置的背景图像进行解析处理,得到目标对象在背景图像对应的背景下执行目标动作的人体解析数据。
90.可选地,提取单元301通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像之前,还被配置为:通过第二网络中的渲染模型对三维人体参数进行处理,得到目标对象在初始动作下的运动流估计数据,运动流估计数据表示目标对象执行动作时的动作姿态。
91.生成单元302通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像的过程中,被具体配置为:通过第一网络对运动流估计数据、低层语义特征与高层语义特征进行融合,生成目标图像。
92.可选地,生成单元302通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像的过程中,被具体配置为:
93.通过第一网络中的融合模块将低层语义特征中的人体解析数据输入到第一网络的残差模块以及解码器中;通过第一网络中的归一化模块将低层语义特征中的外观属性数据,输入到第一网络的残差模块以及解码器中;通过残差模块将第一网络中的注意力模块从待处理图像中提取到的初始高层语义特征,与人体解析数据以及外观属性数据进行融合,得到待处理的融合语义特征;通过第一网络中的解码器将融合语义特征转换为目标图像。
94.上述动作生成装置可以执行前述各实施例中提供的系统或方法,本实施例未详细描述的部分,可参考前述实施例的相关说明,在此不再赘述。
95.在一个可能的设计中,上述动作生成装置的结构可实现为一电子设备。如图4所
示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当可执行代码被处理器21执行时,至少使处理器21可以实现如前述实施例中提供的动作生成方法。
96.其中,该电子设备的结构中还可以包括通信接口23,用于与其他设备或通信网络通信。
97.另外,本公开还提供了一种包括指令的计算机可读存储介质,介质上存储有可执行代码,当可执行代码被无线路由器的处理器执行时,使处理器执行前述各实施例中提供基于神经网络的特征数据处理方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
98.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
99.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:


1.一种动作生成方法,其特征在于,所述方法包括:通过第一网络提取待处理图像中目标对象的高层语义特征,所述高层语义特征用于表征所述待处理图像包含的抽象语义信息;通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理,得到所述待处理图像中所述目标对象执行目标动作的低层语义特征;所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见的特征;通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合,生成目标图像,所述目标图像表示所述目标对象执行所述目标动作的图像。2.根据权利要求1所述的方法,其特征在于,所述通过第一网络提取所述待处理图像中目标对象的高层语义特征,包括:通过所述第一网络中的编码器对所述待处理图像中的图像内容进行编码处理,得到编码数据;通过所述第一网络中的注意力模块对所述编码数据进行基于注意力机制的特征提取处理,得到所述待处理图像中的初始高层语义特征;通过所述第一网络中的残差模块对所述初始高层语义特征进行模型深度提升处理,得到所述高层语义特征。3.根据权利要求1所述的方法,其特征在于,所述通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理,得到所述待处理图像中所述目标对象执行目标动作的低层语义特征,包括:获取预先设置的背景图像;通过所述第二网络对所述待处理图像、所述目标动作信息和所述背景图像进行处理,得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据;通过所述第二网络中的风格编码模型,对所述待处理图像和所述背景图像进行处理,得到所述待处理图像中所述目标对象在所述背景图像对应的背景下的外观属性数据;将所述人体解析数据和所述外观属性数据,确定为所述低层语义特征。4.根据权利要求3所述的方法,其特征在于,通过所述第二网络对所述待处理图像、所述目标动作信息和所述背景图像进行处理,得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据,包括:通过所述第二网络中的人体参数化三维模型获取所述待处理图像中所述目标对象在初始动作下的三维人体参数,所述初始动作为所述目标对象在所述待处理图像中执行的动作;通过所述第二网络中的渲染模型对所述三维人体参数和所述目标动作信息进行处理,得到所述目标对象执行所述目标动作的初始人体解析数据;通过所述第二网络中的人体解析模型,对所述初始人体解析数据以及预先设置的背景图像进行解析处理,得到所述目标对象在所述背景图像对应的背景下执行所述目标动作的人体解析数据。5.根据权利要求4所述的方法,其特征在于,所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合,生成目标图像之前,还包括:通过所述第二网络中的渲染模型对所述三维人体参数进行处理,得到所述目标对象在
所述初始动作下的运动流估计数据,所述运动流估计数据表示所述目标对象执行动作时的动作姿态;所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合,生成目标图像,包括:通过所述第一网络对所述运动流估计数据、所述低层语义特征与所述高层语义特征进行融合,生成所述目标图像。6.根据权利要求1所述的方法,其特征在于,所述通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合,生成目标图像,包括:通过所述第一网络中的融合模块将所述低层语义特征中的人体解析数据输入到所述第一网络的残差模块以及解码器中;通过所述第一网络中的归一化模块将所述低层语义特征中的外观属性数据,输入到所述第一网络的残差模块以及解码器中;通过残差模块将所述第一网络中的注意力模块从所述待处理图像中提取到的初始高层语义特征,与所述人体解析数据以及所述外观属性数据进行融合,得到待处理的融合语义特征;通过所述第一网络中的解码器将所述融合语义特征转换为所述目标图像。7.一种动作生成装置,其特征在于,所述装置包括:提取单元,被配置为通过第一网络提取待处理图像中目标对象的高层语义特征,所述高层语义特征用于表征所述待处理图像包含的抽象语义信息;通过第二网络对所述待处理图像和预先设置的目标动作信息进行处理,得到所述待处理图像中所述目标对象执行目标动作的低层语义特征;所述低层语义特征用于表征所述目标对象执行目标动作时视觉可见的特征;生成单元,被配置为通过所述第一网络对所述低层语义特征与所述高层语义特征进行融合,生成目标图像,所述目标图像表示所述目标对象执行所述目标动作的图像。8.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一项所述的动作生成方法。9.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备执行时,使得电子设备能够执行如权利要求1至6任一项所述的动作生成方法。

技术总结


本公开提供一种动作生成方法及装置、设备、介质,该方法:通过第一网络提取待处理图像中目标对象的高层语义特征,高层语义特征用于表征待处理图像包含的抽象语义信息;通过第二网络对待处理图像和预先设置的目标动作信息进行处理,得到待处理图像中目标对象执行目标动作的低层语义特征,低层语义特征用于表征目标对象执行目标动作时视觉可见的特征;通过第一网络对低层语义特征与高层语义特征进行融合,生成目标图像,该目标图像表示目标对象执行目标动作的图像。该方法有效融合高层语义特征和低层语义特征中的图像语义信息,在保证目标动作质量的情况下提高图像生成效率,保证图像生成过程的实时性。像生成过程的实时性。像生成过程的实时性。


技术研发人员:

黄星 郭益林 高远 申婷婷 宋丛礼 万鹏飞 卢海怡 杨林 徐智伟 张栋楠

受保护的技术使用者:

北京达佳互联信息技术有限公司

技术研发日:

2022.09.27

技术公布日:

2022/12/30

本文发布于:2023-01-02 18:00:48,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/50855.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语义   图像   目标   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图