视频对象分割模型的训练方法、视频对象分割方法和装置与流程

阅读: 评论:0



1.本公开涉及视频处理技术领域,尤其涉及一种视频对象分割模型的训练方法、视频对象分割方法和装置。


背景技术:



2.视频对象分割(video object segmentation,vos)是视频场景理解和视频编辑的基础能力,该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。vos技术是指给定某视频序列初始图像帧中的目标物体掩膜mask,在后续图像帧中预测出该目标物体的像素级别的分割掩膜mask结果。随着深度学习技术的发展,深度神经网络被应用于vos中,利用深度网络提取的高层语义特征能够从复杂场景中更准确地辨别出目标物体和背景,从而极大地提升了目标分割的效果,基于深度学习的vos技术也因此成为主流的技术之一。
3.现有的基于深度学习的vos技术,会先提取图像帧的深度特征,再利用两个并行的3
×
3卷积分支分别生成键特征和值特征,用于进行后续分割。但这样得到的键特征和值特征的特征表示能力较弱,对多种多样的场景不具备较好的泛化性能,进而影响视频对象分割算法的准确率。


技术实现要素:



4.本公开提供一种视频对象分割模型的训练方法、视频对象分割方法和装置,以至少解决相关技术中的如何提升视频对象分割算法的准确率的问题。
5.根据本公开的第一方面,提供了一种视频对象分割模型的训练方法,所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络,所述训练方法包括:获取视频样本,其中,所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理,得到第一键值对特征,其中,所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络,所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构;将所述第二图像帧输入所述查询编码网络进行编码处理,得到第二键值对特征,其中,所述查询编码网络包括第二键特征提取网络和第二值特征提取网络,所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构;基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜;根据所述第二图像帧的目标掩膜和所述预估目标掩膜,调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数,以训练得到目标视频对象分割模型。
6.可选地,所述视频对象分割模型中的所述第一键特征提取网络、所述第一值特征提取网络、所述第二键特征提取网络、所述第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,其中,在训练得到所述目标视频对象分割模型之后,所述训练方法还包括:将所述目标视频对象分割模型中的所述第一
目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。
7.可选地,所述第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。
8.可选地,所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络均包括至少两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。
9.可选地,所述将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,包括:将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络中的任一网络,确定为当前目标网络;将所述当前目标网络中的所述至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支;通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对所述当前目标网络中的各个卷积分支进行转换处理,得到所述当前目标网络中的各个卷积分支对应的转换卷积分支;根据卷积的线性运算特性和所述当前目标网络的结构,对所述当前目标网络中的各个所述转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为所述当前目标网络对应的转换网络。
10.可选地,所述基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜,包括:基于所述第一键值对特征和所述第二键值对特征,确定所述第二图像帧的目标掩膜的掩膜特征;将所述掩膜特征输入所述解码网络进行解码处理,得到所述第二图像帧的预估目标掩膜。
11.根据本公开的第二方面,提供了一种视频对象分割方法,所述视频对象分割方法包括:获取待分割视频的第一目标图像帧和第二目标图像帧,以及所述第一目标图像帧的目标掩膜;将所述第一目标图像帧、所述第二目标图像帧和所述第一目标图像帧的目标掩膜输入目标视频对象分割模型,得到所述第二目标图像帧的预估目标掩膜,其中,所述目标视频对象分割模型是通过根据本公开的实施例的训练方法训练得到的。
12.根据本公开的第三方面,提供了一种视频对象分割模型的训练装置,所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络,所述训练装置包括:获取单元,被配置为执行获取视频样本,其中,所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;第一编码单元,被配置为执行将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理,得到第一键值对特征,其中,所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络,所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构;第二编码单元,被配置为执行将所述第二图像帧输入所述查询编码网络进行编码处理,得到第二键值对特征,其中,所述查询编码网络包括第二键特征提
取网络和第二值特征提取网络,所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构;确定单元,被配置为执行基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜;调整单元,被配置为执行根据所述第二图像帧的目标掩膜和所述预估目标掩膜,调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数,以训练得到目标视频对象分割模型。
13.可选地,所述视频对象分割模型中的所述第一键特征提取网络、所述第一值特征提取网络、所述第二键特征提取网络、所述第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,所述训练装置还包括转换单元,被配置为执行在训练得到所述目标视频对象分割模型之后,将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。
14.可选地,所述第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。
15.可选地,所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络均包括至少两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。
16.可选地,所述转换单元还被配置为执行将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络中的任一网络,确定为当前目标网络;将所述当前目标网络中的所述至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支;通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对所述当前目标网络中的各个卷积分支进行转换处理,得到所述当前目标网络中的各个卷积分支对应的转换卷积分支;根据卷积的线性运算特性和所述当前目标网络的结构,对所述当前目标网络中的各个所述转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为所述当前目标网络对应的转换网络。
17.可选地,所述确定单元还被配置为执行基于所述第一键值对特征和所述第二键值对特征,确定所述第二图像帧的目标掩膜的掩膜特征;将所述掩膜特征输入所述解码网络进行解码处理,得到所述第二图像帧的预估目标掩膜。
18.根据本公开的第四方面,提供了一种视频对象分割装置,所述视频对象分割装置包括:获取单元,被配置为执行获取待分割视频的第一目标图像帧和第二目标图像帧,以及所述第一目标图像帧的目标掩膜;分割单元,被配置为执行将所述第一目标图像帧、所述第二目标图像帧和所述第一目标图像帧的目标掩膜输入目标视频对象分割模型,得到所述第二目标图像帧的预估目标掩膜,其中,所述目标视频对象分割模型是通过根据本公开的实施例的训练方法训练得到的。
19.根据本公开的第五方面,提供了一种电子设备,所述电子设备包括:至少一个处理
器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的视频对象分割模型的训练方法或视频对象分割方法。
20.根据本公开的第六方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的视频对象分割模型的训练方法或视频对象分割方法。
21.根据本公开的第七方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的视频对象分割模型的训练方法或视频对象分割方法。
22.本公开的实施例提供的技术方案至少带来以下有益效果:
23.根据本公开的实施例的视频对象分割模型的训练方法、视频对象分割方法和装置,通过在记忆编码网络和查询编码网络中采用多分支结构来提取键值对特征,可增强相应网络的表征能力,提升模型对图像中的目标物体和背景的区分能力,进而提升算法的鲁棒性和泛化性,提升视频对象分割算法的准确率。
24.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
26.图1示出根据本公开的示例性实施例的视频对象分割模型的结构示意图;
27.图2示出记忆编码网络和查询编码网络的结构示意图;
28.图3示出根据本公开的示例性实施例的视频对象分割模型的训练方法的流程图;
29.图4示出根据本公开的示例性实施例的待训练的记忆编码网络和查询编码网络的结构示意图;
30.图5示出根据本公开的示例性实施例的视频对象分割方法的流程图;
31.图6示出根据本公开的示例性实施例的视频对象分割模型的训练装置的框图;
32.图7示出根据本公开的示例性实施例的视频对象分割装置的框图。
33.图8示出根据本公开的示例性实施例的电子设备的框图。
具体实施方式
34.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
35.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
36.在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况:(1)包括a;(2)包括b;(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
37.视频对象分割(vos)是视频场景理解和视频编辑的基础能力,该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。vos技术是指给定某视频序列初始图像帧中的目标物体掩膜mask,在后续图像帧中预测出该目标物体的像素级别的分割掩膜mask结果。随着深度学习技术的发展,深度神经网络被应用于vos中,利用深度网络提取的高层语义特征能够从复杂场景中更准确地辨别出目标物体和背景,从而极大地提升了目标分割的效果,基于深度学习的vos技术也因此成为主流的技术之一。
38.现有的基于深度学习的vos技术,应用视频对象分割模型对待分割视频进行目标分割。参照图1,视频对象分割模型包括记忆编码网络(memory encoder,对应于图1中的encm)、查询编码网络(query encoder,对应于图1中的encq)、时空记忆网络(space-time memory,有时也称为space-time memory read)和解码网络(decoder,对应于图1中的dec)。待分割视频以视频流的形式存在,视频流中包含多个按序排列的图像帧,此前已经完成分割的图像帧以及这些图像帧对应的目标物体掩膜(mask)被保存在一个外部存储库(external memory bank)中。
39.当预测当前图像帧的目标掩膜时,首先,从上述的外部存储库中选出多个图像帧及其目标掩膜。选择图像帧的方式是多样的,例如可以固定选择视频流的第一个图像帧和当前图像帧的前一个图像帧,然后在二者之间每隔若干图像帧选择一帧,又如可以由用户逐帧指定。选中的图像帧记为记忆图像帧。除视频流的第一个图像帧的目标掩膜是给定的以外,其他图像帧的目标掩膜都是通过预测得到。将这些带有目标掩膜的记忆图像帧分别输入到记忆编码网络中,得到多个记忆图像帧各自对应的键特征(key)和值特征(value),这些键特征和值特征经拼接层(concat)拼接在一起,形成多个记忆图像帧的键特征构成的键特征图,以及多个记忆图像帧的值特征构成的值特征图,键特征图和值特征图共同构成了键值对特征。其中,键特征的作用是用来寻址,而值特征保存了一些用来生成目标掩膜的更加细节的信息。同时,将当前图像帧输入到查询编码网络中,得到当前图像帧的键特征和值特征,构成当前图像帧的键值对特征。应理解,记忆编码网络输出的键值对特征与查询编码网络输出的键值对特征维度相同,不同之处在于,前者会多一个时间维度,用来表示各个记忆图像帧的时间。
40.然后,在时空记忆网络中,对记忆编码网络输出的多个记忆图像帧的键特征构成的矩阵,以及查询编码网络输出的当前图像帧的键特征,进行内积运算,得到当前图像帧与多个记忆图像帧的相似度图,相当于采用了一种时空的注意力机制,为不同的时间和空间区域的值特征分配权重;将这个相似度图与记忆编码网络输出的多个记忆图像帧的值特征构成的矩阵相乘,作为中间结果;再将该中间结果与查询编码网络输出的当前图像帧的值特征进行拼接,得到预估当前图像帧的目标掩膜所需的掩膜特征。
41.最后,由解码网络利用掩膜特征进行当前图像帧的目标掩膜的预估,得到当前图像帧的预估目标掩膜。具体地,可将查询编码网络的中间层提取的特征以跳跃连接的形式
连接到解码网络中,用于补充细节信息。
42.需要说明的是,在应用该模型进行视频对象分割时,就将预估目标掩膜作为分割结果。在训练该模型时,就基于预估目标掩膜以及样本数据中给出的当前图像帧的目标掩膜,计算损失值,通过该损失值调整模型的参数,实现模型的训练。
43.其中,记忆编码网络和查询编码网络的结构如图2所示,包括深度学习主干网络和两个并行的单分支结构。图2中的深度学习主干网络为resnet50,包括一个卷积层conv1和三个残差层res2、res3、res4,各层左侧的数字代表通道数,右侧的数字代表输出特征的分辨率降低为原来的1/2、1/4等,随着特征分辨率的降低,其感受野升高,因而能够提取到更高的语义信息。单分支结构具体为3
×
3卷积分支(conv 3
×
3),左右两侧的数字含义同前。提取键值对特征时,先经过深度学习主干网络提取深度特征,然后分开两个并行的单分支结构,各自通过一个3x3的卷积层生成各自对应的键特征和值特征。然而由于生成键特征和值特征时,仅仅使用了一个3x3的卷积层,导致得到的键特征和值特征的特征表示能力较弱,对多种多样的场景不具备较好的泛化性能,进而影响视频对象分割算法的整体性能。
44.根据本公开的示例性实施例的视频对象分割模型的训练方法、视频对象分割方法和装置,通过在记忆编码网络和查询编码网络中采用多分支结构来提取键值对特征,可增强相应网络的表征能力,提升模型对图像中的目标物体和背景的区分能力,进而提升算法的鲁棒性和泛化性,提升视频对象分割算法的整体性能。
45.下面,将参照图1至图8具体描述根据本公开的示例性实施例的视频对象分割模型的训练方法、视频对象分割方法、视频对象分割模型的训练装置和视频对象分割装置。
46.图3示出根据本公开的示例性实施例的视频对象分割模型的训练方法的流程图。应理解,根据本公开的示例性实施例的视频对象分割模型的训练方法可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备中实现,也可以在诸如服务器的设备中实现训练。
47.参照图3,在步骤301,获取视频样本,其中,视频样本包括携带有目标掩膜的第一图像帧和第二图像帧。第一图像帧对应于上文的记忆图像帧,第二图像帧对应于上文的当前图像帧。
48.在步骤302,将第一图像帧及第一图像帧的目标掩膜输入记忆编码网络进行编码处理,得到第一键值对特征,其中,记忆编码网络包括第一键特征提取网络和第一值特征提取网络,第一键特征提取网络和第一值特征提取网络均为多分支结构。
49.在步骤303,将第二图像帧输入查询编码网络进行编码处理,得到第二键值对特征,其中,查询编码网络包括第二键特征提取网络和第二值特征提取网络,第二键特征提取网络和第二值特征提取网络均为多分支结构。
50.在步骤304,基于第一键值对特征和第二键值对特征,结合解码网络,确定第二图像帧的预估目标掩膜。
51.可选地,步骤304包括:基于第一键值对特征和第二键值对特征,确定第二图像帧的目标掩膜的掩膜特征;将掩膜特征输入解码网络进行解码处理,得到第二图像帧的预估目标掩膜。确定掩膜特征的步骤可利用上文中描述的时空记忆网络实现,其具体实现过程在此不再赘述。通过先基于两个键值对特征确定掩膜特征,再解码得到第二图像帧的预估目标掩膜,能够先采用相同的数据形式进行计算,保障了可行性和得到的预估目标掩膜的准确性。
52.在步骤305,根据第二图像帧的目标掩膜和预估目标掩膜,调整记忆编码网络、查询编码网络、解码网络的参数,以训练得到目标视频对象分割模型。
53.可选地,步骤305包括:根据第二图像帧的目标掩膜和预估目标掩膜,确定损失值;根据损失值,调整记忆编码网络、查询编码网络、解码网络的参数,以训练得到目标视频对象分割模型。计算损失值所使用的损失函数以及调整网络参数的方法,可以是视频对象分割算法中通用的损失函数和参数优化算法,本公开对此不作限制。
54.对于步骤302和步骤303,通过在记忆编码网络和查询编码网络中采用上述的多分支结构来提取键值对特征,可增强相应网络的表征能力,提升步骤305训练得到的模型对图像中的目标物体和背景的区分能力,进而提升算法的鲁棒性和泛化性,提升视频对象分割算法的整体性能。
55.需说明的是,记忆编码网络和查询编码网络的深度学习主干网络,除采用图2所示的resnet50外,也可以采用mobilenetv2/v3等其他基础网络,本公开对此不作限制。
56.接下来对记忆编码网络和查询编码网络进行详细介绍。
57.可选地,视频对象分割模型中的第一键特征提取网络、第一值特征提取网络、第二键特征提取网络、第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,即第一目标网络、第二目标网络、第三目标网络、第四目标网络分别对第一键特征提取网络、第一值特征提取网络、第二键特征提取网络、第二值特征提取网络进行参数调优后得到的网络。其中,在步骤305之后,根据本公开的示例性实施例的训练方法还包括:将目标视频对象分割模型中的第一目标网络、第二目标网络、第三目标网络、第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。通过将训练好的模型中的上述多分支结构转换为单分支结构,能够令多分支结构仅在训练模型时存在,简化推理(即应用模型)时使用的模型结构,也就是解耦训练时和推理时的架构,训练一个局部多分支的模型,在训练完毕后将该局部多分支模型等价转换为局部单分支模型,并在推理时部署运行这个局部单分支模型。这样的转换既能够增强模型的表征能力,又不会因采用多分支结构而延长计算耗时、增加内存占用,可令模型算法高效,并节约内存。
58.可选地,第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。也就是说,第一目标网络、第二目标网络、第三目标网络、第四目标网络作为多分支结构,可以采用并行的单分支构成的多分支结构(即为包括至少两个单分支的并行网络),也可以采用串行的单分支构成的多分支结构(即为包括至少两个单分支的串行网络),还可以采用同时具备并行和串行的单分支的复合多分支结构(即为包括至少三个单分支的混合网络),以提升记忆编码网络和查询编码网络的多分支结构的设计灵活性,满足不同的表征能力需求。
59.可选地,第一目标网络、第二目标网络、第三目标网络、第四目标网络均包括至少
两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。其中,卷积核尺寸是指卷积核的高度和宽度,也就是卷积核的矩阵的行数和列数,卷积核的高度和宽度是相等的,所以卷积核尺寸通常用n
×
n表示,n代表卷积核的高度和宽度,例如3
×
3。恒等映射是指某一集合到该集合自身的映射,即该映射的输入和输出相等。通过采用至少两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支来构成多分支结构,能够相对于现有的记忆编码网络和查询编码网络的单分支结构,提取更丰富的信息,从而提升模型的表征能力,兼顾了训练中的计算负荷控制和表征能力提升。应理解,结合上文,在同一个目标网络中,这些卷积分支和恒等映射分支可并行排列,也可串行排列,还可混合排列,本公开对此不作限制。
60.可选地,将目标视频对象分割模型中的第一目标网络、第二目标网络、第三目标网络、第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,包括如下步骤:
61.首先,将目标视频对象分割模型中的第一目标网络、第二目标网络、第三目标网络、第四目标网络中的任一网络,确定为当前目标网络。应理解,对于第一目标网络、第二目标网络、第三目标网络、第四目标网络,可以按需选择对其中的哪些网络进行单分支结构的转换,例如对每个网络都进行单分支结构的转换。由于每次转换针对的是一个网络,所以将之作为当前目标网络。对于需要转换其中的至少两个网络的情况,可以逐个转换,也就是逐个作为当前目标网络,也可以同时转换,也就是分别作为当前目标网络,并行地执行各自的转换步骤,本公开对此不作限制。
62.然后,将当前目标网络中的至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支。该步骤可实现恒等映射分支到卷积分支的转换,保证了当前目标网络中的各个单分支均为卷积分支,确保了分支结构类型的一致性。
63.接下来,通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对当前目标网络中的各个卷积分支进行转换处理,得到当前目标网络中的各个卷积分支对应的转换卷积分支。由于采用了统一的预设尺寸,可以令各个卷积分支的卷积核尺寸一致,保障了后续可利用卷积的线性运算特性,进一步完成网络转换。应理解,前一步得到的单位卷积分支也会经过上述转换处理,通过先在前一步将恒等映射分支转换为单位卷积分支,可在这一步对所有分支一起进行转换处理,使得从多分支结构到单分支结构的整个转换过程安排更合理,不必针对不同的分支反复执行这一步的转换处理,提升转换效率。需说明的是,为保证可以通过填充卷积核的矩阵的方式来转换卷积分支,预设尺寸需大于或等于当前目标网络的最大卷积核尺寸,其中,最大卷积核尺寸是当前目标网络中的各个卷积分支的卷积核尺寸中的最大值。应理解,当预设尺寸等于最大卷积核尺寸时,具备最大卷积核尺寸的卷积分支就可直接作为自身对应的转换卷积分支,也就是无需真的执行填充卷积核的矩阵的操作。
64.最后,根据卷积的线性运算特性和当前目标网络的结构,对当前目标网络中的各个转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为当前目标网络对应的转换网络。由于卷积分支的卷积核参数、输入、输出之间具备线性关系,并行网络的输出又等于其中各个分支的输出之和,串行网络中前序分支的输出又会映射为后序分支的输入,所以可以由此将多分支结构网络中的各个单分支的卷积核参数进行线性运算处理,得到与多分支结构具备相同输出的单分支结构网络,实现等价转换。
65.图4示出根据本公开的一个具体实施例的待训练的记忆编码网络和查询编码网络的结构示意图。
66.参照图4,在该具体实施例中,训练中所使用的每个多分支结构均包括三个并行的单分支,分别为3
×
3卷积分支、1
×
1卷积分支和恒等映射分支,而现有的记忆编码网络和查询编码网络中用于生成键特征和值特征的分支常为3
×
3卷积分支,所以该具体实施例中的多分支结构相当于是在现有结构基础上添加了并行的1
×
1卷积分支和恒等映射分支。
67.对应于这样的多分支结构,相应地,将第一目标网络、第二目标网络、第三目标网络、第四目标网络分别转换为单分支结构时,其步骤具体包括:针对当前目标网络,将恒等映射分支转换为以单位矩阵为卷积核的1
×
1卷积分支;通过用0填充卷积核的矩阵,将现有的1
×
1卷积分支(包括原来的1
×
1卷积分支和恒等映射分支转换后得到的1
×
1卷积分支),均转换为3
×
3卷积分支;将现有的3
×
3卷积分支(包括原来的3
×
3卷积分支、原来的1
×
1卷积分支转换后得到的3
×
3卷积分支、恒等映射分支转换后得到的3
×
3卷积分支)的卷积核参数对应相加,得到由多分支结构转换的单分支结构,即当前目标网络对应的转换网络。
68.具体来说,卷积的线性运算特性就是可加性。假设三个3
×
3卷积分支的卷积核参数分别为w1、w2、w3,则满足:
69.conv(x,w1)+conv(x,w2)+conv(x,w3)=conv(x,w1+w2+w3)。
70.也就是说,若将这三个卷积分支的卷积核参数相加,得到另一个卷积分支,那么在先的三个卷积分支的输出之和(具体是各个通道的输出对应求和),与在后得到的另一个卷积分支的输出相等。
71.基于此,可以将1
×
1卷积分支看作一个卷积核中有很多0的特殊的3
×
3卷积分支,而恒等映射分支是一个以单位矩阵为卷积核的特殊的1
×
1卷积分支,也就可以看作一个特殊的3
×
3卷积分支。
72.应理解,对于当前目标网络为串行网络的情况,得到单位卷积分支和转换卷积分支的方式不变,此后,可同样利用线性运算特性来将多个单分支的卷积核参数转换为等价的单个卷积分支的卷积核参数。作为示例,假设两个3
×
3卷积分支的卷积核参数分别为a1、b1和a2、b2,则满足:
73.conv(conv(x,a1,b1),a2,b2)=conv(x,a2*a1,a2*b1+b2)。
74.其中,conv(x,a1,b1)=a1*x+b1,所以conv(conv(x,a1,b1),a2,b2)=a2*(a1*x+b1)+b2=a2*a1*x+a2*b1+b2,转换得到的等价的单个卷积分支的卷积核参数为a2*a1、a2*b1+b2。
75.若当前目标网络是包括多个单分支的串行网络,或当前目标网络是混合网络,可据此同理进行转换,将多个单分支构成的多分支结构转换为等价的单分支结构,在此不一一列举。
76.图5示出根据本公开的示例性实施例的视频对象分割方法的流程图。应理解,根据本公开的示例性实施例的视频对象分割方法可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备中实现,也可以在诸如服务器的设备中实现。
77.参照图5,在步骤501,获取待分割视频的第一目标图像帧和第二目标图像帧,以及第一目标图像帧的目标掩膜。
78.在步骤502,将第一目标图像帧、第二目标图像帧和第一目标图像帧的目标掩膜输
入目标视频对象分割模型,得到第二目标图像帧的预估目标掩膜。其中,目标视频对象分割模型是通过根据本公开的示例性实施例的视频对象分割模型的训练方法训练得到的,因而具有该训练方法的全部有益技术效果,在此不再赘述。
79.图6示出根据本公开的示例性实施例的视频对象分割模型的训练装置的框图。视频对象分割模型包括记忆编码网络、查询编码网络和解码网络。应理解,根据本公开的示例性实施例的视频对象分割模型的训练装置可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备中以软件、硬件或软件硬件结合的方式实现,也可以在诸如服务器的设备中实现训练。
80.参照图6,视频对象分割模型的训练装置600包括获取单元601、第一编码单元602、第二编码单元603、确定单元604、调整单元605。
81.获取单元601可获取视频样本,其中,视频样本包括携带有目标掩膜的第一图像帧和第二图像帧。
82.第一编码单元602可将第一图像帧及第一图像帧的目标掩膜输入记忆编码网络进行编码处理,得到第一键值对特征,其中,记忆编码网络包括第一键特征提取网络和第一值特征提取网络,第一键特征提取网络和第一值特征提取网络均为多分支结构。
83.第二编码单元603可将第二图像帧输入查询编码网络进行编码处理,得到第二键值对特征,其中,查询编码网络包括第二键特征提取网络和第二值特征提取网络,第二键特征提取网络和第二值特征提取网络均为多分支结构。
84.确定单元604可基于第一键值对特征和第二键值对特征,结合解码网络,确定第二图像帧的预估目标掩膜。
85.可选地,确定单元604还可基于第一键值对特征和第二键值对特征,确定第二图像帧的目标掩膜的掩膜特征;将掩膜特征输入解码网络进行解码处理,得到第二图像帧的预估目标掩膜。
86.调整单元605可根据第二图像帧的目标掩膜和预估目标掩膜,调整记忆编码网络、查询编码网络、解码网络的参数,以训练得到目标视频对象分割模型。
87.可选地,视频对象分割模型中的第一键特征提取网络、第一值特征提取网络、第二键特征提取网络、第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,训练装置600还包括转换单元(图中未示出),可在训练得到目标视频对象分割模型之后,将目标视频对象分割模型中的第一目标网络、第二目标网络、第三目标网络、第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。
88.可选地,第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。
89.可选地,第一目标网络、第二目标网络、第三目标网络、第四目标网络均包括至少
两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。
90.可选地,转换单元还可将目标视频对象分割模型中的第一目标网络、第二目标网络、第三目标网络、第四目标网络中的任一网络,确定为当前目标网络;将当前目标网络中的至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支;通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对当前目标网络中的各个卷积分支进行转换处理,得到当前目标网络中的各个卷积分支对应的转换卷积分支;根据卷积的线性运算特性和当前目标网络的结构,对当前目标网络中的各个转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为当前目标网络对应的转换网络。
91.图7示出根据本公开的示例性实施例的视频对象分割装置的框图。应理解,根据本公开的示例性实施例的视频对象分割装置可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备中以软件、硬件或软件硬件结合的方式实现,也可以在诸如服务器的设备中实现。
92.参照图7,视频对象分割装置700包括获取单元701、分割单元702。
93.获取单元701可获取待分割视频的第一目标图像帧和第二目标图像帧,以及第一目标图像帧的目标掩膜。
94.分割单元702可将第一目标图像帧、第二目标图像帧和第一目标图像帧的目标掩膜输入目标视频对象分割模型,得到第二目标图像帧的预估目标掩膜。其中,目标视频对象分割模型是通过根据本公开的示例性实施例的视频分割模型的训练方法训练得到的。
95.关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
96.图8是根据本公开的示例性实施例的电子设备的框图。
97.参照图8,电子设备800包括至少一个存储器801和至少一个处理器802,所述至少一个存储器801中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器802执行时,执行根据本公开的示例性实施例的视频对象分割模型的训练方法或视频对象分割方法。
98.作为示例,电子设备800可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备800并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
99.在电子设备800中,处理器802可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
100.处理器802可运行存储在存储器801中的指令或代码,其中,存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
101.存储器801可与处理器802集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器801可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合,或者可例如通
过i/o端口、网络连接等互相通信,使得处理器802能够读取存储在存储器中的文件。
102.此外,电子设备800还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。
103.根据本公开的示例性实施例,还可提供一种计算机可读存储介质,当计算机可读存储介质中的指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的示例性实施例的视频对象分割模型的训练方法或视频对象分割方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
104.根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机指令,计算机指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的示例性实施例的视频对象分割模型的训练方法或视频对象分割方法。
105.根据本公开的示例性实施例的视频对象分割模型的训练方法、视频对象分割方法和装置,通过在记忆编码网络和查询编码网络中采用多分支结构来提取键值对特征,可增强相应网络的表征能力,提升模型对图像中的目标物体和背景的区分能力,进而提升算法的鲁棒性和泛化性,提升视频对象分割算法的准确率。
106.此外,通过将训练好的模型中的上述多分支结构转换为单分支结构,能够令多分支结构仅在训练模型时存在,简化推理时使用的模型结构,也就是解耦训练时和推理时的架构,训练一个局部多分支的模型,在训练完毕后将该局部多分支模型等价转换为局部单分支模型,并在推理时部署运行这个局部单分支模型。这样的转换既能够增强模型的表征能力,又不会因采用多分支结构而延长计算耗时、增加内存占用,可令模型算法高效,并节约内存。
107.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
108.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:


1.一种视频对象分割模型的训练方法,其特征在于,所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络,所述训练方法包括:获取视频样本,其中,所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理,得到第一键值对特征,其中,所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络,所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构;将所述第二图像帧输入所述查询编码网络进行编码处理,得到第二键值对特征,其中,所述查询编码网络包括第二键特征提取网络和第二值特征提取网络,所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构;基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜;根据所述第二图像帧的目标掩膜和所述预估目标掩膜,调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数,以训练得到目标视频对象分割模型。2.如权利要求1所述的训练方法,其特征在于,所述视频对象分割模型中的所述第一键特征提取网络、所述第一值特征提取网络、所述第二键特征提取网络、所述第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,其中,在训练得到所述目标视频对象分割模型之后,所述训练方法还包括:将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。3.如权利要求2所述的训练方法,其特征在于,所述第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;所述第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。4.如权利要求2所述的训练方法,其特征在于,所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络均包括至少两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。5.如权利要求4所述的训练方法,其特征在于,所述将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,包括:将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络中的任一网络,确定为当前目标网络;将所述当前目标网络中的所述至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支;
通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对所述当前目标网络中的各个卷积分支进行转换处理,得到所述当前目标网络中的各个卷积分支对应的转换卷积分支;根据卷积的线性运算特性和所述当前目标网络的结构,对所述当前目标网络中的各个所述转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为所述当前目标网络对应的转换网络。6.如权利要求1所述的训练方法,其特征在于,所述基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜,包括:基于所述第一键值对特征和所述第二键值对特征,确定所述第二图像帧的目标掩膜的掩膜特征;将所述掩膜特征输入所述解码网络进行解码处理,得到所述第二图像帧的预估目标掩膜。7.一种视频对象分割方法,其特征在于,所述视频对象分割方法包括:获取待分割视频的第一目标图像帧和第二目标图像帧,以及所述第一目标图像帧的目标掩膜;将所述第一目标图像帧、所述第二目标图像帧和所述第一目标图像帧的目标掩膜输入目标视频对象分割模型,得到所述第二目标图像帧的预估目标掩膜,其中,所述目标视频对象分割模型是通过如权利要求1到6中的任一权利要求所述的训练方法训练得到的。8.一种视频对象分割模型的训练装置,其特征在于,所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络,所述训练装置包括:获取单元,被配置为执行获取视频样本,其中,所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;第一编码单元,被配置为执行将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理,得到第一键值对特征,其中,所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络,所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构;第二编码单元,被配置为执行将所述第二图像帧输入所述查询编码网络进行编码处理,得到第二键值对特征,其中,所述查询编码网络包括第二键特征提取网络和第二值特征提取网络,所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构;确定单元,被配置为执行基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜;调整单元,被配置为执行根据所述第二图像帧的目标掩膜和所述预估目标掩膜,调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数,以训练得到目标视频对象分割模型。9.一种视频对象分割装置,其特征在于,所述视频对象分割装置包括:获取单元,被配置为执行获取待分割视频的第一目标图像帧和第二目标图像帧,以及所述第一目标图像帧的目标掩膜;分割单元,被配置为执行将所述第一目标图像帧、所述第二目标图像帧和所述第一目
标图像帧的目标掩膜输入目标视频对象分割模型,得到所述第二目标图像帧的预估目标掩膜,其中,所述目标视频对象分割模型是通过如权利要求1到6中的任一权利要求所述的训练方法训练得到的。10.一种电子设备,其特征在于,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的视频对象分割模型的训练方法或如权利要求7所述的视频对象分割方法。11.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的视频对象分割模型的训练方法或如权利要求7所述的视频对象分割方法。

技术总结


本公开关于一种视频对象分割模型的训练方法、视频对象分割方法和装置,训练方法包括:获取视频样本,其中,视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;将第一图像帧及第一图像帧的目标掩膜输入记忆编码网络进行编码处理,得到第一键值对特征;将第二图像帧输入查询编码网络进行编码处理,得到第二键值对特征,其中,记忆编码网络和查询编码网络均包括用于提取键特征的多分支结构和用于提取值特征的多分支结构;基于第一键值对特征和第二键值对特征,结合解码网络,确定第二图像帧的预估目标掩膜;根据第二图像帧的目标掩膜和预估目标掩膜,调整记忆编码网络、查询编码网络、解码网络的参数,以训练得到目标视频对象分割模型。象分割模型。象分割模型。


技术研发人员:

王伟农 戴宇荣 陶鑫

受保护的技术使用者:

北京达佳互联信息技术有限公司

技术研发日:

2022.10.11

技术公布日:

2022/12/30

本文发布于:2023-01-01 20:07:36,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/50305.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   所述   目标   分支
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图