1.本技术涉及计算机技术,尤其涉及一种视频行为识别方法、系统、装置及设备。
背景技术:
2.视频行为识别技术在智能监控、人机交互、视频序列理解、医疗健康、智能教育等众多领域都有很广的应用。
3.传统的视频行为识别模型是基于视频中目标物体的姿态关键点来建模
动作特征,特征通常是人工设计的;基于深度学习的视频行为识别模型,通过卷积神经网络来建模动作特征。但是,这些行为识别方法未针对时空上的移动信息进行建模,欠缺对于小物体以及快速动作等精细动作特征的建模能力,使得在实际应用场景下行为识别性能较差。
技术实现要素:
4.本技术提供一种视频行为识别方法、系统、装置及设备,用以解决现有的行为识别方法行为识别性能较差的问题。
5.一方面,本技术提供一种视频行为识别方法,包括:
6.获取待识别的视频数据,所述视频数据包含多个视频帧;
7.将所述多个视频帧输入行为识别模型,通过所述行为识别模型提取所述多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间
尺度;
8.对所述多层的动作特征分别进行
相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;
9.根据所述融合特征,进行行为分类识别,得到所述视频数据中目标的行为识别结果。
10.另一方面,本技术提供一种视频行为识别系统,包括:
11.端侧设备,用于获取待识别的视频,对所述视频进行采样得到多个视频帧;
12.云侧设备,用于将所述多个视频帧输入行为识别模型,通过所述行为识别模型提取所述多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据所述融合特征,进行行为分类识别,得到所述视频数据中目标的行为识别结果;
13.所述云侧设备还用于向所述端侧设备发送所述行为识别结果;
14.所述端侧设备还用于根据所述行为识别结果进行后处理,并输出后处理结果。
15.另一方面,本技术提供一种视频行为识别装置,包括:
16.视频数据获取模块,用于获取待识别的视频数据,所述视频数据包含多个视频帧;
17.特征提取模块,用于将所述多个视频帧输入行为识别模型,通过所述行为识别模
型提取所述多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;
18.相关性模块,用于对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;
19.分类识别模块,用于根据所述融合特征,进行行为分类识别,得到所述视频数据中目标的行为识别结果。
20.另一方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
21.所述存储器存储计算机执行指令;
22.所述处理器执行所述存储器存储的计算机执行指令,以实现上述任一方面所述的视频行为识别方法。
23.另一方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的视频行为识别方法。
24.另一方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方面所述的视频行为识别方法。
25.本技术提供的视频行为识别方法、系统、装置及设备,通过将所述多个视频帧输入行为识别模型的特征提取模块进行动作特征提取,所述特征提取模块包含多层用于提取不同空间尺度的动作特征的特征提取层;对多个特征提取层提取的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,各层的相关性特征捕捉了目标对象的移动信息。进一步地,通过融合多层的相关性特征得到多尺度融合的相关性特征,能够得到一个稠密的相关性特征场,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快速移动的特征信息;进一步地,通过将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,使得动作特征中包含小物体的移动信息和快速动作的移动信息等更加精细的特征,根据融合特征进行行为分类识别得到视频数据中目标的行为识别结果,提升了视频行为识别的效果和性能,提升了行为识别模型在实际应用场景中的鲁棒性。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
27.图1为本技术所适用的一示例网络架构的示意图;
28.图2为本技术所适用的另一示例网络架构的示意图;
29.图3为本技术一示例性实施例提供的视频行为识别方法流程图;
30.图4为本技术一示例性实施例提供的一种视频行为识别的整体框架的示例图;
31.图5为本技术另一示例性实施例提供的一种视频行为识别的整体框架的示例图;
32.图6为本技术又一示例性实施例提供的一种视频行为识别的整体框架的示例图;
33.图7为本技术另一示例性实施例提供的视频行为识别方法流程图;
34.图8为本技术一示例性实施例提供的行为识别模型训练方法流程图;
35.图9为本技术一示例性实施例提供的视频行为识别系统的示意图;
36.图10为本技术一示例性实施例提供的视频行为识别的方法流程图;
37.图11为本技术一示例实施例提供的视频行为识别装置的结构示意图;
38.图12为本技术另一示例实施例提供的视频行为识别装置的结构示意图;
39.图13为本技术一示例实施例提供的电子设备的结构示意图。
40.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
41.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
42.首先对本技术所涉及的名词进行解释:
43.视频行为识别:指从视频数据中识别出目标物体的一个或多个动作行为。
44.动作建模:指视频中物体的移动信息进行分析和学习。
45.视觉相关性:指图像纹理之间的相似度,一般是以像素为计算单位。
46.空间尺度:指特征的空间分辨率。
47.传统的视频行为识别模型是基于视频中目标物体的姿态关键点来建模动作特征,特征通常是人工设计的;基于深度学习的视频行为识别模型,通过卷积神经网络来建模动作特征。
48.但是,这些行为识别方法未针对时空上的移动信息进行建模,欠缺对于小物体的以及快速动作等精细动作特征的建模能力,使得在实际应用场景下行为识别的精准度低、效果差。
49.一种基于深度学习的视频行为识别方法应用了视觉相关性分析操作,在图像层面进行相关性分析来学习视频中物体的移动信息,但是在后续特征提取过程中经过多次下采样操作不断减小特征(移动信息)分辨率,使得小物体在深层的位置信息消失,空间特征和语义特征不匹配,仍然欠缺对小物体和快速移动物体的动作建模能力,在实际应用场景下行为识别的性能较差。
50.针对上述技术问题,本技术提供一种视频行为识别方法,基于训练好的视频行为识别模型实现视频行为识别,该视频行为识别模型中包含多层用于提取不同空间尺度的动作特征的特征提取层,不同特征提取层配置的空间尺度不同,所提取得到的动作特征的空间尺度不同。该视频行为识别方法通过对多个特征提取层提取的动作特征分别进行相关性分析得到多层的相关性特征,任一层的相关性特征与该层的动作特征具有相同的空间尺度,不同层的相关性特征的空间尺度不同。进一步地,通过融合多层的相关性特征得到多尺度融合的相关性特征,能够得到一个稠密的相关性特征场,通过这个稠密的相关性特征场,使得视频行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快速的移动;进一步地,通过将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,根据融
合特征,进行行为分类识别,得到视频数据中目标的行为识别结果,能够提升模型在实际应用场景中的鲁棒性,提高视频行为识别的效果和性能。
51.本实施例提供的视频行为识别方法,能够应用于安防、人机交互、视频理解、医疗健康、智能教育、智能交通等众多领域中,具有非常广泛的应用。
52.示例性地,应用于安防领域时的一个示例应用场景为智能监控场景:基于监测到的视频,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中出现的目标对象的行为动作,得到行为识别结果。进一步地,基于行为识别结果,可以分析确定视频中的目标对象是否做出或被做出危险行为(如盗窃、打斗、偷窥等),从而可以自动识别危险行为,并进行预警处理。
53.示例性地,应用于人机交互领域时的一个示例应用场景如下:基于包含交互对象的输入视频,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中交互对象做出的行为动作(如手势、身体姿态动作等),得到行为识别结果。进一步地,基于行为识别结果,可以确定交互对象的动作意图,并针对交互对象的动作意图生成对应的反馈信息,并向交互对象做出反馈。
54.示例性地,应用于智能教育领域时的一个示例性应用场景如下:基于在线或离线的教师讲课的视频,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中教师的行为动作,得到行为识别结果。进一步地,基于行为识别结果,可以分析确定教师是否做出了预设行为(如不符合行为规范的行为等),从而可以在线进行警示、或者提供给相关人员进行线下处理,以规范教师在讲课时的行为。
55.示例性地,应用于智能交通领域时的一个示例性应用场景如下:基于路侧单元和/或车载摄像头采集的驾驶员驾驶车辆的视频,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中驾驶员的行为动作,得到行为识别结果。进一步地,基于行为识别结果,可以分析确定驾驶员在驾驶过程中是否做出了预设的不安全驾驶行为,如疲劳驾驶、抽烟、打电话等,从而可以在线对驾驶员进行警示、或者提供给相关人员进行线下处理,以规范驾驶员安全驾驶行为,提高驾驶安全性。
56.另外,在应用于不同的应用场景/领域时,对视频数据进行采样的规则可以灵活地配置,行为识别模型利用具体应该用场景/领域的数据集进行训练确定。
57.图1为本技术所适用的一示例网络架构的示意图。如图1所示,该网络架构包括负责进行视频行为识别的第一电子设备,以及负责采集并向第一电子设备提供视频数据的第二电子设备。该第二电子设备还负责执行对行为识别结果的后处理。
58.其中,第一电子设备可以是部署在云端的服务器集、或者本地具有计算能力的设备、或者物联网(internet of things,简称iot)设备等。该第一电子设备上存储有经过特定应用场景/领域的训练集训练完成的行为识别模型。通过第一电子设备中预设运算逻辑,第一电子设备可实现使用行为识别模型对视频数据中采样得到的多个视频帧进行行为识别,得到行为识别结果。基于行为识别结果,第一电子设备可以反馈给第二电子设备。
59.第二电子设备具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑等终端,服务器,物联网设备等。
60.通过与第一电子设备的通信交互,用户可以通过第二电子设备向第一电子设备提交采集的视频数据。第一电子设备可以从视频数据中采样得到多个视频帧,将多个视频帧
输入行为识别模型的特征提取模块进行动作特征提取,特征提取模块包含多层用于提取不同空间尺度的动作特征的特征提取层;对多个特征提取层提取的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,得到融合特征;并根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果。第一电子设备将行为识别结果反馈给第二电子设备,第二电子设备可以基于后处理规则对行为识别结果进行后处理,输出后处理后得到的最终结果。
61.示例性地,以应用于智能教育领域时的一个示例性应用场景为例,第二电子设备可以为采集并存储教师讲课视频的设备,在进行在线行为识别时,第二电子设备将教师讲课的视频数据发送至第一电子设备。第一电子设备获取教师讲课的视频数据,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中教师的行为动作,得到行为识别结果,并将行为识别结果反馈至第二电子设备。进一步地,第二电子设备根据行为识别结果,分析确定教师是否做出了预设行为(如不符合行为规范的行为等),从而可以在线进行警示、或者提供给相关人员进行线下处理,以规范教师在讲课时的行为。
62.图2为本技术所适用的另一示例网络架构的示意图。如图2所示,该网络架构包括负责进行视频行为识别的第一电子设备,以及负责采集并向第一电子设备提供视频数据的第二电子设备。该第一电子设备还负责执行对行为识别结果的后处理。
63.其中,第一电子设备可以是部署在云端的服务器集、或者本地具有计算能力的设备、或者物联网(internet of things,简称iot)设备等。该第一电子设备上存储有经过特定应用场景/领域的训练集训练完成的行为识别模型。通过第一电子设备中预设运算逻辑,第一电子设备可实现使用行为识别模型对视频数据中采样得到的多个视频帧进行行为识别,得到行为识别结果。进一步地,第一电子设备基于后处理规则对行为识别结果进行后处理,将后处理得到的最终结果反馈给第二电子设备。
64.第二电子设备具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑等终端,服务器,物联网设备等。通过与第一电子设备的通信交互,用户可以通过第二电子设备向第一电子设备提交采集的视频数据。第一电子设备可以从视频数据中采样得到多个视频帧,将多个视频帧输入行为识别模型的特征提取模块进行动作特征提取,特征提取模块包含多层用于提取不同空间尺度的动作特征的特征提取层;对多个特征提取层提取的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,得到融合特征;并根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果。进一步地,第一电子设备基于后处理规则对行为识别结果进行后处理,将后处理得到的最终结果反馈给第二电子设备。
65.示例性地,以应用于人机交互领域时的一个示例应用场景为例,第二电子设备可以为交互对象使用的终端设备,用于采集交互对象的视频数据并发送至第一电子设备。第一电子设备接收交互对象的视频数据,采样得到多个视频帧,将多个视频帧输入行为识别模型,通过行为识别模型识别视频中交互对象做出的行为动作(如手势、身体行为动作等),得到行为识别结果,进一步地,基于行为识别结果进行如下后处理:确定交互对象的动作意
图,并针对交互对象的动作意图生成对应的反馈信息。然后,第一电子设备向第一电子设备发送反馈信息,使得第一电子设备基于反馈信息向交互对象做出反馈。
66.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
67.图3为本技术一示例性实施例提供的视频行为识别方法流程图,本实施例的执行主体为上述图1所示的第一电子设备。如图3所示,该方法具体步骤如下:
68.步骤s301、获取待识别的视频数据,视频数据包含多个视频帧。
69.其中,待识别的视频数据包含多个视频帧,是从待识别的视频中采样得到的多个视频帧。
70.在实际应用场景中,可以获取待进行行为识别的视频,该视频包含行为识别的目标对象。通过预设帧采样规则,对视频进行采样,得到多个视频帧,后续基于采样得到多个视频帧进行行为识别。
71.其中,帧采样规则可以采用现有的任意一种视频行为识别方法中采样获得视频帧的规则实现,并可以根据实际应用功能场景的需要进行配置和调整,此处不再赘述。
72.可选地,该步骤中,第一电子设备可以接收第二电子设备发送的包含多个视频帧的待识别的视频数据,该视频数据由第二电子设备对原始的视频进行帧采样得到。
73.可选地,该步骤中,第一电子设备还可以接收第二电子设备发送的原始的视频,第一电子设备对原始的视频进行帧采样,得到多个视频帧,采样得到的多个视频帧构成待识别的视频数据。
74.步骤s302、将多个视频帧输入行为识别模型,通过行为识别模型提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度。
75.本实施例中,利用训练好的端到端的行为识别模型,基于输入的多个视频帧进行行为识别,得到行识别结果。
76.其中,行为识别模型通常包含特征提取模块,用于进行动作特征提取。特征提取模块通常包含多层特征提取层,多层特征提取层由上到下依次堆叠,上层的输出作为下层的输入,最下层的输出作为特征提取模块所提取的动作特征。
77.不同特征提取层配置的空间尺度(也即空间分辨率)不同,因此所提取的动作特征的空间尺度不同。
78.该步骤中,将多个视频帧输入行为识别模型中最上层的特征提取层中,最上层的特征提取层分别对每一帧视频帧进行特征提取,得到每一帧视频帧对应的动作特征。然后,多帧动作特征经过多层特征提取层的处理,得到各层提取的动作特征,也称为各层的动作特征。在任意一层中,分别对输入的每一帧进行特征提取,得到对应一帧动作特征,从而得到当前层的动作特征,包括多帧动作特征,动作特征的帧数与视频帧的帧数相同,多帧动作特征且与多个视频帧一一对应。
79.另外,行为识别模型中包含的特征提取层的层数,不同层的空间尺度的大小,可以根据经验值进行设置,此处不做具体限定。
80.示例性地,以特征提取模块包含3层特征提取层为例,3层特征提取层提取得到3个不同空间尺度的动作特征,空间尺度可以是空间分辨率,3个的不同空间分辨率按照由上层
到下层的顺序依次为:56、28、14。不同层的动作特征的帧数相同,均与输入视频帧的帧数相同,不同层的动作特征的长度一致,宽度一致。
81.步骤s303、对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征。
82.本实施例中,在行为识别模型中增加相关性模块,用于对多个特征提取层提取的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,使得特征提取模块最终输出的特征融合了多尺度融合的相关性特征,包含更精细的动作特征,比如小物体的移动信息和快速动作的移动信息。
83.通过增加相关性模块在多个特征提取层中,对当前层所提取的多帧动作特征在时间维度进行相关性分析,得到当前层的相关性特征,能够较好地捕捉目标对象的移动信息。
84.任意一层的相关性特征与动作特征的空间尺度相同,不同层的相关性特征的空间尺度不同。进一步地,通过融合多层的相关性特征,可以将多个不同空间尺度的相关性特征融合,能够较好地捕捉更精细的动作特征,比如小物体的移动信息和快速动作的移动信息。进一步地通过将融合多层的相关性特征得到的多尺度融合的相关性特征融入提取的动作特征中,使得特征提取模块的输出特征包含小物体的移动信息和快速动作的移动信息等更精细的动作特,基于该融合特征进行行为分类识别,能够提升行为识别模型的鲁棒性和效果。
85.可选地,进行相关性分析时,可以从行为识别模型中的特征提取层中抽取多层进行相关性分析,来获取对应层的相关性特征。另外,为了提升捕捉更精细的动作特征,比如小物体的移动信息和快速动作的移动信息的能力,可以适当扩大抽取的多层特征提取层的空间尺度的跨度,从而可以使得获得的多层的相关性特征的空间尺度的跨度更大。
86.可选地,进行相关性分析时,可以对行为识别模型中每一特征提取层中进行相关性分析,来获取每一层的时间相关特征。
87.可选地,在将多尺度融合的相关性特征融入特征提取模块提取的动作特征中时,可以在一个或者多个特征提取层所提取的动作特征中融入多尺度融合的相关性特征,且不同层融入的多尺度融合的相关性特征可以相同或者不同。
88.可选地,在将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,得到融合特征时,可以将多尺度融合的相关性特征与特征提取模块提取的动作特征相加,实现多尺度融合的相关性特征与动作特征的融合,得到融合特征。
89.步骤s304、根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果。
90.本实施例中,通过在多个特征提取层中,对当前层所提取的多帧动作特征在时间维度进行相关性分析,得到当前层的相关性特征,能够较好地捕捉目标对象的移动信息。其中,任意一层的相关性特征与动作特征的空间尺度相同,不同层的相关性特征的空间尺度不同。通过融合多层的相关性特征,将多个不同空间尺度的相关性特征融合,能够较好地捕捉小物体的移动信息和快速动作的移动信息。进一步地,通过将融合多层的相关性特征得到的多尺度融合的相关性特征融入提取的动作特征中,使得特征提取模块输出的融合特征
包含更精细的动作特征,比如小物体的移动信息和快速动作的移动信息,基于该融合特征进行行为分类识别,能够提升行为识别模型的鲁棒性和效果。
91.在一可选实施例中,上述步骤s303中融合多层的相关性特征得到多尺度融合的相关性特征,具体可以采用如下方式实现:
92.将待融合的多层相关性特征中空间尺度最小的相关性特征作为目标特征;对除目标特征之外的待融合的相关性特征进行下采样,下采样后的特征与目标特征具有相同的空间尺度;将下采样后的特征与目标特征融合,得到多尺度融合的相关性特征。
93.本实施例中,由于不同层的相关性特征的空间尺度不同,为了将不同层的相关性特征进行融合,可以根据多层相关性特征的最小空间尺度,将较大空间尺度的相关性特征进行下采样,使得下采样后的特征的空间尺度等于最小空间尺度,再将下采样后的特征和最小空间尺度相关性特征融合,得到多尺度融合的相关性特征。
94.可选地,将下采样后的特征与目标特征融合,可以通过将下采样后的特征与目标特征按照对应视频帧的先后顺序依次拼接实现;或者,可以通过将下采样后的特征与目标特征求和实现。
95.在另一可选实施例中,上述步骤s303中融合多层的相关性特征得到多尺度融合的相关性特征,还可以采用如下方式实现:
96.根据配置的预设空间尺度,该预设空间尺度小于或等于待融合的多层相关性特征的最小空间尺度;将待融合的多层相关性特征进行下采样为预设空间尺度,将下采样后的特征融合,得到多尺度融合的相关性特征。
97.可选地,将下采样后的特征融合,可以通过将下采样后的特征按照对应视频帧的先后顺序依次拼接实现;或者,可以通过将下采样后的特征求和实现。
98.另外,在上述任一实施例中,每层的相关性特征包含分别与多帧视频帧一一对应的多帧特征。将多层的相关性特征进行融合,是指将不同层的相关性特征中对应同一视频帧的特征进行融合,得到的多尺度融合的相关性特征仍然包含与视频帧一一对应多帧特征。
99.在一可选实施例中,上述步骤s303中,在实现将多尺度融合的相关性特征融入所提取的动作特征中时,可以将多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征,该融合特征为特征提取模块的输出特征,用于进行后续的行为分类识别。
100.示例性地,图4为本技术实施例提供的一种视频行为识别的整体框架的示例图,如图4所示,以行为识别模型的特征提取模块包含3层不同空间尺度的特征提取层为例,提取3层不同空间尺度(用不同大小的图形表示)的动作特征,对每层特征提取层所提取的动作特征进行相关性分析,得到3层不同空间尺度的相关性特征。根据最下一层的相关性特征的空间尺度,将上面的2层相关性特征下采样,使得下采样后的特征与最下一层的相关性特征的空间尺度相同,将采样后的特征与最下一层的相关性特征融合,得到多尺度融合的相关性特征,这是一个稠密的相关性特征场,通过这个稠密的相关性特征场,能够捕捉到更精细的动作特征,比如小物体的移动和快速的移动的特征信息。进一步地,将多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征。该融合特征输入行为分类识别模块进行行为分类识别,输出行为识别结果,能够提升模型在实际应用场景中的鲁棒性,提高视频行为识别的效果和性能。
101.需要说明的是,图4中以输入视频帧的帧数为5为例,每层特征提取层分别提取5帧动作特征,分别针对5帧动作特征进行与其他动作特征的相关性分析,得到5帧动作特征分别对应的5帧相关性特征,这5帧相关性特征分别与5帧视频帧一一对应。
102.另外,图4中仅以不同大小的图形表示不同空间尺度的特征(动作特征、相关性特征)的关系,但是表示特征的图形的大小比例并不代表空间尺度的大小比例,图形的大小并不体现空间尺度的具体数值。
103.基于本实施例,在其他可选实施方式中,作为将多尺度融合的相关性特征与最下层的输出特征融合的替换方式,还可以将多尺度融合的相关性特征与进行了相关性分析处理的多层中的最下一层输出的动作特征进行融合,这样也可以将多尺度融合的相关性特征融入特征提取模块所提取的动作特征中。
104.本实施例中,通过在行为识别模型的基础网络上增加相关性模块,该相关性模块能够基于多层特征提取层所提取的动作特征进行相关性分析,得到相关性特征,并融合多层的相关性特征,从而将多个不同空间尺度的相关性特征融合,并与特征提前模块输出的动作特征融合,使得深层的动作特征也能包含较好的空间信息和时间信息,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动信息和快速移动的信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
105.在另一可选实施例中,在上述步骤s303中,在进行了相关性分析处理的层中,可以将当前层的相关性特征与动作特征融合,得到当前层的输出特征,当前层的输出特征作为下一层的输入。并且,融合多层的相关性特征得到多尺度融合的相关性特征,将多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征,该融合特征为特征提取模块的输出特征,用于进行后续的行为分类识别。
106.可选地,可以在进行了相关性分析处理的每层中,将当前层的相关性特征与动作特征融合,得到当前层的输出特征,当前层的输出特征作为下一层的输入。
107.可选地,还可以在进行了相关性分析处理的层中选择一层或多层中,在选择的层中将各层的相关性特征与动作特征融合,得到各层的输出特征,各层的输出特征作为下一层的输入。
108.示例性地,如果特征提取模块中的最下层进行了相关性分析处理,可以在除最下层之外的其他进行了相关性分析处理的每层中,将各层的相关性特征与动作特征融合,得到各层的输出特征,各层的输出特征作为下一层的输入。
109.示例性地,图5为本技术实施例提供的一种视频行为识别的整体框架的示例图,如图5所示,以行为识别模型的特征提取模块包含3层不同空间尺度的特征提取层为例,提取3层不同空间尺度(用不同大小的图形表示)的动作特征,对每层特征提取层所提取的动作特征进行相关性分析,得到3层不同空间尺度的相关性特征。在上面的2层中,将当前层的相关性特征与当前层提取的动作特征进行融合,将融合后的特征作为下一层的输入,能够在各层提取的动作特征中融合相关性特征,从而使得上面的2层的融合后的特征包含较好的移动信息。并且,根据最下一层的相关性特征的空间尺度,将上面的2层相关性特征下采样,使得下采样后的特征与最下一层的相关性特征的空间尺度相同,将采样后的特征与最下一层的相关性特征融合,得到多尺度融合的相关性特征,这是一个稠密的相关性特征场,通过这个稠密的相关性特征场,能够捕捉到更精细的动作特征,比如小物体的移动和快速的移动
的特征信息。进一步地,将多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征。该融合特征输入行为分类识别模块进行行为分类识别,输出行为识别结果,能够提升模型在实际应用场景中的鲁棒性,提高视频行为识别的效果和性能。
110.需要说明的是,图5中以输入视频帧的帧数为5为例,每层特征提取层分别提取5帧动作特征,分别针对5帧动作特征进行与其他动作特征的相关性分析,得到5帧动作特征分别对应的5帧相关性特征,这5帧相关性特征分别与5帧视频帧一一对应。
111.另外,图5中仅以不同大小的图形表示不同空间尺度的特征(动作特征、相关性特征)的关系,但是表示特征的图形的大小比例并不代表空间尺度的大小比例,图形的大小并不体现空间尺度的具体数值。
112.本实施例中,通过在行为识别模型的基础网络上增加相关性模块,该相关性模块能够基于多层特征提取层所提取的动作特征进行相关性分析,得到相关性特征,并在进行了相关性分析处理的一层或多层中,将当前层的相关性特征与动作特征融合,得到当前层的输出特征,当前层的输出特征作为下一层的输入,使得各层的动作特征包含了丰富的移动信息。并且,通过融合多层的相关性特征,将多个不同空间尺度的相关性特征融合,并与特征提前模块输出的动作特征融合,使得深层的动作特征也能包含较好的空间信息和时间信息,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动,从而提升行为识别模型在实际应用场景中的鲁棒性。
113.在另一可选实施例中,在进行了相关性分析处理的层中,可以将当前层的相关性特征与至少一上层的相关性特征融合,得到当前层的多尺度融合的相关性特征,并将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征,通过在各特征提取层中增加相关性分析处理,获取动作特征的相关性特征,能够捕捉到不同视频帧中目标的移动信息;并且在各层融合上层不同空间尺度的相关性特征,可以构建金字塔式的多尺度融合的相关性特征,并融合到所提取的动作特征中,得到稠密的相关性特征场,并融合到所提取的动作特征中用于进行行为识别,能够使得深层特征也包含较好的空间信息和时间信息,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动的特征信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
114.若进行了相关性分析处理的某一层中,不存在上层的相关性特征,则将当前层的相关性特征与当前层的动作特征融合,得到当前层的输出特征。
115.示例性地,对于特征提取模块中的最上层特征提取层,由于不存在上层的特征提取层,则将当前层的相关性特征与当前层的动作特征融合,得到当前层的输出特征。
116.示例性地,进行了相关性分析处理的某一层存在上层的特征提取层,但是上层的特征提取层均未进行相关性分析处理,这种情况下同样不存在上层的相关性特征,将该层的相关性特征与该层的动作特征融合,得到该层的输出特征。
117.可选地,可以在进行了相关性分析处理的每层中,将当前层的相关性特征与至少一上层的相关性特征融合,得到当前层的多尺度融合的相关性特征,并将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征,当前层的输出特征作为下一层的输入。
118.可选地,还可以在进行了相关性分析处理的层中选择一层或多层中,在选择的层中将当前层的相关性特征与至少一上层的相关性特征融合,得到当前层的多尺度融合的相
关性特征,并将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征,当前层的输出特征作为下一层的输入。
119.一种优选实施方式中,在进行了相关性分析处理的每层中,将当前层的相关性特征与所有上层的相关性特征融合,得到当前层的多尺度融合的相关性特征,并将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征,这样,能够捕捉到更精细的动作特征,比如小物体的移动信息和快速的移动信息,并且可以构建金字塔式的多尺度融合的相关性特征,并融合到所提取的动作特征中,得到稠密的相关性特征场,能够使得深层特征也包含较好的空间信息和时间信息,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动的特征信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
120.示例性地,图6为本技术实施例提供的一种视频行为识别的整体框架的示例图,如图6所示,以行为识别模型的特征提取模块包含3层不同空间尺度的特征提取层为例,提取3层不同空间尺度(用不同大小的图形表示)的动作特征,对每层特征提取层所提取的动作特征进行相关性分析,得到3层不同空间尺度的相关性特征。在进行了相关性分析的每一层中,在第1层,由于不存在上层特征提取层,因此将当前层的相关性特征与动作特征融合,得到当前层的输出特征,并作为第2层的输入。在第2层,将第1层的相关性特征与当前层(第2层)的相关性特征融合,得到当前层(第2层)的多尺度融合的相关性特征,并将当前层(第2层)的多尺度融合的相关性特征与动作特征融合,得到当前层(第2层)的输出特征,并作为第3层的输入。在第3层,将第1层的相关性特征、第2层的相关性特征和当前层(第3层)的相关性特征融合,得到当前层(第3层)的多尺度融合的相关性特征,并将当前层(第3层)的多尺度融合的相关性特征与动作特征融合,得到当前层(第3层)的输出特征,作为特征提取模块输出的融合特征。
121.需要说明的是,图6中以输入视频帧的帧数为5为例,每层特征提取层分别提取5帧动作特征,分别针对5帧动作特征进行与其他动作特征的相关性分析,得到5帧动作特征分别对应的5帧相关性特征,这5帧相关性特征分别与5帧视频帧一一对应。
122.另外,图6中仅以不同大小的图形表示不同空间尺度的特征(动作特征、相关性特征)的关系,但是表示特征的图形的大小比例并不代表空间尺度的大小比例,图形的大小并不体现空间尺度的具体数值。
123.本实施例中,通过在各特征提取层中增加相关性分析处理,获取动作特征的相关性特征,能够捕捉到视频数据中目标对象的移动信息;并且在各层融合上层不同空间尺度的相关性特征,可以构建金字塔式的多尺度融合的相关性特征,并融合到所提取的动作特征中,得到稠密的相关性特征场,使得深层特征也包含较好的空间信息和时间信息,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动的特征信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
124.在上述任一实施例的基础上,对任一层的动作特征进行相关性分析得到当前层的相关性特征,具体可以采用如下方式实现:
125.任一层的动作特征包含每一视频帧对应的一帧动作特征。每层提取得到多帧动作特征,动作特征的帧数与输入的视频帧的帧数相等。在进行相关性分析时,分别将每一帧动作特征作为目标帧,对该目标帧与至少一个相邻帧间的相关性进行分析。
126.具体地,对于任意一层的动作特征中的任意一个目标帧,在当前层的动作特征中确定目标帧的至少一个相邻帧;将目标帧与每一相邻帧进行相关性计算,得到目标帧与每一相邻帧间的相关性特征;将目标帧与至少一个相邻帧间的相关性特征融合,得到当前层的目标帧对应的相关性特征。
127.通过分别对每一帧动作特征与其他至少一个相邻帧的动作特征进行相关性分析,能够捕捉到时间维度上的目标对象的移动信息;并且通过对多层特征提取层提取的动作特征进行相关性分析,可以提取不同空间尺度的相关性特征,从而可以在加大空间尺度上捕捉到小物体的移动信息,并融合到所提取的动作特征中,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动的特征信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
128.可选地,在任意一层的动作特征中,确定与目标帧进行相关性分析的相邻帧时,按照对应视频帧的时序信息,将该目标帧之后的一帧动作特征作为相邻帧,对目标帧与该相邻帧进行相关性分析,得到该目标帧的相关性特征。
129.可选地,在任意一层的动作特征中,确定目标帧的至少一个相邻帧时,可以根据配置的预设数量,在当前层的动作特征中确定目标帧对应视频帧的预设数量的相邻视频帧,预设数量大于1;将相邻视频帧对应的动作特征作为目标帧的相邻帧。
130.通过将目标帧与预设数量的多个相邻帧进行相关性分析,可以得到长时的相关性特征,能够捕捉到较长时段内的移动信息,从而能够捕捉到库快速的移动信息,能够更好地刻画目标对象的行为动作,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快递的移动的特征信息,从而提升行为识别模型在实际应用场景中的鲁棒性。
131.进一步地,将目标帧与每一相邻帧进行相关性计算,得到目标帧与每一相邻帧间的相关性特征,具体可以采用如下方式实现:
132.根据配置的特征块大小,确定目标帧中的多个第一特征块,并在相邻帧中确定与第一特征块相匹配的第二特征块;计算每一第一特征块与相匹配的第二特征块的相似度,根据每一第一特征块与相匹配的第二特征块的相似度,确定目标帧与每一相邻帧间的相关性特征。
133.其中,特征块大小可以根据实际应用场景及经验值进行设置,此处不做具体限定。
134.具体地,在确定目标帧中的多个第一特征块时,可以分别针对每一像素点,根据特征块大小获取以每一像素点为中心的区域作为一个特征块,每一像素点对应确定一个特征块。
135.在相邻帧中确定与第一特征块相匹配的第二特征块时,先确定相邻帧中与第一特征块中心的像素点对应的匹配像素点,根据特征块大小确定以相邻帧中以该匹配像素点为中心的区域,作为与第一特征块相匹配的第二特征块。
136.另外,在其他实施例中,第一特征块与相匹配的第二特征块的大小可以不同。在确定与第一特征块匹配的第二特征块时,根据配置的指定大小(与前述特征块大小不同),确定以相邻帧中以该匹配像素点为中心的指定大小的区域,作为与第一特征块相匹配的第二特征块。
137.可选地,在计算每一第一特征块与相匹配的第二特征块的相似度时,可以计算每一第一特征块与相匹配的第二特征块的内积,作为相似度。
138.可选地,在计算每一第一特征块与相匹配的第二特征块的相似度时,计算每一第一特征块与相匹配的第二特征块的余弦相似度。
139.进一步地,根据每一第一特征块与相匹配的第二特征块的相似度,可以确定目标帧与每一相邻帧间的相关性特征。目标帧与每一相邻帧间的相关性特征中每一像素点的值为该像素点对应第一特征块与相匹配的第二特征块的相似度;或者,对每一第一特征块与相匹配的第二特征块的相似度进行归一化处理,目标帧与每一相邻帧间的相关性特征中每一像素点的值,是该像素点对应第一特征块与相匹配的第二特征块的相似度归一化处理后的值。
140.进一步地,将目标帧与多个相邻帧间的相关性特征进行融合时,可以将该目标帧与多个相邻帧间的相关性特征拼接,得到该目标帧对应的相关性特征;或者可以将该目标帧与多个相邻帧间的相关性特征求和,得到该目标帧对应的相关性特征。
141.在上述任一实施例的基础上,在对任一层的动作特征进行相关性分析得到当前层的相关性特征之前,还可以通过对当前层提取的动作特征进行第一卷积操作,来降低动作特征的通道数,从而可以减少相关性分析的计算量,提高视频行为识别的效率。
142.在上述任一实施例的基础上,在将相关性特征与动作特征进行融合之前,可以先将通过对相关性特征进行第二卷积操作,将相关性特征转换为动作信息,再将动作信息与动作特征进行融合,可以使得融合效果更好。
143.图7为本技术另一示例性实施例提供的视频行为识别方法流程图,本实施例的执行主体为上述图2所示的第一电子设备。如图7所示,该方法具体步骤如下:
144.步骤s701、获取待识别的视频,对视频进行采样得到多个视频帧。
145.该步骤与上述步骤s301的实现方式类似,具体参见步骤s301相关说明,此处不再赘述。
146.步骤s702、将多个视频帧输入端到端的行为识别模型,通过行为识别模型进行行为识别,得到行为识别结果,其中,行为识别模型用于提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据融合特征,进行行为分类识别,得到行为识别结果。
147.该步骤与上述步骤s302-s304的实现方式类似,具体参见上述实施例中的相关内容,此处不再赘述。
148.步骤s703、根据行为识别结果进行后处理,并输出后处理结果。
149.在实际应用中,可以根据实际应用场景的不同,配置不同的后处理规则,在得到行为识别结果之后,根据配置的后处理规则进行后处理,得到最终输出的结果。
150.其中,后处理结果的输出方式可以根据实际应用场景进行配置,不同的应用场景输出最终处理结果的方式可以不同。
151.本实施例中,基于图2所示的网络架构,第一电子设备部署有训练好的行为识别模型,并基于行为识别模型对外提供基于视频行为识别的服务,该服务的最终结果通过对行为识别结果进行后处理确定。
152.本实施例提供的视频行为识别方法,能够应用于智能监控、人机交互、视频序列理
解、医疗健康、智能教育等众多领域中,具有非常广泛的应用。
153.上述任一实施例中所使用的行为识别模型为基于具体应用场景/领域的训练集训练得到的端到端模型。图8为本技术一示例性实施例提供的行为识别模型训练方法流程图,如图8所示,上述任一实施例中所使用的行为识别模型可以通过如下方式训练得到:
154.步骤s801、获取当前应用场景的训练集,训练集包括音频样本数据,以及音频样本数据对应的行为类别,音频样本数据包含多个视频样本帧。
155.步骤s802、将多个视频样本帧输入行为识别模型,通过行为识别模型提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度。
156.步骤s803、对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,得到融合特征。
157.步骤s804、根据融合特征,进行行为分类识别,得到视频样本数据中目标的行为识别结果。
158.上述步骤s802-s804的具体实现方式与上述步骤s302-s304的实现方式类似,具体参见上述实施例中的相关说明,本实施例此处不再赘述。
159.步骤s805、根据视频样本数据中目标的行为识别结果和对应的行为类别,更新行为识别模型的参数。
160.本实施例中,基于行为识别结果和标注的行为类别更新模型参数的具体实现方式,与现有技术中基于机器学习的方式训练视频行为识别模型时更新模型参数的实现方式类似,此处不再赘述。
161.训练得到的行为识别模型可以基于图1或图2所示的网络结构进行部署。
162.通过本技术实施例的方法可以训练得到具备捕捉到更精细的动作特征,比如小物体的移动信息和快速的移动信息能力的行为识别模型,能够提升行为识别模型在实际应用场景中的鲁棒性和效果。
163.图9为本技术一示例性实施例提供的视频行为识别系统的示意图。如图9所示,本实施例提供的视频行为识别系统900,包括:端侧设备901,以及与端侧设备901通信连接的云侧设备902。
164.端侧设备901获取待识别的视频数据,视频数据包含多个视频帧。这一过程与上述步骤s301实现方式类似,详见步骤s301的相关内容,此处不再赘述。
165.云侧设备902将多个视频帧输入行为识别模型,通过行为识别模型提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果;并向端侧设备901下发行为识别结果。这一过程的具体实现方式与上述步骤s302-s304的实现方式类似,具体参见上述实施例中的相关说明,本实施例此处不再赘述。
166.端侧设备901根据行为识别结果进行后处理,并输出后处理结果。
167.本实施例中,端侧设备901可以是各种网络平台部署在网络边缘的边缘云设备,负责收集端侧设备覆盖范围内的终端设备产生的各类数据。其中,端侧设备901可以是常规服
务器、云服务器或服务器阵列等服务端设备。终端设备包括但不限于台式电脑、笔记本电脑或智能手机等终端设备,终端设备产生的各类数据包括但不限于采集的视频,例如在人机交互中采集的用户侧的视频、智能教育中收集的教师讲课的视频等。网络平台包括但不限于电商平台、短视频平台、新闻资讯平台、教育培训平台等。
168.示例性地,图10为本技术一示例性实施例提供的视频行为识别的方法流程图。本实施例中,端侧设备可以为用于采集车辆行驶过程中驾驶员的视频的路侧或者车载的拍摄装置。如图10所示,该方法具体步骤如下:
169.步骤s1、端侧设备采集车辆行驶过程中的驾驶员的视频数据。
170.可选地,可以对采集的驾驶员的视频数据进行采样,得到多个视频帧,将多个视频帧作为待识别的视频数据,进行后续步骤的处理。
171.步骤s2、端侧设备将驾驶员的视频数据发送至云侧设备。
172.步骤s3、云侧设备将多个视频帧输入行为识别模型,通过行为识别模型提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果。
173.该步骤的具体实现方式与上述步骤s302-s304的实现方式类似,具体参见上述实施例中的相关说明,本实施例此处不再赘述。
174.步骤s4、云侧设备向端侧设备发送行为识别结果。
175.步骤s5、端侧设备根据行为识别结果,在确定驾驶员具有预设不安全驾驶行为时,通过输出装置向驾驶员输出警示信息。
176.本实施例中,以应用于智能交通领域中驾驶员行为检测场景为例,对端侧设备与云侧设备联动实现视频行为识别的流程进行了说明。
177.图11为本技术一示例实施例提供的视频行为识别装置的结构示意图。本实施例提供的装置应用于执行图3所示的视频行为识别方法。如图11所示,视频行为识别装置110包括:视频数据获取模块111、特征提取模块112、相关性模块113、分类识别模块114。
178.其中,视频数据获取模块111用于获取待识别的视频数据,视频数据包含多个视频帧。
179.特征提取模块112用于将多个视频帧输入行为识别模型,通过行为识别模型提取多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度。
180.相关性模块113用于对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征。
181.分类识别模块114用于根据融合特征,进行行为分类识别,得到视频数据中目标的行为识别结果。
182.在一可选实施例中,行为识别模型包括特征提取模块,特征提取模块包括多层由上到下依次堆叠的特征提取层,上层的输出作为下层的输入,多个视频帧输入最上层的特征提取层中。在实现对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同
层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征时,相关性模块113还用于:
183.在多层的特征提取层中,对当前层提取的动作特征进行相关性分析得到当前层的相关性特征;将当前层的相关性特征与至少一上层的相关性特征融合,得到当前层的多尺度融合的相关性特征;将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征;最下层特征提取层的输出特征为特征提取模块输出的融合特征。
184.在一可选实施例中,行为识别模型包括特征提取模块,特征提取模块包括多层由上到下依次堆叠的特征提取层,上层的输出作为下层的输入,多个视频帧输入最上层的特征提取层中。在实现对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征时,相关性模块113还用于:
185.在多层的特征提取层中,对当前层提取的动作特征进行相关性分析得到当前层的相关性特征,并将当前层的相关性特征与动作特征融合,得到当前层的输出特征;融合多层的相关性特征得到多尺度融合的相关性特征,将多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征。
186.在一可选实施例中,在实现对任一层的动作特征进行相关性分析得到当前层的相关性特征时,相关性模块113还用于:
187.任一层的动作特征包含每一视频帧对应的一帧动作特征,分别将每一帧动作特征作为目标帧,在当前层的动作特征中确定目标帧的至少一个相邻帧;将目标帧与每一相邻帧进行相关性计算,得到目标帧与每一相邻帧间的相关性特征;将目标帧与至少一个相邻帧间的相关性特征融合,得到当前层的目标帧对应的相关性特征。
188.在一可选实施例中,在实现在当前层的动作特征中确定目标帧的至少一个相邻帧时,相关性模块113还用于:
189.根据配置的预设数量,在当前层的动作特征中确定目标帧对应视频帧的预设数量的相邻视频帧,预设数量大于1;将相邻视频帧对应的动作特征作为目标帧的相邻帧。
190.在一可选实施例中,在实现将目标帧与每一相邻帧进行相关性计算,得到目标帧与每一相邻帧间的相关性特征时,相关性模块113还用于:
191.根据配置的特征块大小,确定目标帧中的多个第一特征块,并在相邻帧中确定与第一特征块相匹配的第二特征块;计算每一第一特征块与相匹配的第二特征块的相似度,根据每一第一特征块与相匹配的第二特征块的相似度,确定目标帧与每一相邻帧间的相关性特征。
192.在一可选实施例中,在实现计算每一第一特征块与相匹配的第二特征块的相似度时,相关性模块113还用于:
193.计算每一第一特征块与相匹配的第二特征块的内积;
194.或者,
195.计算每一第一特征块与相匹配的第二特征块的余弦相似度。
196.在一可选实施例中,在实现融合多层的相关性特征得到多尺度融合的相关性特征
时,相关性模块113还用于:
197.将待融合的多层相关性特征中空间尺度最小的相关性特征作为目标特征;对除目标特征之外的待融合的相关性特征进行下采样,下采样后的特征与目标特征具有相同的空间尺度;将下采样后的特征与目标特征融合,得到多尺度融合的相关性特征。
198.在一可选实施例中,在实现获取待识别的视频数据时,相关性模块113还用于:
199.获取待识别的视频,从待识别的视频中采样得到多个视频帧,多个视频帧构成待识别的视频数据。
200.本实施例提供的装置具体可以用于执行基于上述图1所示视频行为识别方法相关的任一实施例提供的方法,具体功能和所能实现的技术效果此处不再赘述。
201.图12为本技术另一示例实施例提供的视频行为识别装置的结构示意图。本实施例提供的装置应用于执行图7所示的视频行为识别方法。如图12所示,视频行为识别装置120包括:视频帧获取模块1201、行为识别模块1202和后处理模块1203。
202.其中,视频帧获取模块1201用于获取待识别的视频,对视频进行采样得到多个视频帧。
203.行为识别模块1202用于将多个视频帧输入端到端的行为识别模型,通过行为识别模型进行行为识别,得到行为识别结果,其中,行为识别模型包括特征提取模块和相关性模块,特征提取模块包含多层不同空间尺度的特征提取层,用于根据输入的多个视频帧提取多层的动作特征;相关性模块用于对多层动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将多尺度融合的相关性特征融入特征提取模块提取的动作特征中,得到融合特征;行为识别模型还包括分类识别模块,分类识别模块用于根据融合特征进行行为分类识别,得到视频数据中目标的行为识别结果。
204.后处理模块1203用于根据行为识别结果进行后处理,并输出后处理结果。
205.本实施例提供的装置具体可以用于执行基于上述图7所示视频行为识别方法,具体功能和所能实现的技术效果此处不再赘述。
206.图13为本技术一示例实施例提供的电子设备的结构示意图。如图13所示,该电子设备130包括:处理器1301,以及与处理器1301通信连接的存储器1302,存储器1302存储计算机执行指令。
207.其中,处理器执行存储器存储的计算机执行指令,以实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
208.本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
209.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
210.另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行
执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
211.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
212.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
技术特征:
1.一种视频行为识别方法,其特征在于,包括:获取待识别的视频数据,所述视频数据包含多个视频帧;将所述多个视频帧输入行为识别模型,通过所述行为识别模型提取所述多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据所述融合特征,进行行为分类识别,得到所述视频数据中目标的行为识别结果。2.根据权利要求1所述的方法,其特征在于,所述行为识别模型包括特征提取模块,所述特征提取模块包括多层由上到下依次堆叠的特征提取层,上层的输出作为下层的输入,所述多个视频帧输入最上层的特征提取层中,所述对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征,包括:在多层的特征提取层中,对当前层提取的动作特征进行相关性分析得到当前层的相关性特征;将当前层的相关性特征与至少一上层的相关性特征融合,得到当前层的多尺度融合的相关性特征;将当前层的多尺度融合的相关性特征与动作特征融合,得到当前层的输出特征;最下层特征提取层的输出特征为所述特征提取模块输出的融合特征。3.根据权利要求1所述的方法,其特征在于,所述行为识别模型包括特征提取模块,所述特征提取模块包括多层由上到下依次堆叠的特征提取层,上层的输出作为下层的输入,所述多个视频帧输入最上层的特征提取层中,所述对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征,包括:在多层的特征提取层中,对当前层提取的动作特征进行相关性分析得到当前层的相关性特征,并将当前层的相关性特征与动作特征融合,得到当前层的输出特征;融合多层的相关性特征得到多尺度融合的相关性特征,将所述多尺度融合的相关性特征与最下层的输出特征融合,得到融合特征。4.根据权利要求1-3中任一项所述的方法,其特征在于,对任一层的动作特征进行相关性分析得到当前层的相关性特征,包括:任一层的动作特征包含每一视频帧对应的一帧动作特征,分别将每一帧动作特征作为目标帧,在当前层的动作特征中确定所述目标帧的至少一个相邻帧;将所述目标帧与每一所述相邻帧进行相关性计算,得到所述目标帧与每一所述相邻帧间的相关性特征;将所述目标帧与所述至少一个相邻帧间的相关性特征融合,得到当前层的所述目标帧对应的相关性特征。5.根据权利要求4所述的方法,其特征在于,所述在当前层的动作特征中确定所述目标
帧的至少一个相邻帧,包括:根据配置的预设数量,在当前层的动作特征中确定所述目标帧对应视频帧的预设数量的相邻视频帧,所述预设数量大于1;将所述相邻视频帧对应的动作特征作为所述目标帧的相邻帧。6.根据权利要求4所述的方法,其特征在于,所述将所述目标帧与每一所述相邻帧进行相关性计算,得到所述目标帧与每一所述相邻帧间的相关性特征,包括:根据配置的特征块大小,确定所述目标帧中的多个第一特征块,并在所述相邻帧中确定与所述第一特征块相匹配的第二特征块;计算每一所述第一特征块与相匹配的第二特征块的相似度,根据每一所述第一特征块与相匹配的第二特征块的相似度,确定所述目标帧与每一所述相邻帧间的相关性特征。7.根据权利要求1所述的方法,其特征在于,所述融合多层的相关性特征得到多尺度融合的相关性特征,包括:将待融合的多层相关性特征中空间尺度最小的相关性特征作为目标特征;对除所述目标特征之外的待融合的相关性特征进行下采样,下采样后的特征与所述目标特征具有相同的空间尺度;将下采样后的特征与所述目标特征融合,得到多尺度融合的相关性特征。8.根据权利要求1所述的方法,其特征在于,所述获取待识别的视频数据,包括:获取待识别的视频,从所述待识别的视频中采样得到多个视频帧,所述多个视频帧构成待识别的视频数据。9.一种视频行为识别系统,其特征在于,包括:端侧设备,用于获取待识别的视频数据,所述视频数据包含多个视频帧;云侧设备,用于将所述多个视频帧输入行为识别模型,通过所述行为识别模型提取所述多个视频帧的多层的动作特征,不同层的动作特征具有不同的空间尺度;对所述多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同,融合多层的相关性特征得到多尺度融合的相关性特征,并将所述多尺度融合的相关性特征融入所提取的动作特征中,得到融合特征;根据所述融合特征,进行行为分类识别,得到所述视频数据中目标的行为识别结果;所述云侧设备还用于向所述端侧设备发送所述行为识别结果;所述端侧设备还用于根据所述行为识别结果进行后处理,并输出后处理结果。10.根据权利要求9所述的系统,其特征在于,所述端侧设备获取待识别的视频,包括:采集车辆行驶过程中的驾驶员的视频数据;所述端侧设备根据所述行为识别结果进行后处理,并输出后处理结果,包括:根据所述行为识别结果,在确定驾驶员具有预设不安全驾驶行为时,通过输出装置向驾驶员输出警示信息。11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-8中任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机
执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-8中任一项所述的方法。13.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
技术总结
本申请提供一种视频行为识别方法、系统、装置及设备。本申请的方法,通过采样多个视频帧输入行为识别模型提取多层不同空间尺度的动作特征,对多层的动作特征分别进行相关性分析得到多层的相关性特征,不同层的相关性特征的空间尺度不同;通过融合多层的相关性特征得到多尺度融合的相关性特征,得到一个稠密的相关性特征场,使得行为识别模型能够捕捉到更精细的动作特征,比如小物体的移动和快速移动的特征信息;根据将多尺度融合的相关性特征与所提取的动作特征融合得到的融合特征进行行为分类识别,得到行为识别结果,提升了视频行为识别的效果和性能,提升了行为识别模型在实际应用场景中的鲁棒性。应用场景中的鲁棒性。应用场景中的鲁棒性。
技术研发人员:
钱一琛 孙修宇
受保护的技术使用者:
阿里巴巴(中国)有限公司
技术研发日:
2022.09.27
技术公布日:
2022/12/23