1.本技术涉及
视频监控技术领域,更具体的说,是涉及一种视频信号处理方法、装置、设备及可读存储介质。
背景技术:
2.视频监控目前仍然以采集视频信号为主,以收集的监控场景内的
语音信号作为补充。但是,语音信号通常随着说话人距离麦克风的变远而以距离的平方产生能量衰减,对于远距离视频监控场景,往往无法收集到语音信号,因此,无法为远距离视频监控场景的视频信号提供补充信息。
3.目前,可以采用重构语音信号的方式重构远距离视频监控场景的语音信号,以为远距离视频监控场景的视频信号提供补充信息。现有的重构语音信号的方案主要有多模态语音识别方案、多模态语音增强方案和唇语识别方案。其中,多模态语音识别方案和多模态语音增强方案,适用于语音信号受损或者受到干扰的情况,对于远距离视频监控场景的语音信号的重建无法直接应用。而唇语识别方案的精确度较差,将唇语识别方案应用于远距离视频监控场景的语音信号重建,可能会导致重建的语音信号存在大量错误。
4.因此,如何为远距离视频监控场景的视频信号提供补充信息,以提升远距离视频监控的有效性,成为本领域技术人员亟待解决的技术问题。
技术实现要素:
5.鉴于上述问题,本技术提出了一种视频信号处理方法、装置、设备及可读存储介质。具体方案如下:
6.一种视频信号处理方法,
所述方法包括:
7.获取待处理的视频信号;
8.从所述视频信号中提取待处理的唇语视频;
9.对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
10.将所述预测文本和所述重构语音作为所述视频信号的补充信号。
11.可选地,所述从所述视频信号中提取待处理的唇语视频,包括:
12.对所述视频信号进行人脸检测,确定所述视频信号对应的人脸框;
13.对从所述视频信号对应的人脸框中确定出目标人脸框,所述目标人脸框是所述视频信号对应的人脸框中,唇形可见的人脸框;
14.针对每个目标人脸框,基于所述目标人脸框对应的唇形关键点,确定对应的原始唇语视频;
15.对每个原始唇语视频进行矫正,得到矫正之后的唇语视频;每个矫正之后的唇语视频即为所述待处理的唇语视频。
16.可选地,所述对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得
到预测文本和重构语音,包括:
17.将所述唇语视频输入多任务唇语模型,所述多任务唇语模型对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。
18.可选地,所述多任务唇语模型包括唇语视觉
特征提取模块、身份特征提取模块、唇语文本内容预测模块和唇语语音重建模块;
19.所述唇语视觉特征模块对所述唇语视频进行特征提取,得到视觉内容特征;
20.所述身份特征提取模块对所述唇语视频进行特征提取,得到视觉身份特征;
21.所述唇语文本内容预测模块基于所述视觉内容特征和所述视觉身份特征,得到所述预测文本;
22.所述唇语语音重建模块基于所述视觉内容特征和所述视觉身份特征,得到所述重构语音。
23.可选地,所述唇语语音重建模块包含唇语声学信息重构模块和声码器;
24.所述唇语声学信息重构模块结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并对所述融合视觉特征进行处理得到声学特征;
25.所述声码器基于所述声学特征得到重构语音。
26.可选地,所述多任务唇语模型的训练过程包括:
27.确定训练数据,所述训练数据包括训练用唇语视频、训练用唇语视频对应的文本以及训练用唇语视频对应的语音;
28.对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,得到预训练后的多任务唇语模型;
29.以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的文本,以及所述训练用唇语视频对应的语音的声学特征为样本标签,对预训练后的所述多任务唇语模型进行有监督训练,直至损失函数收敛。
30.可选地,所述对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,包括:
31.对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练;
32.以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的身份标签为样本标签,对所述身份特征提取模块进行有监督训练;或者,对所述身份特征提取模块采用对比学习的方式进行预训练。
33.一种视频信号处理装置,所述装置包括:
34.获取单元,用于获取待处理的视频信号;
35.提取单元,用于从所述视频信号中提取待处理的唇语视频;
36.处理单元,用于对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
37.补充信号确定单元,用于将所述预测文本和所述重构语音作为所述视频信号的补充信号。
38.可选地,所述提取单元,包括:
39.人脸检测单元,用于对所述视频信号进行人脸检测,确定所述视频信号对应的人脸框;
40.目标人脸框确定单元,用于对从所述视频信号对应的人脸框中确定出目标人脸框,所述目标人脸框是所述视频信号对应的人脸框中,唇形可见的人脸框;
41.原始唇语视频确定单元,用于针对每个目标人脸框,基于所述目标人脸框对应的唇形关键点,确定对应的原始唇语视频;
42.矫正单元,用于对每个原始唇语视频进行矫正,得到矫正之后的唇语视频;每个矫正之后的唇语视频即为所述待处理的唇语视频。
43.可选地,所述处理单元,具体用于:
44.将所述唇语视频输入多任务唇语模型,所述多任务唇语模型对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。
45.可选地,所述多任务唇语模型包括唇语视觉特征提取模块、身份特征提取模块、唇语文本内容预测模块和唇语语音重建模块;
46.所述唇语视觉特征模块,用于对所述唇语视频进行特征提取,得到视觉内容特征;
47.所述身份特征提取模块,用于对所述唇语视频进行特征提取,得到视觉身份特征;
48.所述唇语文本内容预测模块,用于基于所述视觉内容特征和所述视觉身份特征,得到所述预测文本;
49.所述唇语语音重建模块,用于基于所述视觉内容特征和所述视觉身份特征,得到所述重构语音。
50.可选地,所述唇语语音重建模块包含唇语声学信息重构模块和声码器;
51.所述唇语声学信息重构模块,用于结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并对所述融合视觉特征进行处理得到声学特征;
52.所述声码器,用于基于所述声学特征得到重构语音。
53.可选地,所述装置还包括:多任务唇语模型的训练单元;
54.所述多任务唇语模型的训练单元,包括:
55.训练数据确定单元,用于确定训练数据,所述训练数据包括训练用唇语视频、训练用唇语视频对应的文本以及训练用唇语视频对应的语音;
56.预训练单元,用于对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,得到预训练后的多任务唇语模型;
57.有监督训练单元,用于以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的文本,以及所述训练用唇语视频对应的语音的声学特征为样本标签,对预训练后的所述多任务唇语模型进行有监督训练,直至损失函数收敛。
58.可选地,所述预训练单元,具体用于:
59.对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练;
60.以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的身份标签为样本标签,对所述身份特征提取模块进行有监督训练;或者,对所述身份特征提取模块采用对比学习的方式进行预训练。
61.一种视频信号处理设备,包括存储器和处理器;
62.所述存储器,用于存储程序;
63.所述处理器,用于执行所述程序,实现如上所述的视频信号处理方法的各个步骤。
64.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的视频信号处理方法的各个步骤。
65.借由上述技术方案,本技术公开了一种视频信号处理方法、装置、设备及可读存储介质。该方案中,在获取待处理的视频信号之后,从视频信号中提取待处理的唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
附图说明
66.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
67.图1为本技术实施例公开的一种视频信号处理方法的流程示意图;
68.图2为本技术实施例公开的一种从视频信号中提取唇语视频的方法的流程示意图;
69.图3为本技术实施例公开的一种多任务唇语模型的结构示意图;
70.图4为本技术实施例公开的一种多任务唇语模型的训练方法的流程示意图;
71.图5为本技术实施例公开的一种对唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练的示意图;
72.图6为本技术实施例公开的一种视频信号处理装置结构示意图;
73.图7为本技术实施例公开的一种视频信号处理设备的硬件结构框图。
具体实施方式
74.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
75.为了便于理解本技术的技术方案,本案发明人对现有的为远距离视频监控场景的视频信号提供补充信息的方案进行简单介绍:
76.目前,可以采用重构语音信号的方式重构远距离视频监控场景的语音信号,以为远距离视频监控场景的视频信号提供补充信息。现有的重构语音信号的方案主要有多模态语音识别方案、多模态语音增强方案和唇语识别方案。其中,多模态语音识别方案的输入为唇语视频加上受损或者被叠加干扰信号的语音信号,来同时进行语音识别任务。通常,该方案可以用于噪声干扰比较强的场景中的语音识别任务。多模态语音增强方案的输入是为唇
语视频加上受损或者被叠加干扰信号的语音信号,输出是增强后的语音信号。唇语识别方案的输入是唇语视频,输出是预测说话人的文本内容。
77.多模态语音识别方案和多模态语音增强方案,适用于语音信号受损或者受到干扰的情况,对于远距离视频监控场景的语音信号的重建无法直接应用。在仅有视频信号的情况下,唇语识别方案可能是一种从唇语中恢复文本内容信息的途径。然而,唇语本身具有一定的歧义性,对发音不同的音素,可能对应于相同类型的发音动作,也即视素单元,比如/f/和/v/,/b/和/p/对应的视素单元是相同的。因此,唇语识别方案的精确度较差,将唇语识别方案应用于远距离视频监控场景的语音信号重建,可能会导致重建的语音信号存在大量错误。
78.因此,采用现有的重构语音信号的方式重构远距离视频监控场景的语音信号,并不能为远距离视频监控场景的视频信号提供良好的补充信息。
79.鉴于上述思路存在的问题,本案发明人进行了深入研究发现:
80.唇语识别任务,或者,基于唇语的语音重建任务,属于语音信号处理的研究范畴,通常,这两个任务被称之为静默语音接口的一种实现方式,即不需要直接采集或者处理语音信号,来实现沟通和交流。这两个任务非常相似,因为输入都是唇语视频,但唇语识别任务通常是指直接预测出文本内容,类比语音识别任务,唇语识别任务的输入是唇语视频,而语音识别任务的输入是语音信号;基于唇语的语音重建任务,更类似于语音合成任务,类比语音合成任务,基于唇语的语音重建任务的输入是唇语的发音动作,而语音合成任务的输入是文本。当前在神经网络广泛应用的背景下,唇语识别任务和基于唇语的语音重建任务的主流解决方案都是基于深度学习的方法,并取得了一定进展。基于唇语的语音重建任务的目标是基于视频信号重建语音信号,相对于唇语识别任务,该任务可以有效的避免集外词汇问题(oov)。而且,基于唇语的语音重建任务能够保留更多发音的信息,有助于语音信号的重建。
81.基于此,本案发明人最终提出了一种视频信号处理方法,将唇语识别任务和基于唇语的语音重建任务结合起来应用,同时对视频信号进行唇语识别任务和基于唇语的语音重建两个任务,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
82.接下来,通过下述实施例对本技术提供的视频信号处理方法进行介绍。
83.参照图1,图1为本技术实施例公开的一种视频信号处理方法的流程示意图,该方法可以包括:
84.步骤s101:获取待处理的视频信号。
85.待处理的视频信号可以为远距离视频监控场景的视频信号。
86.步骤s102:从所述视频信号中提取待处理的唇语视频。
87.在本技术中,可以对所述视频信号进行预处理,从中提取待处理的唇语视频。预处理方式包括但不限于人脸检测、人脸关键点检测、视频裁剪和对齐、视频校正等,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
88.步骤s103:对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
89.在本技术中,可以对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。
90.需要说明的是,可以采用神经网络模型对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音。作为一种可实施方式,可以预先训练一个多任务唇语模型,则所述对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音,包括:将所述唇语视频输入多任务唇语模型,所述多任务唇语模型对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。关于多任务唇语模型的具体结构以及训练方式将通过后面的实施例详细说明,此处不再展开描述。
91.步骤s104:将所述预测文本和所述重构语音作为所述视频信号的补充信号。
92.本实施例公开了一种视频信号处理方法。该方法中,在获取待处理的视频信号之后,从视频信号中提取待处理的唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
93.在本技术的另一个实施例中,对步骤s102从所述视频信号中提取唇语视频的具体实现方式进行了说明。
94.参照图2,图2为本技术实施例公开的一种从视频信号中提取唇语视频的方法的流程示意图,该方法可以包括:
95.步骤s201:对所述视频信号进行人脸检测,确定所述视频信号对应的人脸框。
96.在本技术中,可以利用视频人脸检测算法,对所述视频信号中出现的人脸进行检测,对检测到的人脸输出人脸框,并根据人脸框位置裁剪视频,得到人脸视频信号。
97.步骤s202:对从所述视频信号对应的人脸框中确定出目标人脸框,所述目标人脸框是所述视频信号对应的人脸框中,唇形可见的人脸框。
98.在本技术中,可以利用头部姿态检测算法,对每个人脸框中人脸的朝向进行检测,基于人脸框中人脸的朝向确定该人脸框中唇形是否可见。如果人脸框中人脸的朝向不理想(比如面对视频监控摄像范围的背面、人脸的朝向和视频监控摄像范围的夹角超过某个阈值等),则该人脸框中唇形不可见,无法有效地进行唇语识别处理和基于唇语的语音重建处理,则放弃对该人脸框的后续处理,如果人脸的朝向比较理想,则该人脸框中唇形可见,可以对其有效地进行唇语识别处理和基于唇语的语音重建处理,则将其确定为目标人脸框。
99.步骤s203:针对每个目标人脸框,基于所述目标人脸框对应的唇形关键点,确定对应的原始唇语视频。
100.在本技术中,针对每个目标人脸框,可以利用人脸关键点检测算法,确定人脸中关键点(如,眼睛、脸轮廓、唇形等),然后利用人脸关键点确定出唇形关键点,再根据唇形关键点,对所述人脸视频信号进行二次裁剪和对齐操作,得到原始唇语视频。需要说明的是,唇形关键点位于原始唇语视频的中间位置。
101.步骤s204:对每个原始唇语视频进行矫正,得到矫正之后的唇语视频;每个矫正之后的唇语视频即为所述待处理的唇语视频。
102.在本技术中,通常因为可视角度问题,获取到的人脸会出现角度倾斜,因此需要对原始唇语视频进行矫正。作为一种可实施方式,可以基于仿射变换矩阵对原始唇语视频进行矫正,得到矫正之后的唇语视频。仿射变换矩阵从检测出的人脸关键点和标准人脸关键点之间的最小距离估计得到。
103.在本技术的另一个实施例中,对多任务唇语模型的结构进行说明。
104.参照图3,图3为本技术实施例公开的一种多任务唇语模型的结构示意图,所述多任务唇语模型包括唇语视觉特征提取模块、身份特征提取模块、唇语文本内容预测模块和唇语语音重建模块;唇语视觉特征提取模块和唇语文本内容预测模块构成唇语识别支路,身份特征提取模块和唇语语音重建模块构成基于唇语的语音重建支路。
105.其中,所述唇语视觉特征模块对所述唇语视频进行特征提取,得到视觉内容特征,在本技术中,所述唇语视觉特征模块的结构可以基于3d cnn+transformer结构构建。3d cnn负责对唇语视频中的短时的时间和空间动作关系进行特征提取。transformer主要针对唇语视频中的长时间依赖关系进行建模,二者结合得到视觉内容特征将会更加准确。
106.所述身份特征提取模块对所述唇语视频进行特征提取,得到视觉身份特征,需要说明的是,唇部肌肉的运动模式,以及唇形本身的视觉特点反映了说话人的身份信息,此类身份信息有利于模型针对说话人进行自适应,提升不同说话人的唇语文本预测效果。同时说话人的音属性也反映了说话人的身份信息,提取视觉身份特征可以帮助模型重构语音更符合说话人的身份属性。因此,在本技术中,所述身份特征提取模块对所述唇语视频进行特征提取,得到视觉身份特征。作为一种可实施方式,在本技术中,所述身份特征提取模块的结构可以基于3d cnn+tdnn构成。3d cnn负责对唇语视频的短时的时空关系进行特征抽取。tdnn类似于语音话者验证中的x-vector提取模型,结合上下文窗口对说话人身份表征提取,二者结合得到视觉身份特征将会更加准确。
107.所述唇语文本内容预测模块基于所述视觉内容特征和所述视觉身份特征,得到所述预测文本,在本技术中,所述唇语文本内容预测模块结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并基于attention机制的transformer解码器结构对融合视觉特征进行文本自回归解码得到预测文本。
108.所述唇语语音重建模块基于所述视觉内容特征和所述视觉身份特征,得到所述重构语音。所述唇语语音重建模块包含唇语声学信息重构模块和声码器,所述唇语声学信息重构模块结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并对融合视觉特征进行处理得到声学特征,声码器基于所述声学特征得到重构语音。作为一种可实施方式,唇语声学信息重构模块可以采用transformer结构,声学特征可以为80维的fbank特征。声码器可以采用hifig络,或者parallelwavgan等神经网络声码器。
109.在本技术的另一个实施例中,对多任务唇语模型的训练方式进行说明。
110.参照图4,图4为本技术实施例公开的一种多任务唇语模型的训练方法的流程示意图,该方法可以包括:
111.步骤s301:确定训练数据,所述训练数据包括训练用唇语视频、训练用唇语视频对应的文本以及训练用唇语视频对应的语音的声学特征。
112.在本技术中,训练用唇语视频可以通过对训练用视频信号进行预处理后得到的,预处理的方式可参考前述实施例中的相关说明,此处不再赘述。
113.步骤s302:对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,得到预训练后的多任务唇语模型;
114.作为一种可实施方式,在本技术中,可以对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练。具体来说,首先从音频中得到mfcc特征后经过k-means算法聚类,得到100类的伪标签。然后对视频特征序列进行掩码遮蔽,对遮蔽后的部分经过唇语视觉特征提取模块之后预测伪标签的类别。训练得到的模型,可以从网络深层次中进一步抽取特征,进行k-means算法聚类,得到500类的伪标签。然后再进行掩码遮蔽和标签预测。依此迭代几轮后,得到唇语视觉特征提取模块的预训练参数。
115.为便于理解,假设迭代轮次为三次,则对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练的示意图可参照图5所示。
116.作为一种可实施方式,如果训练数据中的训练用唇语视频对应的身份标签可以得到,则以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的身份标签为样本标签,对所述身份特征提取模块进行有监督训练。具体的,可以直接在所述身份特征提取模块后接一个身份分类器,训练中采用交叉熵损失函数进行优化。
117.作为另一种可实施方式,如果训练数据中的训练用唇语视频对应的身份标签无法得到,则对所述身份特征提取模块采用对比学习的方式进行预训练。具体的,同一句话不同帧提取得到的tdnn层输出可以互相作为正例;而不同样本提取的tdnn层输出可以作为反例。损失函数采用triplet损失,即最小化正例之间embedding的距离,同时最大化反例之间的距离:
118.l
triplet
=(h
a-h
p
)
2-max(1.0,(h
a-hn)2)
119.其中,ha,h
p
为正例对,来自同一句话;而ha,hn为反例对,来自不同的句子。
120.步骤s303:以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的文本,以及所述训练用唇语视频对应的语音的声学特征为样本标签,对预训练后的所述多任务唇语模型进行有监督训练,直至损失函数收敛。
121.在本技术中,当对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练之后,即可利用训练数据对预训练后的多任务唇语模型进行有监督训练。其损失函数由两部分组成,一是唇语识别支路的文本预测损失,二是基于唇语的语音重建支路的声学重构损失。假设唇语识别支路文本的标注为t=[t1,..,t
t
],而唇语文本内容预测模块的预测概率为假设语音的声学特征为a=[a1,...an],而唇语声学信息重构模块的输出声学特征为则损失函数为:
[0122][0123]
其中,θ表示文本预测损失和声学重构损失的权衡。
[0124]
下面对本技术实施例公开的视频信号处理装置进行描述,下文描述的视频信号处理装置与上文描述的视频信号处理方法可相互对应参照。
[0125]
参照图6,图6为本技术实施例公开的一种视频信号处理装置结构示意图。如图6所
示,该视频信号处理装置可以包括:
[0126]
获取单元11,用于获取待处理的视频信号;
[0127]
提取单元12,用于从所述视频信号中提取待处理的唇语视频;
[0128]
处理单元13,用于对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
[0129]
补充信号确定单元14,用于将所述预测文本和所述重构语音作为所述视频信号的补充信号。
[0130]
作为一种可实施方式,所述提取单元,包括:
[0131]
人脸检测单元,用于对所述视频信号进行人脸检测,确定所述视频信号对应的人脸框;
[0132]
目标人脸框确定单元,用于对从所述视频信号对应的人脸框中确定出目标人脸框,所述目标人脸框是所述视频信号对应的人脸框中,唇形可见的人脸框;
[0133]
原始唇语视频确定单元,用于针对每个目标人脸框,基于所述目标人脸框对应的唇形关键点,确定对应的原始唇语视频;
[0134]
矫正单元,用于对每个原始唇语视频进行矫正,得到矫正之后的唇语视频;每个矫正之后的唇语视频即为所述待处理的唇语视频。
[0135]
作为一种可实施方式,所述处理单元,具体用于:
[0136]
将所述唇语视频输入多任务唇语模型,所述多任务唇语模型对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。
[0137]
作为一种可实施方式,所述多任务唇语模型包括唇语视觉特征提取模块、身份特征提取模块、唇语文本内容预测模块和唇语语音重建模块;
[0138]
所述唇语视觉特征模块,用于对所述唇语视频进行特征提取,得到视觉内容特征;
[0139]
所述身份特征提取模块,用于对所述唇语视频进行特征提取,得到视觉身份特征;
[0140]
所述唇语文本内容预测模块,用于基于所述视觉内容特征和所述视觉身份特征,得到所述预测文本;
[0141]
所述唇语语音重建模块,用于基于所述视觉内容特征和所述视觉身份特征,得到所述重构语音。
[0142]
作为一种可实施方式,所述唇语语音重建模块包含唇语声学信息重构模块和声码器;
[0143]
所述唇语声学信息重构模块,用于结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并对所述融合视觉特征进行处理得到声学特征;
[0144]
所述声码器,用于基于所述声学特征得到重构语音。
[0145]
作为一种可实施方式,所述装置还包括:多任务唇语模型的训练单元;
[0146]
所述多任务唇语模型的训练单元,包括:
[0147]
训练数据确定单元,用于确定训练数据,所述训练数据包括训练用唇语视频、训练用唇语视频对应的文本以及训练用唇语视频对应的语音;
[0148]
预训练单元,用于对所述唇语视觉特征提取模块和所述身份特征提取模块分别进
行预训练,得到预训练后的多任务唇语模型;
[0149]
有监督训练单元,用于以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的文本,以及所述训练用唇语视频对应的语音的声学特征为样本标签,对预训练后的所述多任务唇语模型进行有监督训练,直至损失函数收敛。
[0150]
作为一种可实施方式,所述预训练单元,具体用于:
[0151]
对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练;
[0152]
以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的身份标签为样本标签,对所述身份特征提取模块进行有监督训练;或者,对所述身份特征提取模块采用对比学习的方式进行预训练。
[0153]
参照图7,图7为本技术实施例提供的一种视频信号处理设备的硬件结构框图,参照图7,视频信号处理设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
[0154]
在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
[0155]
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0156]
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0157]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0158]
获取待处理的视频信号;
[0159]
从所述视频信号中提取待处理的唇语视频;
[0160]
对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
[0161]
将所述预测文本和所述重构语音作为所述视频信号的补充信号。
[0162]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0163]
本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0164]
获取待处理的视频信号;
[0165]
从所述视频信号中提取待处理的唇语视频;
[0166]
对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;
[0167]
将所述预测文本和所述重构语音作为所述视频信号的补充信号。
[0168]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0169]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0170]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0171]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种视频信号处理方法,其特征在于,所述方法包括:获取待处理的视频信号;从所述视频信号中提取待处理的唇语视频;对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;将所述预测文本和所述重构语音作为所述视频信号的补充信号。2.根据权利要求1所述的方法,其特征在于,所述从所述视频信号中提取待处理的唇语视频,包括:对所述视频信号进行人脸检测,确定所述视频信号对应的人脸框;对从所述视频信号对应的人脸框中确定出目标人脸框,所述目标人脸框是所述视频信号对应的人脸框中,唇形可见的人脸框;针对每个目标人脸框,基于所述目标人脸框对应的唇形关键点,确定对应的原始唇语视频;对每个原始唇语视频进行矫正,得到矫正之后的唇语视频;每个矫正之后的唇语视频即为所述待处理的唇语视频。3.根据权利要求1所述的方法,其特征在于,所述对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音,包括:将所述唇语视频输入多任务唇语模型,所述多任务唇语模型对所述唇语视频进行唇语识别处理,得到预测文本,并对所述唇语视频进行基于唇语的语音重建处理,得到重构语音。4.根据权利要求3所述的方法,其特征在于,所述多任务唇语模型包括唇语视觉特征提取模块、身份特征提取模块、唇语文本内容预测模块和唇语语音重建模块;所述唇语视觉特征模块对所述唇语视频进行特征提取,得到视觉内容特征;所述身份特征提取模块对所述唇语视频进行特征提取,得到视觉身份特征;所述唇语文本内容预测模块基于所述视觉内容特征和所述视觉身份特征,得到所述预测文本;所述唇语语音重建模块基于所述视觉内容特征和所述视觉身份特征,得到所述重构语音。5.根据权利要求4所述的方法,其特征在于,所述唇语语音重建模块包含唇语声学信息重构模块和声码器;所述唇语声学信息重构模块结合所述视觉内容特征和所述视觉身份特征作为输入,将所述视觉内容特征和所述视觉身份特征经过拼接后作为融合视觉特征,并对所述融合视觉特征进行处理得到声学特征;所述声码器基于所述声学特征得到重构语音。6.根据权利要求4所述的方法,其特征在于,所述多任务唇语模型的训练过程包括:确定训练数据,所述训练数据包括训练用唇语视频、训练用唇语视频对应的文本以及训练用唇语视频对应的语音;对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,得到预训练后的多任务唇语模型;
以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的文本,以及所述训练用唇语视频对应的语音的声学特征为样本标签,对预训练后的所述多任务唇语模型进行有监督训练,直至损失函数收敛。7.根据权利要求6所述的方法,其特征在于,所述对所述唇语视觉特征提取模块和所述身份特征提取模块分别进行预训练,包括:对所述唇语视觉特征提取模块采用基于掩码预测模型的方式进行预训练;以所述训练数据中的训练用唇语视频为训练样本,以所述训练用唇语视频对应的身份标签为样本标签,对所述身份特征提取模块进行有监督训练;或者,对所述身份特征提取模块采用对比学习的方式进行预训练。8.一种视频信号处理装置,其特征在于,所述装置包括:获取单元,用于获取待处理的视频信号;提取单元,用于从所述视频信号中提取待处理的唇语视频;处理单元,用于对所述唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;补充信号确定单元,用于将所述预测文本和所述重构语音作为所述视频信号的补充信号。9.一种视频信号处理设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的视频信号处理方法的各个步骤。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的视频信号处理方法的各个步骤。
技术总结
本申请公开了一种视频信号处理方法、装置、设备及可读存储介质。该方案中,在获取待处理的视频信号之后,从视频信号中提取唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。提供了更为丰富的数据来源。提供了更为丰富的数据来源。
技术研发人员:
张景宣 万根顺 付中华 潘嘉 高建清 刘聪 胡国平 刘庆峰
受保护的技术使用者:
科大讯飞股份有限公司
技术研发日:
2022.12.08
技术公布日:
2023/3/27