1.本技术实施例涉及音视频问答领域,具体而言,涉及一种用于音视频问答的层次化声音-视觉
特征融合方法及产品。
背景技术:
2.音视频问答旨在同时参考视频片段中包含的声音以及视觉信息来回答问题,相较于纯视觉的问答任务(如图片问答、视频问答等),音视频问答任务中的问题设置往往不能仅仅通过单一模态(仅听觉或仅视觉)信息得出正确的
答案。
3.然而,当前的音视频问答系统通常基于以往纯视觉的模型框架,仅在模型输入或输出的位置将音频特征融合进来,而缺少对声音-视觉特征融合的有效机制的探索,一方面会导致问题回答能力不足、只能得到次优解等问题,另一方面,较少的设计声音表征模块和声音-视觉融合模块导致对真实场景下的复杂语义理解性能下降,难以接近人类理解水平。因此,如何在音视频问答系统中,实现视频特征与音频特征有效融合,提高声音表征模块的占比成为了当前亟待解决的问题。
技术实现要素:
4.本技术实施例在于提供一种用于音视频问答的层次化声音-视觉特征融合方法及产品,旨在解决声音表征模块少、视频特征与音频特征无法有效融合的问题。
5.本技术实施例第一方面提供一种用于音视频问答的层次化声音-视觉特征融合方法,包括:
6.将音频-视频双模态特征输入
基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布;
7.将视频嵌入与
所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,其中,所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分;
8.将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;
9.对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。
10.可选地,对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案,具体为:
11.将得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布基于预设权值相加后取平均,得到所述最终答案,其中,所述第一答案概率分布、所述第二答案概率分布以及所述第三答案概率分布的预设权值相同。
12.可选地,将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音
频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布,包括:
13.将所述音频嵌入与所述视频嵌入输入第一融合模块,得到所述音频-视频双模态特征;
14.将所述音频-视频双模态特征输入所述基线模型;
15.将所述经过基线模型处理的音频-视频双模态特征与所述问题嵌入输入所述融合模块,得到第一三模态特征;
16.将所述第一三模态特征输入第一答案解码器进行答案解码,得到所述第一答案概率分布。
17.可选地,将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,包括:
18.将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型;
19.将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频嵌入输入第二融合模块,得到第二三模态特征;
20.将所述第二三模态特征输入所述第二基线模型;
21.将经过第二基线模型处理的第二三模态特征输入第二答案解码器进行答案解码,得到所述第二答案概率分布。
22.可选地,将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布,包括:
23.将所述视频嵌入与所述问题嵌入输入第三融合模块,得到视频-问题双模态特征;
24.将所述视频-问题双模态特征输入所述基线模型;
25.将所述经过基线模型处理的视频-问题双模态特征与所述音频嵌入输入所述第三融合模块,得到第三三模态特征;
26.将所述第三三模态特征输入第三答案解码器进行答案解码,得到所述第三答案概率分布。
27.可选地,所述方法还包括:
28.所述视频嵌入为基于视频预设算法对视频片段中的视频信息进行数学处理得到的视频数据向量;
29.所述音频嵌入为基于音频预设算法对所述视频片段中的音频信息进行数学处理得到的音频数据向量;
30.所述问题嵌入为基于问题预设算法对所述视频片段对应的问题信息进行数学处理得到的问题数据向量。
31.本技术实施例第二方面提供一种用于音视频问答的层次化声音-视觉特征融合装置,包括:
32.第一融合模块,用于将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布;
33.第二融合模块,用于将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二
基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,其中,所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分;
34.第三融合模块,用于将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;
35.答案集成模块,用于对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。
36.其中,所述第一融合模块包括:
37.第一双模态融合子模块,用于将所述音频嵌入与所述视频嵌入输入第一融合模块,得到所述音频-视频双模态特征;
38.第一输入子模块,用于将所述音频-视频双模态特征输入所述基线模型;
39.第一三模态融合子模块,用于将经过基线模型处理的音频-视频双模态特征与所述问题嵌入输入第一融合模块,得到第一三模态特征;
40.第一答案集成子模块,用于将所述三模态特征输入答案解码器进行答案解码,得到所述第一答案概率分布。
41.其中,所述第二融合模块包括:
42.第二输入子模块,用于将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型,以及用于将第二三模态特征输入所述第二基线模型;
43.第二三模态融合子模块,用于将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频嵌入输入第二融合模块,得到第二三模态特征;
44.第二答案集成子模块,用于将经过第二基线模型处理的第二三模态特征输入第二答案解码器进行答案解码,得到所述第二答案概率分布。
45.其中,所述第三融合模块包括:
46.第三双模态融合子模块,用于将所述视频嵌入与所述问题嵌入输入第三融合模块,得到视频-问题双模态特征;
47.第三输入子模块,用于将所述视频-问题双模态特征输入所述基线模型;
48.第三三模态融合子模块,用于将所述经过基线模型处理的视频-问题双模态特征与所述音频嵌入输入所述第三融合模块,得到第三三模态特征;
49.第三答案集成子模块,用于将所述第三三模态特征输入所述第三答案解码器进行答案解码,得到所述第三答案概率分布。
50.其中,所述装置还包括:
51.视频嵌入获得子模块,用于基于视频预设算法对视频片段中的视频信息进行数学处理得到视频数据向量;
52.音频嵌入获得子模块,用于基于音频预设算法对所述视频片段中的音频信息进行数学处理得到音频数据向量;
53.问题嵌入获得子模块,用于基于问题预设算法对所述视频片段对应的问题信息进行数学处理得到问题数据向量。
54.本技术实施例第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现第一方面中任一所述的用于音视
频问答的层次化声音-视觉特征融合方法中的步骤。
55.本技术实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。
56.本技术实施例第五方面提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。
57.有益效果:
58.本技术提供一种用于音视频问答的层次化声音-视觉特征融合方法及产品,将音频-视频双模态特征输入基线模型,随后将所述基线模型与问题嵌入融合后进行答案解码,得到第一答案概率分布;将视频嵌入与所述问题嵌入分别输入第一基线模型,将所述第一基线模型与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布;将视频-问题双模态特征输入所述基线模型,随后将所述基线模型与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。通过分别在早期、中期和晚期对基线模型中融合声音嵌入,得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布进行层次化集成,生成最终答案,一方面增加了声音表征模块在整个问答系统中的占比,可以提升问题的回答能力;另一方面,增加声音-视觉融合模块可以提升对复杂语义理解性能,得到对真实复杂场景中视频片段的问题的更优解答案输出。
附图说明
59.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
60.图1是本技术一实施例提出的用于音视频问答的层次化声音-视觉特征融合方法流程图;
61.图2是本技术一实施例提出的层次化结构的声音-视觉特征融合神经网络示意图;
62.图3是本技术一实施例提出的用于音视频问答的层次化声音-视觉特征融合装置示意图。
具体实施方式
63.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
64.相关技术中,音视频问答系统通常基于以往纯视觉的模型框架,仅在模型输入或输出的位置将音频特征融合进来,而缺少对声音-视觉特征融合的有效机制的探索,一方面
会导致问题回答能力不足、只能得到次优解等问题,另一方面,较少的设计声音表征模块和声音-视觉融合模块导致对真实场景下的复杂语义理解性能下降,难以接近人类理解水平。
65.有鉴于此,本技术实施例提出一种用于音视频问答的层次化声音-视觉特征融合方法,通过分别在早期、中期和晚期对基线模型中融合声音嵌入,得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布进行层次化集成,生成最终答案,旨在解决声音表征模块少、视频特征与音频特征无法有效融合的问题。
66.图1示出了用于音视频问答的层次化声音-视觉特征融合方法流程图,如图1所示,用于音视频问答的层次化声音-视觉特征融合方法包括如下步骤:
67.s101、将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布。
68.s102、将视频嵌入与问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对第二基线模型进行答案解码,得到第二答案概率分布。
69.s103、将视频-问题双模态特征输入基线模型,随后将经过基线模型处理的视频-问题双模态特征与音频嵌入融合后进行答案解码,得到第三答案概率分布。
70.s104、对得到的第一答案概率分布,第二答案概率分布以及第三答案概率分布进行层次化集成,生成最终答案。
71.具体实施时,首先进行模型建立,本技术实施例在基线模型的基础上建立了层次化结构的声音-视觉特征融合神经网络,具体而言,根据对于音频数据引入时间的区别,本技术实施例在基线模型的基础上,建立了早期声音-视觉融合分支、中期声音-视觉融合分支以及晚期声音-视觉融合分支。
72.首先需要对训练数据进行处理。具体地,将训练数据进行分解,得到视频信息、音频信息以及问题信息。通过预设算法将视频信息转换为对应的向量作为视频嵌入,将音频信息转换为对应的向量作为音频嵌入,将问题信息转换为对应的向量作为问题嵌入,其中问题信息在训练数据中为文本形式,声音信息为视频片段中的音频,包括背景音等视频片段内的所有声音,视频信息为视频片段中逐帧视频画面对应的信息。
73.在执行s101步骤时,将训练数据中的视频嵌入、音频嵌入和问题嵌入按照预设的时机输入早期的声音-视觉融合分支,图2示出了层次化结构的声音-视觉特征融合神经网络示意图,如图2中的早期声音-视觉融合部分所示,具体地早期声音-视觉融合分支流程如下:
74.将训练数据分解得到的音频嵌入与视频嵌入先输入融合模块,通过融合模块先将音频嵌入和视频嵌入融合,得到音频-视频双模态特征;随后将音频-视频双模态特征输入神经网络中原有的基线模型;再将经过基线模型处理的音频-视频双模态特征与问题嵌入输入第一融合模块,得到音频-视频-问题的第一三模态特征;最后,将该第一三模态特征输入第一答案解码器进行答案解码,得到第一答案概率分布。
75.在早期声音-视觉融合分支的流程中,音频嵌入在分支的开始阶段就与视频嵌入融合,并输入了基线模型,本技术实施例在早期分支的开始阶段就将视频和音频的特征视为整体输入基线模型,此时的声音信息的语义抽象程度可以视为比低级视觉信息抽象程度更低的信息特征。
76.在执行s102步骤时,如图2中的中期声音-视觉融合部分所示,将训练数据中的视频嵌入、音频嵌入和问题嵌入按照预设的时机输入中期的声音-视觉融合分支,中期声音-视觉融合分支中,为保证音频嵌入在分支中期输入并融合,本技术实施例将原有的基线模型依据自身的结构特点分为第一基线模型和第二基线模型两部分,基线模型中划分第一基线模型和第二基线模型的划分没有要求,只需要将基线模型中的模块分为两部分即可,具体划分方式本技术不作限制。具体地中期声音-视觉融合分支流程如下:
77.首先将基线模型划分为第一基线模型和第二基线模型;然后将视频嵌入和问题嵌入作为两个单独的信息嵌入分别输入第一基线模型中,此时视频嵌入和问题嵌入没有进行融合得到双模态特征,而是作为两个单模态特征分别输入第一基线模型中的;随后将分别经过第一基线模型处理的视频单模态特征和问题单模态特征再与音频嵌入一起输入第二融合模块,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合,得到音频-视频-问题的第二三模态特征;
78.再将该第二三模态特征输入第二基线模型;最后将输入了第二三模态特征的第二基线模型输入第二答案解码器进行答案解码,得到第二答案概率分布。
79.在中期的声音-视觉融合分支流程中,基线模型依据自身结构特点分成两部分,而声音信息在第一基线模型和第二基线模型之间引入,保证了声音信息在此流程中是在中期引入的,此流程可以视为将声音信息视为比低级视觉信息特征抽象程度更高的信息特征,同时比早期声音-视觉融合分支流程中的声音信息特征的语义抽象程度更高。
80.在执行s103步骤时,如图2中的晚期声音-视觉融合部分所示,将训练数据中的视频嵌入、音频嵌入和问题嵌入按照预设的时机输入晚期的声音-视觉融合分支,具体的晚期声-视觉融合分支流程如下:
81.先将视频嵌入与问题嵌入输入第三融合模块进行融合,得到视频-问题双模态特征;随后将视频-问题双模态特征再输入到基线模型模型中;将经过基线模型处理的视频-问题双模态特征最后与音频嵌入一起输入第三融合模块进行融合,得到音频-视频-问题的第三三模态特征;将该三模态特征输入第三答案解码器进行答案解码,得到所述第三答案概率分布。
82.在晚期声-视觉融合分支流程中,声音信息是在最后再与基线模型融合得到第三三模态特征的,因此声音信息是在流程最后才加入到基线模型中的,因此晚期声-视觉融合分支流程中,声音信息的语义抽象程度相比中期声-视觉融合分支流程中更高。
83.上述三个分支构成本技术实施例的层次化结构,具体实施时本技术只需要获取声音在早期输入得到的第一答案概率分布、声音在中期输入得到的第二答案概率分布以及声音在晚期输入得到的第三答案概率分布,因此对于上述早期、中期和晚期流程本技术没有具体顺序要求,可以三个分支流程同时进行,也可以按顺序依次进行,本技术对于上述三个分支流程的运行顺序上没有具体限制。
84.此外,上述第一融合器、第二融合器和第三融合器可以为同种融合器,也可以为不同种融合器,本技术不作限制;上述第一答案解码器、第二答案解码器和第三答案解码器可以为同种答案解码器,也可以为不同种答案解码器,本技术不作限制。
85.在得到第一答案概率分布、第二答案概率分布以及第三答案概率分布之后,需要执行步骤s104,对得到的概率分布进行层次化集成。
86.具体实施时,将得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布按照预设的方式进行集成,输出最终答案。具体的预设集成方式可以为将三种答案概率分布基于相同的预设权值相加后取平均,得到所述最终答案,或者基于不同预设权值加权平均得到所述最终答案,具体的权值和集成方式可以根据实际情况选择,本技术不做具体限制。
87.上述得到的第一答案概率分布对应声音信息引入位置在流程早期,对应低级语义;第二答案概率分布对应声音信息引入位置在流程中期,对应高级语义;第三答案概率分布对应声音信息引入位置在流程晚期,对应最高级语义。通过集成的方式得到的最终答案同时集成了早期、中期以及晚期位置的声音语义,使得最终答案可以体现不同位置声音信息表征在整个问答系统中的占比,提升训练得到的神经网络对问题的回答能力。
88.经过上述步骤,将训练数据中输入的视频数据得到的对应最终答案与标准答案进行损失函数计算并对层次化结构中的网络参数进行优化,得到优化后的层次化结构的声音-视觉特征融合神经网络。
89.随后将待测试的视频片段输入优化后的层次化结构的声音-视觉特征融合神经网络,再次按照上述s101-s104步骤分早期、中期和晚期分别对视频片段进行处理,输出对应的最终答案,具体的步骤如上s101-s104,此处不再赘述。
90.例如,本技术实施例的方法应用于智能客服的场景时,用户输入问题和视频片段后,智能客服会将文本问题转化为问题嵌入,将视频片段中的音频信息转换为音频嵌入,将每帧的视频画面转化为视频嵌入,输入优化后的层次化结构的声音-视觉特征融合神经网络;随后经过早期声音-视觉融合分支流程得到第一答案概率分布,经过中期声音-视觉融合分支流程得到第二答案概率分布,经过晚期声音-视觉融合分支流程得到第三答案概率分布,将三种概率分布按照0.3的权值进行相加并平均得到最终答案输出给用户,此答案在层次化集成过程中,声音信息表征模块在整个问答系统中不止在起始阶段与视频信息进行融合,因此得到的最终答案对真实复杂场景中视频片段的问题准确回答的概率更大。
91.本技术实施例通过分别在早期、中期和晚期对基线模型中融合声音嵌入,得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布进行层次化集成,生成最终答案,一方面增加了声音表征模块在整个问答系统中的占比,可以提升问题的回答能力;另一方面,增加声音-视觉融合模块可以提升对复杂语义理解性能,得到对真实复杂场景中视频片段的问题的更优解答案输出。
92.基于同一发明构思,本技术实施例公开一种用于音视频问答的层次化声音-视觉特征融合装置,图3示出了一种用于音视频问答的层次化声音-视觉特征融合装置示意图,如图3所示,包括如下模块:
93.第一融合模块,用于将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布;
94.第二融合模块,用于将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,其中,所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分;
95.第三融合模块,用于将视频-问题双模态特征输入所述基线模型,随后将经过基线
模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;
96.答案集成模块,用于对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。
97.其中,所述第一融合模块包括:
98.第一双模态融合子模块,用于将所述音频嵌入与所述视频嵌入输入第一融合模块,得到所述音频-视频双模态特征;
99.第一输入子模块,用于将所述音频-视频双模态特征输入所述基线模型;
100.第一三模态融合子模块,用于将经过基线模型处理的音频-视频双模态特征与所述问题嵌入输入第一融合模块,得到第一三模态特征;
101.第一答案集成子模块,用于将所述三模态特征输入答案解码器进行答案解码,得到所述第一答案概率分布。
102.其中,所述第二融合模块包括:
103.第二输入子模块,用于将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型,以及用于将第二三模态特征输入所述第二基线模型;
104.第二三模态融合子模块,用于将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频嵌入输入第二融合模块,得到第二三模态特征;
105.第二答案集成子模块,用于将经过第二基线模型处理的第二三模态特征输入第二答案解码器进行答案解码,得到所述第二答案概率分布。
106.其中,所述第三融合模块包括:
107.第三双模态融合子模块,用于将所述视频嵌入与所述问题嵌入输入第三融合模块,得到视频-问题双模态特征;
108.第三输入子模块,用于将所述视频-问题双模态特征输入所述基线模型;
109.第三三模态融合子模块,用于将所述经过基线模型处理的视频-问题双模态特征与所述音频嵌入输入所述第三融合模块,得到第三三模态特征;
110.第三答案集成子模块,用于将所述第三三模态特征输入所述第三答案解码器进行答案解码,得到所述第三答案概率分布。
111.其中,所述装置还包括:
112.视频嵌入获得子模块,用于基于视频预设算法对视频片段中的视频信息进行数学处理得到视频数据向量;
113.音频嵌入获得子模块,用于基于音频预设算法对所述视频片段中的音频信息进行数学处理得到音频数据向量;
114.问题嵌入获得子模块,用于基于问题预设算法对所述视频片段对应的问题信息进行数学处理得到问题数据向量。
115.基于同一发明构思,本技术又一实施例公开一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现本技术实施例中所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。
116.基于同一发明构思,本技术又一实施例公开一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术实施例中所述的用于
音视频问答的层次化声音-视觉特征融合方法中的步骤。
117.基于同一发明构思,本技术又一实施例公开一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本技术实施例中所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。
118.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
119.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
120.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
121.以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
技术特征:
1.一种用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,包括:将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布;将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,其中,所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分;将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。2.根据权利要求1所述的用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案,具体为:将得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布基于预设权值相加后取平均,得到所述最终答案,其中,所述第一答案概率分布、所述第二答案概率分布以及所述第三答案概率分布的预设权值相同。3.根据权利要求1所述的用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布,包括:将所述音频嵌入与所述视频嵌入输入第一融合模块,得到所述音频-视频双模态特征;将所述音频-视频双模态特征输入所述基线模型;将所述经过基线模型处理的音频-视频双模态特征与所述问题嵌入输入所述第一融合模块,得到第一三模态特征;将所述第一三模态特征输入第一答案解码器进行答案解码,得到所述第一答案概率分布。4.根据权利要求1所述的用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,包括:将所述视频嵌入和所述问题嵌入分别输入所述第一基线模型;将所述分别经过第一基线模型处理的视频单模态特征和问题单模态特征与所述音频嵌入输入第二融合模块,得到第二三模态特征;将所述第二三模态特征输入所述第二基线模型;将经过第二基线模型处理的第二三模态特征输入第二答案解码器进行答案解码,得到所述第二答案概率分布。5.根据权利要求1所述的用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布,包括:
将所述视频嵌入与所述问题嵌入输入第三融合模块,得到视频-问题双模态特征;将所述视频-问题双模态特征输入所述基线模型;将所述经过基线模型处理的视频-问题双模态特征与所述音频嵌入输入所述第三融合模块,得到第三三模态特征;将所述第三三模态特征输入第三答案解码器进行答案解码,得到所述第三答案概率分布。6.根据权利要求1-5任一所述的用于音视频问答的层次化声音-视觉特征融合方法,其特征在于,包括:所述视频嵌入为基于视频预设算法对视频片段中的视频信息进行数学处理得到的视频数据向量;所述音频嵌入为基于音频预设算法对所述视频片段中的音频信息进行数学处理得到的音频数据向量;所述问题嵌入为基于问题预设算法对所述视频片段对应的问题信息进行数学处理得到的问题数据向量。7.一种用于音视频问答的层次化声音-视觉特征融合装置,其特征在于,包括:第一融合模块,用于将音频-视频双模态特征输入基线模型,随后将经过基线模型处理的音频-视频双模态特征与问题嵌入融合后进行答案解码,得到第一答案概率分布;第二融合模块,用于将视频嵌入与所述问题嵌入分别输入第一基线模型,将分别经过第一基线模型处理的视频单模态特征和问题单模态特征与音频嵌入融合后输入第二基线模型,随后对所述第二基线模型进行答案解码,得到第二答案概率分布,其中,所述第一基线模型与所述第二基线模型为所述基线模型依据自身结构分成的两部分;第三融合模块,用于将视频-问题双模态特征输入所述基线模型,随后将经过基线模型处理的视频-问题双模态特征与所述音频嵌入融合后进行答案解码,得到第三答案概率分布;答案集成模块,用于对得到的所述第一答案概率分布,所述第二答案概率分布以及所述第三答案概率分布进行层次化集成,生成最终答案。8.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1-6中任一所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6中任一所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6中任一所述的用于音视频问答的层次化声音-视觉特征融合方法中的步骤。
技术总结
本申请涉及音视频问答领域,提供了一种用于音视频问答的层次化声音-视觉特征融合方法及产品,通过将输入视频片段中的声音嵌入分别在层次化特征融合流程中的早期、中期和晚期分别与基线模型以及视频嵌入、问题嵌入融合并得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布基于预设权值相加后取平均进行层次化集成,生成最终答案,本申请提供的方法一方面增加了声音表征模块在整个问答系统中的占比,可以提升问题的回答能力;另一方面,增加声音-视觉融合模块可以提升对复杂语义理解性能,得到对真实复杂场景中视频片段的问题的更优解答案输出。中视频片段的问题的更优解答案输出。中视频片段的问题的更优解答案输出。
技术研发人员:
朱文武 王鑫 杨品慈
受保护的技术使用者:
清华大学
技术研发日:
2022.08.05
技术公布日:
2022/11/8