音视频零水印生成、注册、版权鉴别方法及相关系统

阅读: 评论:0



1.本发明涉及版权保护技术,特别是一种音视频水印生成、注册、版权鉴别方法及相关系统。


背景技术:



2.现有技术大多数是针对单模态的版权保护,例如针对音频的版权保护、或针对视频的版权保护,鲜少有针对双模态的版权保护,即针对音视频流的版权保护。然而在我们平常接触的音视频流中,音频和视频往往是分不开的,音频一般伴随着视频一同使用,例如各种播放器软件,其中的音频流和视频流一般是同时应用的,因此针对音视频流即双模态的版权保护是至关重要的。
3.目前,零水印是版权保护的一种常用技术,与传统的水印技术相比,零水印是利用水印信息但不嵌入水印信息,因此可以保证原始音视频的质量不受损,从而也有效解决了水印的可见性和鲁棒性之间的矛盾。然而,零水印方案也有两个不足的地方:(1)零水印的鲁棒性取决于音视频的固有特征的鲁棒性,即提取的特征越鲁棒,生成的零水印的鲁棒性越强,版权保护就越有效。现有方案鲁棒性有待提高;(2)传统的零水印是存储在第三方知识产权保护中心,这是一种中心化的存储方式,存在注册成本高、效率低,容易出现单点故障等问题。因此,如何确保零水印存储的安全性、可靠性和稳定性是亟待解决的问题。
4.发明专利申请cn112153482a 公开了一种音视频匹配零水印生成方法及音视频防篡改检测方法。然而该发明专利申请生成的零水印是一种脆弱零水印,主要用于被保护文件的内容完整性鉴别,用于音视频防篡改检测,而不是针对音视频流的版权保护。此外,该发明专利申请中的零水印是存储在第三方ipr机构,存在注册成本高、效率低下,用户维权难、数据信息可能被篡改或泄漏等诸多问题。


技术实现要素:



5.本发明所要解决的技术问题是,针对现有技术不足,提供一种音视频零水印生成、注册、版权鉴别方法及相关系统。
6.为解决上述技术问题,本发明所采用的技术方案是:一种音视频零水印生成方法,包括以下步骤:s1、对需进行版权保护的音视频流进行分流操作,得到音频流和视频流;s2、提取所述音频流的音频特征,提取所述视频流的内容特征和光流特征;s3、融合所述音频特征、内容特征和光流特征,得到融合特征mw;s4、将所述融合特征mw与混沌序列cs进行异或操作,得到加密特征,将所述加密特征排列成m*m的特征矩阵f;s5、利用所述特征矩阵f生成主共享矩阵,将所述主共享矩阵与原始二值水印图像进行异或操作,得到从共享矩阵,所述从共享矩阵即零水印。
7.本发明分别提取单模态音频流和视频流的固有特征,并进一步聚合其时间特征,使得提取的单模态特征在时间上考虑了全局特征。为了增强音视频零水印的鲁棒性,对单模态的特征进行融合,其目的是为了学习不同模态之间的互补性来获得更好的特征表示,从而使得融合后的特征更具鲁棒性。本发明生成的零水印鲁棒性强,从而使得版权保护更加有效。
8.步骤s2中,提取所述音频流的音频特征的具体实现过程包括:将所述音频流划分为n个片段,提取每个片段的特征;将各个片段的特征作为前馈网络的输入,得到多个注意力分数;对所有注意力分数进行归一化操作,得到注意力权重;计算所述注意力权重与各个片段的特征的加权和,得到所述音频特征。
9.步骤s2中,提取所述视频流的内容特征和光流特征的具体实现过程包括:将所述视频流划分为n个片段,提取每个片段的内容特征和光流特征;采用注意力机制聚合所有片段的内容特征,以及采用注意力机制聚合所有片段的光流特征,分别得到所述视频流的内容特征和光流特征。
10.步骤s3中,采用多头自注意力机制融合所述音频特征、内容特征和光流特征。
11.采用多头自注意力机制融合所述音频特征、内容特征和光流特征的具体实现过程包括:将音频特征fa、内容特征fv、光流特征fo映射到一个公共空间rd上,形成矩阵m∈rd×3;将m分别与投影矩阵,,相乘,得到相对应的序列,键,值;d表示特征维度,表示多头注意力机制中头的个数,qj,kj,vj表示可学习的参数张量;利用下式更新特征信息:;将个更新后的特征信息连接后得到的特征投影回原始特征空间,得到特征o:;其中 || 表示连接操作,,wo为变换矩阵;利用下式获取融合特征mw:;其中,,dropout(
·
)表示随机失活层,norm(
·
)表示归一化层,+表示残差连接,w1,w2,b1,b2表示前馈网络的参数。
12.不同模态之间往往存在着数据分布不一致,提取特征的语义信息差距大等问题,本发明通过多头注意力机制,使两种模态的特征交互融合,学习到模态间的互补信息,从而获得更好的特征表示,使得融合后的特征更具鲁棒性。
13.作为一个发明构思,本发明还提供了一种音视频零水印生成系统,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明零水印生成方法的步骤。
14.本发明还提供了一种零水印注册方法,包括以下步骤:a)用户将安全密钥key和生成的音视频零水印o进行打包成一个文件并发送到ipfs网络中;
b)ipfs网络中的接入节点收到所述文件后,会对文件的有效性进行验证,验证文件有效后,会将文件存储至ipfs网络中并返回一个文件哈希值,若文件无效,则会丢弃文件;c)ipfs网络中的接入节点会将返回的文件哈希值打包成交易发送到区块链网络上,区块链网络中的节点对所述交易进行真实性验证,验证交易有效后,将其添加到区块链中,并返回所述交易所在的区块链的块号;d)区块链网络中的节点将文件哈希所在的区块链的块号返回给用户,完成音视频零水印的注册存储;其中,所述零水印采用本发明上述零水印生成方法生成。
15.本发明还提供了一种零水印注册系统,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明零水印注册方法的步骤。
16.本发明还提供了一种零水印版权鉴别方法,包括以下步骤:1)用户可向区块链网络提供文件哈希所在的区块链块号;2)区块链中的节点会通过块号在区块链中查询之前存储文件哈希的块,从中取出文件哈希,并通过文件哈希在ipfs网络中查询之前存储的安全密钥key和音视频零水印o;3)ipfs网络中的节点会将查询到的安全密钥key和音视频零水印o返回给用户;4)用户取回安全密钥和音视频零水印之后,还原水印图像;5)通过计算原始水印图像和还原的水印图像之间的误码率,完成版权鉴别;其中,所述零水印采用本发明零水印生成方法生成;所述零水印存储于本发明的零水印注册系统中。
17.作为一个发明构思,本发明还提供了一种零水印版权保护系统,其包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明零水印版权鉴别方法的步骤。
18.与现有技术相比,本发明所具有的有益效果为:1、本发明通过融合音频流与视频流各自的固有特征,从而得到音视频流的鲁棒性更强的特征表示,并利用该特征生成零水印,实现了音视频流的版权保护,增强了零水印方案的鲁棒性;2、本发明实现了零水印的分布式存储,解决了区块链存储效率低且成本高的问题。本发明通过将区块链技术和ipfs技术相结合,实现了零水印的去中心化存储,节省了存储成本,并有效提高了零水印存储的安全性、可靠性及稳定性。
附图说明
19.图1为本发明实施例1零水印生成方法流程图;图2为本发明实施例2版权注册及提取流程图;图3为本发明实施例3版权鉴别方法流程图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.本发明实施例针对的版权保护对象是既包含音频流也包含视频流的音视频流,通过分别提取音频流和视频流的固有特征,再将双模态的特征进行特征融合,从而得到音视频流的融合特征,利用融合后的特征和混沌序列系统产生的密钥生成主共享,再使用视觉密码技术(vss)利用主共享和原始水印图像的特征生成从共享,将密钥及从共享注册存储到区块链中。当需要验证音视频流的版权信息时,从区块链中取出从共享和密钥,利用密钥生成主共享,再将主共享和从共享执行异或操作,得到还原的水印图像,计算原始水印图像和还原的水印图像之间的误码率ber,就可以进行音视频流的版权鉴定。本发明实施例涉及版权保护的三个阶段,分别是版权生成阶段、版权注册阶段及版权鉴别阶段。
22.实施例1本实施例提供了一种音视频零水印生成方法,如图1所示,对应版权生成阶段。在该阶段,首先利用深度学习方法分别提取音频流和视频流的固有特征,再使用基于自注意力机制融合模块将多模态的特征进行融合,得到音视频流的更具鲁棒性的融合特征;其次使用混沌映射系统对融合后的特征进行加密。
23.首先将需要进行版权保护的音视频流进行分流操作,得到相应的音频流和视频流。在得到音频流和视频流后,需要对音频流和视频流进行特征提取。
24.对于音频流,本实施例拟采用音频特征提取器vggish模型提取音频特征,vggish可将输入的音频流转换为具有高级语义信息的128维的特征向量组。
25.首先将音频段划分为n个片段,使用vggish网络提取每个音频片段的特征。对于给定音频a,对于帧片段,提取到的音频特征为:(1)其中表示从片段ai中提取的特征。
26.为了让每个时间步能学习到音频的其他各个时间步的全局特征,拟采用注意力机制来聚合时间特征。首先,采用两层的前馈网络(ffn,参见:vaswani a, shazeer n, parmar n, et al. attention is all you need[j]. advances in neural information processing systems, 2017, 30.)从每个特征中学习一个注意力分数:
ꢀꢀꢀ
(2)在获得每个特征的注意力分数bi后,需要通过使用softmax函数对bi进行归一化操作,使得bi∈[0,1]:(3)根据得到的注意力权重,最终通过加权和得到整个音频流的特征表示:(4)对于视频流,拟采用i3d网络来提取视频的内容特征和光流特征。i3d网络是一个双流网络,每一个网络都是一个三维的卷积网络,分别用来提取视频的内容特征和光流特
征。
[0027]
首先,将视频划分为n个片段,使用i3d网络来提取每个片段的特征。对于给定视频v,对于帧片段,提取到的内容特征为:(5)其中表示从片段vi中提取的内容特征。
[0028]
提取到的光流特征为:(6)其中表示从片段oi中提取的光流特征。
[0029]
类似的,拟采用注意力机制来分别的内容特征。首先,采用两层的前馈网络ffn从每个特征中学习一个注意力分数:(7)在获得每个特征的注意力分数后,需要通过使用softmax函数对进行归一化操作,使得:(8)根据得到的注意力权重,最终通过加权和得到整个视频流v的内容表征:(9)同理,可得到视频流v的光流表征:(10)在特征提取阶段,通过注意力机制将每个时间步即每个片段的特征与其他时间步的特征进行了聚合,即每个时间步所表示的特征是关联了整个片段的全局特征。
[0030]
在获得音频模态的音频特征以及视频模态的内容特征和光流特征后,下一步就是将这三种特征进行融合,以获取不同模态之间的互补信息,从而得到鲁棒性更强的特征表示。
[0031]
本实施例设计了一个两层的多头自注意力机制来融合多模态特征,包含η个头,对于第j个头,会将各单模态特征映射到一个公共空间rd上,并形成一个特征矩阵m∈rd×3。再将m分别与投影矩阵,,相乘,得到相对应的,,。
[0032]
(10)利用自注意力机制,将每个模态的特征与从另一个模态中学习到的相关内容信息进行聚合:
(11)其中是具有相关信息的更新后的特征。
[0033]
之后,将η个头连接在一起,并将连接后的特征投影回原始特征空间:(12)其中 || 表示连接操作,表示变换矩阵。接下来,将o连接一个dropout layer(随机失活层)和一个normalization layer(归一化层),再进行一个残差连接:(13)其中dropout(
·
)表示dropout层,norm(
·
)表示归一化层(normalization layer)。最终将mr输入到两层的前馈神经网络,获得最终的输出:
ꢀꢀ
(14)其中w1,w2,b1,b2表示前馈网络ffn的参数。融合了不同模态之间相关信息,表示音视频流融合后的最终特征,并且将其维度调整为m*m。
[0034]
在得到多模态的融合特征后,首先应用混沌映射系统对融合后的特征进行加密。设原始二值水印图像矩阵w大小为m*m,并记l=m*m,向混沌映射系统(kanso a, smaoui n. logistic chaotic maps for binary numbers generations[j]. chaos, solitons & fractals, 2009, 40(5): 2557-2568.)输入安全密钥key,混沌映射系统会输出一个长度为l的二值化的混沌序列cs。
[0035]
得到混沌序列cs之后,将融合特征mw与混沌序列cs执行异或操作,得到加密的特征。
[0036]
(15)在得到l维的加密特征f后,将加密特征排列成m*m的特征矩阵f。然后按照视觉密码算法vss(naor m, shamir a. visual cryptography[c]//workshop on the theory and application of of cryptographic techniques. springer, berlin, heidelberg, 1994: 1-12.),生成主共享m和从共享o。
[0037]
主共享m是一个2m*2m的矩阵,特征矩阵f中的每一个像素都对应中m的一个2*2大小的矩阵,具体转换规则如下:将生成的主共享矩阵m与原始二值水印图像矩阵w执行异或操作,从而得到从共享矩阵o,即所需的音视频零水印,具体转换规则如下:
其中,1≤i,j≤m。
[0038]
最后将安全密钥key和音视频零水印打包成文件注册并存储到基于ipfs的区块链系统中。
[0039]
实施例2本实施例提供了一种版权注册方法,对应版权注册阶段,如图2所示。
[0040]
传统的零水印是存储在第三方知识产权保护中心,这是一种中心化的存储方式,存在注册成本高、效率低,容易出现单点故障等问题。针对该不足,本实施例将区块链技术与星际文件系统(ipfs)技术结合起来,实现零水印的去中心化存储。区块链具有去中心化、不可篡改性及高可靠性等特点,但是区块链不适合存储大量数据,因为存储的数据量越大需要的成本越高。ipfs技术刚好弥补了这一缺点,ipfs是去中心化的保存和共享文件,且基于内容寻址的,通过文件内容生成唯一哈希值来标识文件,因此可以从全网去掉冗余存储,大大节省存储空间,可有效降低存储成本。因此,在零水印的存储过程中,用户只需要将唯一且永久可用的文件哈希存储到区块链中,生成的零水印及安全密钥则存储在ipfs网络中。从而实现了零水印的去中心化存储,节省了存储成本,并有效提高了零水印存储的安全性、可靠性及稳定性。
[0041]
本实施例具体实现过程包括:1)用户将安全密钥key和生成的音视频零水印o进行打包成一个文件并发送到ipfs网络中;2)ipfs网络中的接入节点收到所述文件后,会对文件的有效性进行验证,验证文件有效后,会将文件存储至ipfs网络中并返回一个文件哈希值,若文件无效,则会丢弃文件;3)ipfs网络中的接入节点会将返回的文件哈希值打包成交易发送到区块链网络上,区块链网络中的节点对所述交易进行真实性验证,验证交易有效后,将其添加到区块链中,并返回所述交易所在的区块链的块号;4)区块链网络中的节点将文件哈希所在的区块链的块号返回给用户,完成音视频零水印的注册存储。
[0042]
实施例3本实施例提供了一种版权鉴别方法,对应版权鉴别阶段,如图3所示。
[0043]
在版权鉴别阶段,对待鉴别的音视频,用户首先从基于ipfs的区块链网络中取下存储的安全密钥和音视频零水印,还原水印信息,并通过计算原始水印图像和还原的水印图像之间的误码率,就可得到版权鉴定结果。
[0044]
主要步骤:1)用户可向区块链网络提供文件哈希所在的区块链块号;
2)区块链中的节点会通过块号在区块链中查询之前存储文件哈希的块,从中取出文件哈希,并通过文件哈希在ipfs网络中查询之前存储的安全密钥key和音视频零水印o;3)ipfs网络中的节点会将查询到的安全密钥和音视频零水印返回给用户;4)用户取回安全密钥和音视频零水印之后,还原水印图像;5)通过计算原始水印图像和还原的水印图像之间的误码率,完成版权鉴别。
[0045]
还原水印:首先,参照音视频零水印生成方法,获得待鉴别的音视频的双模态融合特征,利用取出的安全密钥key,使用混沌映射系统生成混沌序列cs,对融合特征,和混沌序列cs按照公式(15)获得音视频的双模态融合加密特征;接着,对加密特征和原始水印图像w按照公式(16)生成主共享,利用vss技术,将主共享与从共享,即音视频零水印o采用公式(17)进行映射,得到中间矩阵s;得到中间矩阵s后,根据如下公式恢复水印:其中,每个代表中间矩阵s中非重叠的2
×
2块,,,,。
[0046]
还原的水印图像为,原始水印图像为w,则误码率(ber)的计算如下所示:。
[0047]
实施例4本实施例提供了一种音视频零水印生成系统,包括存储器、处理器及存储在存储器上的计算机程序;处理器执行所述计算机程序,以实现上述实施例1方法的步骤。
[0048]
实施例5本实施例提供了一种零水印注册系统,包括存储器、处理器及存储在存储器上的计算机程序;处理器执行计算机程序,以实现上述实施例2方法的步骤。
[0049]
实施例6本实施例提供了一种零水印版权保护系统,其包括存储器、处理器及存储在存储器上的计算机程序;处理器执行计算机程序,以实现上述实施例3方法的步骤。
[0050]
上述实施例4、5、6中,存储器可以是高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0051]
在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。

技术特征:


1.一种音视频零水印生成方法,其特征在于,包括以下步骤:s1、对需进行版权保护的音视频流进行分流操作,得到音频流和视频流;s2、提取所述音频流的音频特征,提取所述视频流的内容特征和光流特征;s3、融合所述音频特征、内容特征和光流特征,得到融合特征m
w
;s4、将所述融合特征m
w
与混沌序列cs进行异或操作,得到加密特征,将所述加密特征排列成m*m的特征矩阵f;s5、利用所述特征矩阵f生成主共享矩阵,将所述主共享矩阵与原始二值水印图像进行异或操作,得到从共享矩阵,所述从共享矩阵即零水印。2.根据权利要求1所述的音视频零水印生成方法,其特征在于,步骤s2中,提取所述音频流的音频特征的具体实现过程包括:将所述音频流划分为n个片段,提取每个片段的特征;将各个片段的特征作为前馈网络的输入,得到多个注意力分数;对所有注意力分数进行归一化操作,得到注意力权重;计算所述注意力权重与各个片段的特征的加权和,得到所述音频特征。3.根据权利要求1所述的音视频零水印生成方法,其特征在于,步骤s2中,提取所述视频流的内容特征和光流特征的具体实现过程包括:将所述视频流划分为n个片段,提取每个片段的内容特征和光流特征;采用注意力机制聚合所有片段的内容特征,以及采用注意力机制聚合所有片段的光流特征,分别得到所述视频流的内容特征和光流特征。4.根据权利要求1所述的音视频零水印生成方法,其特征在于,步骤s3中,采用多头自注意力机制融合所述音频特征、内容特征和光流特征。5.根据权利要求4所述的音视频零水印生成方法,其特征在于,采用多头自注意力机制融合所述音频特征、内容特征和光流特征的具体实现过程包括:将音频特征f
a
、内容特征fv、光流特征f
o
映射到一个公共空间r
d
上,形成矩阵m∈r
d
×3;将m分别与投影矩阵,,相乘,得到相对应的序列,键,值;d表示特征维度,表示多头注意力机制中头的个数,q
j
,k
j
,v
j
表示可学习的参数张量;利用下式更新特征信息:;将个更新后的特征信息连接后得到的特征投影回原始特征空间,得到特征o:;其中 || 表示连接操作,,wo为变换矩阵;利用下式获取融合特征m
w
:;其中,,dropout(
·
)表示随机失活层,norm(
·
)表示归一化层,+表示残差连接,w1,w2,b1,b2表示前馈网络的参数。6.一种音视频零水印生成系统,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~5之一所述方法的步骤。7.一种零水印注册方法,其特征在于,包括以下步骤:
a)将安全密钥key和生成的音视频零水印o打包成一个文件并发送到ipfs网络中;b)ipfs网络中的接入节点收到所述文件后,对文件的有效性进行验证,验证文件有效后,将文件存储至ipfs网络中并返回一个文件哈希值,进入步骤c);若文件无效,则丢弃文件;c)ipfs网络中的接入节点将返回的文件哈希值打包成交易发送至区块链网络上,区块链网络中的节点对所述交易进行真实性验证,验证交易有效后,将交易添加到区块链中,并返回所述交易所在的区块链的块号;d)区块链网络中的节点将文件哈希值所在的区块链的块号返回给用户,完成音视频零水印的注册存储;其中,所述零水印采用权利要求1~5之一所述方法生成。8.一种零水印注册系统,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求7所述方法的步骤。9.一种零水印版权鉴别方法,其特征在于,包括以下步骤:1)区块链网络中的节点通过用户提供的区块链块号在区块链中查询存储文件哈希值的块,从块中取出文件哈希值,并通过文件哈希值在ipfs网络中查询存储的安全密钥和音视频零水印;2)ipfs网络中的节点将查询到的安全密钥key和音视频零水印o返回给用户;3)用户取回安全密钥key和音视频零水印o之后,还原水印图像;4)计算原始水印图像和还原的水印图像之间的误码率,完成版权鉴别;其中,所述零水印采用权利要求1~5之一所述方法生成;所述零水印存储于权利要求8所述系统中。10.一种零水印版权保护系统,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求9所述方法的步骤。

技术总结


本发明公开了一种音视频零水印生成、注册、版权鉴别方法及相关系统,分别提取音频流和视频流的固有特征,再将双模态的特征进行特征融合,从而得到音视频流的融合特征,利用融合后的特征和混沌序列系统产生的密钥生成主共享,再使用视觉密码技术,利用主共享和原始水印图像的特征生成从共享,将密钥及从共享注册存储到区块链中。当需要验证音视频流的版权信息时,从区块链中取出从共享和密钥,利用密钥生成主共享,再将主共享和从共享执行异或操作,得到还原的水印图像,计算原始水印图像和还原的水印图像之间的误码率BER,就可以进行音视频流的版权鉴定。音视频流的版权鉴定。音视频流的版权鉴定。


技术研发人员:

张健 文翠娟

受保护的技术使用者:

中南大学

技术研发日:

2022.11.16

技术公布日:

2022/12/19

本文发布于:2022-12-23 11:49:27,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/42648.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   水印   所述   音视频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图