一种虚拟现实图像质量评估方法及系统

阅读：评论：0

1.本技术属于图像处理技术领域，具体涉及一种虚拟现实图像质量评估方法及系统。

背景技术：

2.虚拟现实(vr)作为一种沉浸式的新兴技术，它以头戴式等设备作为载体，能够呈现360
°
全景视频、图像内容，为消费者提供了一种全新的视觉信息交互方式。随着vr技术越来越流行，已经开始广泛应用于医疗、军事、娱乐等各个领域。然而由于全视角内容的记录，vr图像往往需要很高的分辨率，加上其球面的表示形式，为vr图像的处理(采集、编解码、传输等)带来很多困难。为了满足用户的高质量体验感，研究vr图像内容的质量评价对指导现有算法的优化以及提升vr对于用户的体验感，具有重要的意义和实际价值。
3.图像质量评估可以分为全参考质量评估、半参考质量评估以及无参考质量评估。传统的psnr、ssim等基于像素来评估图像质量的方法跟人类图像质量感知的一致性较低。而且随着互联网和社交媒体的发展，质量评估的对象往往都是已失真图像，原始未失真图像很难获得，对于全景图像更是如此。因此基于深度学习的无参考质量评价就具有更加广泛的研究价值。
4.基于深度学习的无参考全景图像质量评估方法多以全景图像压缩后的erp格式作为网络输入，与传统全参考质量评估方法相比虽取得了很大的提升，但由于全景图像特性，erp格式会引入几何畸变，对最终的结果仍然有很大影响。最近的很多算法以从erp中提取的视口图像为输入，以此来模拟人在观看vr全景图像时的场景，从而使得质量评估结果取得了显著的提升。但这一类算法往往仅仅将视口图像并行送入网络，而忽略了视口图像之间在空间位置上的特征关联性，因为每个视口的感知质量只是作为整体感知质量的一部分，视口之间在空间上的相对位置会在很大程度上影响人对于全景图像的整体感知质量。

技术实现要素：

5.本技术所要解决的技术问题在于提供一种全新的基于视口输入的vr全景图像质量评估方法及系统，以基于注意力机制的vision transformer(vit)作为主体网络来替换常规的卷积神经网络，更加符合人眼视觉质量感知的特性。本技术还提供了一种全新的融合视口空间位置关联性的方法来提升客观质量评估水平。在此基础上，本技术还模拟了人在观看vr时的多尺度视觉感知特性，从而进一步提升模型质量感知水平。
6.为实现上述目的，本技术提供了如下方案：
7.一种虚拟现实图像质量评估方法，包括：
8.s1、构建主干网络；
9.s2、获取一张二维erp格式图像，将所述二维erp格式图像转换为球体结构下的多个视口图像；
10.s3、基于所述主干网络和所述视口图像，获得主干网络预测分数；
11.s4、构建多尺度辅助网络，基于所述多尺度辅助网络获得多尺度特征，并对所述多尺度特征进行融合，得到多尺度融合特征；
12.s5、对所述多尺度特征及所述多尺度融合特征进行拼接，得到第三拼接特征，对所述第三拼接特征进行感知质量回归，得到所述辅助网络的预测分数；
13.s6、将所述主干网络的预测分数和所述辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；
14.s7、计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于所述损失，对整体网络进行训练、优化，得到最优模型，基于所述最优模型，对虚拟现实图像进行质量评估。
15.优选的，s1所述主干网络包括基于注意力机制的vision transformer。
16.优选的，s2所述多个视口图像包括：上、下、前、后、左、右六个方位对应的视口图像。
17.优选的，s3获得所述主干网络预测分数的方法包括：
18.将所述视口图像输入至所述主干网络，获得所述视口图像的高维特征；
19.对所述高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对所述第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；
20.将所述高维特征和所述视口空间位置关联特征进行拼接，获得第二拼接特征，并对所述第二拼接特征进行感知质量回归，得到所述主干网络的预测分数。
21.优选的，所述融合后的视口空间位置关联特征获取方法包括：
22.对所述高维特征进行拼接，得到所述第一拼接特征；
23.对所述第一拼接特征添加一维位置编码，获取视口空间拼接特征；
24.基于所述视口空间拼接特征，获得视口空间融合特征；
25.调整所述视口空间融合特征维度，基于特征融合提取模块，获得所述融合后的视口空间位置关联特征。
26.优选的，s4所述多尺度辅助网络的构建方法包括：
27.将所述视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；
28.以resnet50作为基础框架，基于所述多尺度输入，在最高池化层设置池化核大小，得到所述多尺度辅助网络。
29.优选的，s7所述损失的计算方法包括：采用mae损失函数，计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失。
30.本技术还提供一种虚拟现实图像质量评估系统，包括：第一网络构建模块、格式转换模块、第一分数预测模块、第二网络构建模块、第二分数预测模块、第三分数预测模块和模型优化模块；
31.所述第一网络构建模块用于基于注意力机制的vision transformer构建主干网络；
32.所述格式转换模块用于将二维erp格式图像转换为球体结构下的多个视口图像；
33.所述多个视口图像包括上、下、前、后、左、右六个方位对应的视口图像；
34.所述第一分数预测模块用于基于所述主干网络和所述视口图像，获得主干网络预
测分数；
35.所述第二网络构建模块用于构建多尺度辅助网络，基于所述多尺度辅助网络获得多尺度特征，并对所述多尺度特征进行融合，得到多尺度融合特征；
36.所述第二分数预测模块用于对所述多尺度特征及所述多尺度融合特征进行拼接，得到第三拼接特征，对所述第三拼接特征进行感知质量回归，得到所述辅助网络的预测分数；
37.所述第三分数预测模块用于将所述主干网络的预测分数和所述辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；
38.所述模型优化模块用于基于mae损失函数，计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于所述损失，对整体网络进行训练、优化，得到最优模型，并基于所述最优模型，对虚拟现实图像进行质量评估。
39.优选的，所述第二网络构建模块构建所述多尺度辅助网络的方法包括：
40.将所述视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；
41.以resnet50作为基础框架，基于所述多尺度输入，在最高池化层设置池化核大小，得到所述多尺度辅助网络。
42.优选的，所述第一分数预测模块获得所述主干网络预测分数的过程包括：
43.将所述视口图像输入至所述主干网络，获得所述视口图像的高维特征；
44.对所述高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对所述第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；
45.将所述高维特征和所述视口空间位置关联特征进行拼接，获得第二拼接特征，并对所述第二拼接特征进行感知质量回归，得到所述主干网络的预测分数。
46.本技术的有益效果为：
47.本技术公开了一种虚拟现实图像质量评估方法及系统，以视口图像作为网络输入，更加贴合人眼观看vr时的视觉感知效果。在此基础上，以vit为基础网络搭建整体网络架构。主干网络中，除了每个视口内部基于注意力提取特征以外，创新的将每个视口间的空间位置特征进行了进一步融合，有效提取了视口融合后的特征。除此以外，本发明还考虑到人眼观看vr时的多尺度感知特性，以原视口尺度为基准，调整出多个尺度作为辅助网络输入，并针对所述多尺度输入，建立多尺度特征提取与融合网络，从而进一步提高了vr全景图像质量预测准确度。
附图说明
48.为了更清楚地说明本技术的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
49.图1为本技术虚拟现实图像质量评估方法流程示意图；
50.图2为本技术虚拟现实图像质量评估方法具体流程示意图：
51.图3为本技术主干网络模块示意图；
52.图4为本技术辅助网络模块示意图；
53.图5为本技术空间位置关联性融合之后的特征提取子模块示意图；
54.图6为本技术多尺度融合子模块示意图；
55.图7为本技术虚拟现实图像质量评估系统结构示意图。
具体实施方式
56.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
57.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
58.实施例一
59.如图1、图2所示，本技术一种虚拟现实图像质量评估方法流程示意图，包括：
60.s1、构建主干网络；
61.本实施例中，主干网络采用基于注意力机制的vision transformer(vit)和resnet50的混合网络作为主体网络代替常规的卷积神经网络。
62.本实施例中，主干网络主要分为embedded、encoder两个阶段，具体结合步骤s3做详细说明。主干网络模块具体如图3所示。
63.s2、获取一张二维erp格式图像，将二维erp格式图像转换为球体结构下的多个视口图像；
64.考虑到人在观看全景图像时更多视点会落在赤道附近，极少视点落在两极，所以本实施例使用的视口提取方案为：以观看者为球心，提取当前位置对应的前、后、左、右、上、下六个视口，作为一组视口图像。考虑观看过程中起始位置的随机性，本实例中以观看者为圆心，赤道为圆，每2
°
为一个起始点，提取一组视口图像，由此，本实例中一张全景图像对应的视口图像数量为：(360/2)
×
6＝1080。
65.对视口图像进行resize操作：将视口图像维度统一调整到3
×
224
×
224，再进行normalization操作，本实施例中，设置mean＝[0.5,0.5,0.5]、std＝[0.5,0.5,0.5]，完成归一化处理过程后，对视口图像进行合理划分，分为训练集和测试集，在本实施例中，训练集与测试集按照7:3划分。
[0066]
s3、基于主干网络和视口图像，获得主干网络预测分数；
[0067]
获得主干网络预测分数的方法包括：
[0068]
s31、将视口图像输入至主干网络，获得视口图像的高维特征；
[0069]
embedded阶段:为有效利用vit中token在预训练阶段的位置编码信息，在将特征送入vit之前，要将数据维度统一到b
×
196
×
768(b表示batch_size)。在本实例中原始数据输入维度为b
×3×
224
×
224，经过resnet50提取视口图像特征后的特征维度为b
×
1024
×
14
×
14，将第三、第四维度做展平操作，展平之后的特征维度为b
×
1024
×
196，将第二、第三维度对调，对调之后的特征维度为b
×
196
×
1024。然后将特征通过一层全连接层，其中，全连接层的输入输出通道数分别设置为1024、768。输出的特征维度为b
×
196
×
768。然后加入一个相同维度，即维度为b
×1×
768的token，用于下游任务，我们称为class_token，输出的
特征维度为b
×
197
×
768。然后通过sum操作，给输出特征添加可学习的位置编码，以保证视口图像内容信息的完整性，输出的编码特征维度为b
×
197
×
768。
[0070]
encoder阶段:对编码特征进行基于注意力机制的进一步特征融合。将每个视口图像对应的编码特征，3次通过一个全连接层分别线性映射到与其相同维度的q、k、v三个向量，其中，全连接层的输入输出通道数分别设置为768、768。以q向量作为查询向量，k向量作为匹配向量，通过点乘的方式计算每两个token之间的“相似度”，我们将得到的这个“相似度”称为注意力权重:attention_weight。然后将注意力权重通过点乘的方式作用在k向量上，完成得到视口内部各token间的注意力特征提取，公式表示为：
[0071][0072]
式中，t表示转置操作，dk表示k向量的维度,softmax表示数据归一化操作。
[0073]
值得注意的是，在计算注意力权重时，考虑到图像包含特征的多样性，本次实例将每个token对应的q、k、v向量切分成多个，以q向量为例，切分后为对应的向量组为q1,q2,...,qn。对应下标的q、k、v向量分别做注意力特征提取的过程，再将获取到的多组注意力特征合并，得到基于注意力的视口图像特征。我们称这种方式为：多头注意力机制，本实例中设置的多头注意力个数为12。将获取得到的基于注意力的视口图像特征通过两层全连接层，两层全连接层的输入输出通道数分别为768、3072和3072、768。获取得到的输出特征维度为b
×
197
×
768。将以上过程重复多次，以更好的融合视口内部特征，本实例中设置的注意力模块层数为12。最后提取每个视口图像对应的class_token，class_token维度为b
×
768，通过一层全连接层，其中，全连接层的输入输出通道数为768、10，最终得到的高维特征为b
×
10。
[0074]
s32、对高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；
[0075]
其中，融合后的视口空间位置关联特征获取方法包括：
[0076]
s321、对高维特征进行拼接，得到第一拼接特征；
[0077]
将上述每个视口对应的class_token拼接起来，得到第一拼接特征，维度为b
×6×
768；
[0078]
s322、对第一拼接特征添加一维位置编码，获取视口空间拼接特征；
[0079]
通过sum操作加入一维位置编码，输出视口空间拼接特征，其维度为b
×6×
768。
[0080]
s323、基于视口空间拼接特征，获得视口空间融合特征；
[0081]
将视口空间拼接特征经过多层注意力模块，根据注意力机制提取各视口间的融合特征，获得视口空间融合特征。具体为：
[0082]
将视口空间拼接特征通过3层注意力模块，其中，注意力模块实现如步骤s31中attention_weight的计算过程，输出视口空间融合特征维度为b
×6×
768。
[0083]
s324、调整视口空间融合特征维度，基于特征融合提取模块，获得融合后的视口空间位置关联特征。
[0084]
将视口空间融合特征调整维度到b
×6×
16
×
48，然后通过一个特征提取子模块，具体如图5所示。
[0085]
其中，特征提取子模块包括四个block和一个池化层，每个block包括一个二维卷积层、一个batchnorm层、一个relu层，第一个block中卷积层的输入输出通道数分别为6、12，卷积核大小为7
×
7，步长为2
×
2，填充值为3
×
3，其余block中卷积核大小为3
×
3，步长为2
×
2，填充值为1
×
1；第二个block中卷积层的输入输出通道数分别为12、24，第三个block中卷积层的输入输出通道数分别为24、48，第四个block中卷积层的输入输出通道数分别为48、64。池化层卷积核大小为1
×
3，步长为1
×
1。
[0086]
经过特征提取子模块后的输出视口融合特征维度为b
×
64
×1×
1，调整其特征维度到b
×
64，然后通过一层全连接层，其中，全连接层的输入输出通道数为64、10，最终得到视口空间位置关联特征，其维度为b
×
10。
[0087]
s33、将高维特征和视口空间位置关联特征进行拼接，获得第二拼接特征，并对第二拼接特征进行感知质量回归，得到主干网络的预测分数。
[0088]
将高维特征和视口空间位置关联特征拼接起来，维度为b
×
70，通过一层全连接层，其中，全连接层的输入输出通道数为70、1，做一次感知质量回归，得到主干网络预测分数score1；
[0089]
s4、构建多尺度辅助网络，基于多尺度辅助网络获得多尺度特征，并对多尺度特征进行融合，得到多尺度融合特征；
[0090]
s41、辅助网络构建方法包括：
[0091]
(1)将视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；
[0092]
将前方方位视口图像进行两次resize操作，分别调整大小到448
×
448和112
×
112，将调整之后的图像尺度和原图像尺度一起，作为辅助网络的多尺度输入。
[0093]
(2)以resnet50作为基础框架，基于多尺度输入，在最高池化层设置池化核大小，得到多尺度辅助网络。
[0094]
辅助网络以resnet50为基础搭建，针对不同的输入尺度，设置不同的average_pooling大小，本实例中针对448
×
448、224
×
224、112
×
112分别设置卷积核大小为14
×
14、7
×
7、4
×
4的池化层，我们称这一改进之后的网络为re_resnet50，即多尺度辅助网络。辅助网络模块具体如图4所示。
[0095]
多尺度输入并行通过re_resnet50网络，得到相同的输出维度b
×
1024，然后经过一层全连接层，其中，全连接层的输入输出通道数分别为1024、10，得到多尺度特征，多尺度特征维度为b
×
10。
[0096]
s42、将多尺度特征做进一步融合，得到多尺度融合特征：
[0097]
将多尺度特征拼接起来，维度为b
×3×
10，再调整维度到b
×1×3×
10，然后通过多尺度特征融合子模块，如图6所示，多尺度特征融合子模块由卷积核为3
×
3的二维空洞卷积层和relu层组成，用于融合多尺度特征维度,本实例多尺度个数为3，输出多尺度融合特征维度为b
×1×3×
10。将多尺度融合特征调整维度到b
×
30，通过一层全连接层，全连接层的输入输出通道数分别为30、10，最终输出多尺度融合特征，其维度为b
×
10。
[0098]
s5、对多尺度特征及多尺度融合特征进行拼接，得到第三拼接特征，对第三拼接特征进行感知质量回归，得到辅助网络的预测分数；
[0099]
将多尺度特征和多尺度融合特征拼接起来，维度为b
×
40，通过一层全连接层，其
中，全连接层的输入输出通道数分别为40、1，做一次感知质量回归，得到辅助网络的预测分数score2；
[0100]
s6、将主干网络的预测分数和辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；
[0101]
将上述预测分数score1、score2拼接起来，维度为b
×
2，然后通过一层全连接层，其中，全连接层的输入输出通道数分别为2、1，得到最终全景图像感知质量预测分数score。
[0102]
s7、计算全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于损失，对整体网络进行训练、优化，得到最优模型，基于最优模型，对虚拟现实图像进行质量评估。
[0103]
采用mae损失函数，在全景图像感知质量预测分数score与对应全景图像的主观质量分数score
ground_truth
之间计算损失，根据损失函数训练优化网络loss＝(score-score
ground_truth
)2，使得损失逐步降低，经过训练，最终得到鲁棒性能更好的vr全景图像客观质量评估模型。
[0104]
本实施例中，训练5次以内，将得到最优模型，并以.pkl格式保存下来，用于对虚拟现实图像进行质量评估。
[0105]
本技术所提出的虚拟现实全景图像质量预测方法充分考虑了人眼视觉感知特性，模拟真实场景下人眼观看vr的场景。以视口图像作为网络输入，在模型搭建过程中，以vit作为主干网络，在此基础上，建立了有效的视口空间位置融合模型，对六个不同空间位置的视口进行了有效的信息融合；辅助网络模拟人眼观看vr时的多尺度感知特性，搭建多尺度质量感知网络，有效融合多尺度特征。最终综合两支路网络，得到vr全景图像预测质量分数。本发明充分考虑到视口空间位置特性对于人眼视觉质量感知的影响，从而提高了全景图像质量预测的性能。
[0106]
实施例二
[0107]
如图7所示，本技术还提供一种虚拟现实图像质量评估系统，包括：第一网络构建模块、格式转换模块、第一分数预测模块、第二网络构建模块、第二分数预测模块、第三分数预测模块和模型优化模块；
[0108]
第一网络构建模块用于构建主干网络，本实施例中，主干网络采用基于注意力机制的vision transformer(vit)和resnet50的混合网络作为主体网络代替常规的卷积神经网络。
[0109]
本实施例中，主干网络主要分为embedded、encoder两个阶段，具体工作过程结合其他模块进行详细说明；
[0110]
格式转换模块用于将二维erp格式图像转换为球体结构下的多个视口图像；
[0111]
具体工作过程包括：
[0112]
考虑到人在观看全景图像时更多视点会落在赤道附近，极少视点落在两极，所以本实施例使用的视口提取方案为：以观看者为球心，提取当前位置对应的前、后、左、右、上、下六个视口，作为一组视口图像。考虑观看过程中起始位置的随机性，本实例中以观看者为圆心，赤道为圆，每2
°
为一个起始点，提取一组视口图像，由此，本实例中一张全景图像对应的视口图像数量为：(360/2)
×
6＝1080。
[0113]
对视口图像进行resize操作：将视口图像维度统一调整到3
×
224
×
224，再进行
normalization操作，本实施例中，设置mean＝[0.5,0.5,0.5]、std＝[0.5,0.5,0.5]，完成归一化处理过程后，对视口图像进行合理划分，分为训练集和测试集，在本实施例中，训练集与测试集按照7:3划分。
[0114]
第一分数预测模块用于基于主干网络和视口图像，获得主干网络预测分数；
[0115]
具体工作过程包括：
[0116]
(1)将视口图像输入至主干网络，获得视口图像的高维特征；
[0117]
embedded阶段:为有效利用vit中token在预训练阶段的位置编码信息，在将特征送入vit之前，要将数据维度统一到b
×
196
×
768(b表示batch_size)。在本实例中原始数据输入维度为b
×3×
224
×
224，经过resnet50提取视口图像特征后的特征维度为b
×
1024
×
14
×
14，将第三、第四维度做展平操作，展平之后的特征维度为b
×
1024
×
196，将第二、第三维度对调，对调之后的特征维度为b
×
196
×
1024。然后将特征通过一层全连接层，其中，全连接层的输入输出通道数分别设置为1024、768。输出的特征维度为b
×
196
×
768。然后加入一个相同维度，即维度为b
×1×
768的token，用于下游任务，我们称为class_token，输出的特征维度为b
×
197
×
768。然后通过sum操作，给输出特征添加可学习的位置编码，以保证视口图像内容信息的完整性，输出的编码特征维度为b
×
197
×
768。
[0118]
encoder阶段:对编码特征进行基于注意力机制的进一步特征融合。将每个视口图像对应的编码特征，3次通过一个全连接层分别线性映射到与其相同维度的q、k、v三个向量，其中，全连接层的输入输出通道数分别设置为768、768。以q向量作为查询向量，k向量作为匹配向量，通过点乘的方式计算每两个token之间的“相似度”，我们将得到的这个“相似度”称为注意力权重:attention_weight。然后将注意力权重通过点乘的方式作用在k向量上，完成得到视口内部各token间的注意力特征提取，公式表示为：
[0119][0120]
式中，t表示转置操作，dk表示k向量的维度,softmax表示数据归一化操作。
[0121]
值得注意的是，在计算注意力权重时，考虑到图像包含特征的多样性，本次实例将每个token对应的q、k、v向量切分成多个，以q向量为例，切分后为对应的向量组为q1,q2,...,qn。对应下标的q、k、v向量分别做注意力特征提取的过程，再将获取到的多组注意力特征合并，得到基于注意力的视口图像特征。我们称这种方式为：多头注意力机制，本实例中设置的多头注意力个数为12。将获取得到的基于注意力的视口图像特征通过两层全连接层，两层全连接层的输入输出通道数分别为768、3072和3072、768。获取得到的输出特征维度为b
×
197
×
768。将以上过程重复多次，以更好的融合视口内部特征，本实例中设置的注意力模块层数为12。最后提取每个视口图像对应的class_token，class_token维度为b
×
768，通过一层全连接层，其中，全连接层的输入输出通道数为768、10，最终得到高维特征为b
×
10。
[0122]
(2)对高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；
[0123]
(21)对高维特征进行拼接，得到第一拼接特征；
[0124]
将上述每个视口对应的class_token拼接起来，得到第一拼接特征，维度为b
×6×
768；
[0125]
(22)对第一拼接特征添加一维位置编码，获取视口空间拼接特征；
[0126]
通过sum操作加入一维位置编码，输出视口空间拼接特征，其维度为b
×6×
768。
[0127]
(23)基于视口空间拼接特征，获得视口空间融合特征；
[0128]
将视口空间拼接特征经过多层注意力模块，根据注意力机制提取各视口间的融合特征，获得视口空间融合特征。具体为：
[0129]
将视口空间拼接特征通过3层注意力模块，其中，注意力模块实现如步骤s31中attention_weight的计算过程，输出视口空间融合特征维度为b
×6×
768。
[0130]
(24)调整视口空间融合特征维度，基于特征融合提取模块，获得融合后的视口空间位置关联特征。
[0131]
将视口空间融合特征调整维度到b
×6×
16
×
48，然后通过一个特征提取子模块。
[0132]
其中，特征提取子模块包括四个block和一个池化层，每个block包括一个二维卷积层、一个batchnorm层、一个relu层，第一个block中卷积层的输入输出通道数分别为6、12，卷积核大小为7
×
7，步长为2
×
2，填充值为3
×
3，其余block中卷积核大小为3
×
3，步长为2
×
2，填充值为1
×
1；第二个block中卷积层的输入输出通道数分别为12、24，第三个block中卷积层的输入输出通道数分别为24、48，第四个block中卷积层的输入输出通道数分别为48、64。池化层卷积核大小为1
×
3，步长为1
×
1。
[0133]
经过特征提取子模块后的输出视口融合特征维度为b
×
64
×1×
1，调整其特征维度到b
×
64，然后通过一层全连接层，其中，全连接层的输入输出通道数为64、10，最终得到视口空间位置关联特征，其维度为b
×
10。
[0134]
(3)将高维特征和视口空间位置关联特征进行拼接，获得第二拼接特征，并对第二拼接特征进行感知质量回归，得到主干网络的预测分数。
[0135]
将高维特征和视口空间位置关联特征拼接起来，维度为b
×
70，通过一层全连接层，其中，全连接层的输入输出通道数为70、1，做一次感知质量回归，得到主干网络预测分数score1；
[0136]
第二网络构建模块用于构建多尺度辅助网络，基于多尺度辅助网络获得多尺度特征，并对多尺度特征进行融合，得到多尺度融合特征；
[0137]
具体工作过程包括：
[0138]
(1)将视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；
[0139]
将前方方位视口图像进行两次resize操作，分别调整大小到448
×
448和112
×
112，将调整之后的图像尺度和原图像尺度一起，作为辅助网络的多尺度输入。
[0140]
(2)以resnet50作为基础框架，基于多尺度输入，在最高池化层设置池化核大小，得到多尺度辅助网络。
[0141]
辅助网络以resnet50为基础搭建，针对不同的输入尺度，设置不同的average_pooling大小，本实例中针对448
×
448、224
×
224、112
×
112分别设置卷积核大小为14
×
14、7
×
7、4
×
4的池化层，我们称这一改进之后的网络为re_resnet50，即多尺度辅助网络。
[0142]
多尺度输入并行通过re_resnet50网络，得到相同的输出维度b
×
1024，然后经过一层全连接层，其中，全连接层的输入输出通道数分别为1024、10，得到多尺度特征，多尺度
特征维度为b
×
10。
[0143]
(3)将多尺度特征做进一步融合，得到多尺度融合特征：
[0144]
将多尺度特征拼接起来，维度为b
×3×
10，再调整维度到b
×1×3×
10，然后通过多尺度特征融合模块，多尺度特征融合模块由卷积核为3
×
3的二维空洞卷积层和relu层组成，用于融合多尺度特征维度,本实例多尺度个数为3，输出多尺度融合特征维度为b
×1×3×
10。将多尺度融合特征调整维度到b
×
30，通过一层全连接层，全连接层的输入输出通道数分别为30、10，最终输出多尺度融合特征，其维度为b
×
10。
[0145]
第二分数预测模块用于对多尺度特征及多尺度融合特征进行拼接，得到第三拼接特征，对第三拼接特征进行感知质量回归，得到辅助网络的预测分数；
[0146]
将多尺度特征和多尺度融合特征拼接起来，维度为b
×
40，通过一层全连接层，其中，全连接层的输入输出通道数分别为40、1，做一次感知质量回归，得到辅助网络的预测分数score2；
[0147]
第三分数预测模块用于将主干网络的预测分数和辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；
[0148]
具体工作过程包括：
[0149]
将上述预测分数score1、score2拼接起来，维度为b
×
2，然后通过一层全连接层，其中，全连接层的输入输出通道数分别为2、1，得到最终全景图像感知质量预测分数score。
[0150]
模型优化模块用于基于mae损失函数，计算全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于损失，对整体网络进行训练、优化，得到最优模型，并基于最优模型，对虚拟现实图像进行质量评估。
[0151]
具体工作流程包括：
[0152]
采用mae损失函数，在全景图像感知质量预测分数score与对应全景图像的主观质量分数score
ground_truth
之间计算损失，根据损失函数训练优化网络loss＝(score-score
ground_truth
)2，使得损失逐步降低，经过训练，最终得到鲁棒性能更好的vr全景图像客观质量评估模型，用于对虚拟现实图像进行质量评估。
[0153]
以上所述的实施例仅是对本技术优选方式进行的描述，并非对本技术的范围进行限定，在不脱离本技术设计精神的前提下，本领域普通技术人员对本技术的技术方案做出的各种变形和改进，均应落入本技术权利要求书确定的保护范围内。

技术特征：

1.一种虚拟现实图像质量评估方法，其特征在于，包括：s1、构建主干网络；s2、获取一张二维erp格式图像，将所述二维erp格式图像转换为球体结构下的多个视口图像；s3、基于所述主干网络和所述视口图像，获得主干网络预测分数；s4、构建多尺度辅助网络，基于所述多尺度辅助网络获得多尺度特征，并对所述多尺度特征进行融合，得到多尺度融合特征；s5、对所述多尺度特征及所述多尺度融合特征进行拼接，得到第三拼接特征，对所述第三拼接特征进行感知质量回归，得到所述辅助网络的预测分数；s6、将所述主干网络的预测分数和所述辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；s7、计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于所述损失，对整体网络进行训练、优化，得到最优模型，基于所述最优模型，对虚拟现实图像进行质量评估。2.根据权利要求1所述虚拟现实图像质量评估方法，其特征在于，s1所述主干网络包括基于注意力机制的vision transformer。3.根据权利要求1所述虚拟现实图像质量评估方法，其特征在于，s2所述多个视口图像包括：上、下、前、后、左、右六个方位对应的视口图像。4.根据权利要求1所述虚拟现实图像质量评估方法，其特征在于，s3获得所述主干网络预测分数的方法包括：将所述视口图像输入至所述主干网络，获得所述视口图像的高维特征；对所述高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对所述第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；将所述高维特征和所述视口空间位置关联特征进行拼接，获得第二拼接特征，并对所述第二拼接特征进行感知质量回归，得到所述主干网络的预测分数。5.根据权利要求4所述虚拟现实图像质量评估方法，其特征在于，所述融合后的视口空间位置关联特征获取方法包括：对所述高维特征进行拼接，得到所述第一拼接特征；对所述第一拼接特征添加一维位置编码，获取视口空间拼接特征；基于所述视口空间拼接特征，获得视口空间融合特征；调整所述视口空间融合特征维度，基于特征融合提取模块，获得所述融合后的视口空间位置关联特征。6.根据权利要求3所述虚拟现实图像质量评估方法，其特征在于，s4所述多尺度辅助网络的构建方法包括：将所述视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；以resnet50作为基础框架，基于所述多尺度输入，在最高池化层设置池化核大小，得到所述多尺度辅助网络。7.根据权利要求1所述虚拟现实图像质量评估方法，其特征在于，s7所述损失的计算方
法包括：采用mae损失函数，计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失。8.一种虚拟现实图像质量评估系统，其特征在于，包括：第一网络构建模块、格式转换模块、第一分数预测模块、第二网络构建模块、第二分数预测模块、第三分数预测模块和模型优化模块；所述第一网络构建模块用于基于注意力机制的vision transformer构建主干网络；所述格式转换模块用于将二维erp格式图像转换为球体结构下的多个视口图像；所述多个视口图像包括上、下、前、后、左、右六个方位对应的视口图像；所述第一分数预测模块用于基于所述主干网络和所述视口图像，获得主干网络预测分数；所述第二网络构建模块用于构建多尺度辅助网络，基于所述多尺度辅助网络获得多尺度特征，并对所述多尺度特征进行融合，得到多尺度融合特征；所述第二分数预测模块用于对所述多尺度特征及所述多尺度融合特征进行拼接，得到第三拼接特征，对所述第三拼接特征进行感知质量回归，得到所述辅助网络的预测分数；所述第三分数预测模块用于将所述主干网络的预测分数和所述辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；所述模型优化模块用于基于mae损失函数，计算所述全景图像感知质量预测分数与全景图像主观质量分数的损失，并基于所述损失，对整体网络进行训练、优化，得到最优模型，并基于所述最优模型，对虚拟现实图像进行质量评估。9.根据权利要求8所述虚拟现实图像质量评估系统，其特征在于，所述第二网络构建模块构建所述多尺度辅助网络的方法包括：将所述视口图像中的前方方位视口图像通过resize调整到多个新的尺度，作为多尺度输入；以resnet50作为基础框架，基于所述多尺度输入，在最高池化层设置池化核大小，得到所述多尺度辅助网络。10.根据权利要求8所述虚拟现实图像质量评估系统，其特征在于，所述第一分数预测模块获得所述主干网络预测分数的过程包括：将所述视口图像输入至所述主干网络，获得所述视口图像的高维特征；对所述高维图像特征进行拼接，得到第一拼接特征，并基于空间位置对所述第一拼接特征进行特征融合，获得融合后的视口空间位置关联特征；将所述高维特征和所述视口空间位置关联特征进行拼接，获得第二拼接特征，并对所述第二拼接特征进行感知质量回归，得到所述主干网络的预测分数。

技术总结

本申请公开了一种虚拟现实图像质量评估方法及系统，包括：构建主干网络；获取二维ERP格式图像，将其转换为球体结构下的多个视口图像，并获得主干网络预测分数；构建多尺度辅助网络，基于多尺度辅助网络获得多尺度特征，并对其进行融合，得到多尺度融合特征；对多尺度融合特征进行拼接，并进行感知质量回归，得到辅助网络的预测分数；将主干网络和辅助网络的预测分数进行拼接，得到全景图像感知质量预测分数；计算全景图像感知质量预测分数与全景图像主观质量分数的损失，并对整体网络进行训练、优化，得到最优模型，进而对虚拟现实图像进行质量评估。本申请考虑到人眼观看VR时的多尺度感知特性，进一步提高了VR全景图像质量预测准确度。准确度。准确度。