71
滑线导轨电子技术
Electronic Technology
电子技术与软件工程
Electronic Technology & Software Engineering
当圆形浮标阵形的半径大于或等于需要搜索区域的半径时,首
先将声纳浮标布成圆形阵形,包围要搜索的区域。然后利用吊放声纳在包围区域内进行反潜作业。一旦声纳浮标形成了包围圈,在装载浮标处理系统的直升机留空时间或者装载吊放声纳的直升机留空时间(取小值)内,发现潜艇的概率取决于吊放声纳搜索概率或者浮标的识别概率乘积。 表3代表不同声纳浮标数量,在作用距离为3km 、良好水文条件和完好率为80%情况下,圆形浮标阵所能包围区域的最大海域半径。
利用2架反潜直升机,分别装载吊放声纳和声纳浮标。在潜艇6kn 的逃逸速度情况下,反潜直升机基准作
战半径120km ,设定作战半径为相应的舰载声纳作用距离,直升机飞行速度180千米/小时,每架机携带16枚被动全向浮标。当载舰以15节航速航行时,良好水文条件下,根据表4和表5分析结果可知采用吊放声纳搜潜的发现概率为100%,因此最终发现概率取决于浮标的识别概率。4 结论
在潜艇6kn 的逃逸速度情况下,反潜直升机基准作战半径120km ,设定作战半径为相应的声纳作用距离,直升机飞行速度180千米/小时,每架机携带16枚被动全向浮标,浮标完好率80%,浮标识别概率为80%,良好水文条件下吊放声纳作用距离为6km 。在这些条件下:
(1)在目前的战技指标情况下,单纯利用2架反潜直升机上的吊放声纳执行载舰的应召反潜任务,发现概率偏低,不能满足要求;当指标成倍提升时,单架机的搜潜发现概率依然偏低,但双机协同时,发现概率较优;
(2)在目前的战技指标情况下,单纯利用反潜直升机上的被动全向声纳浮标,无论是单机还是双机协同,其发现概率都偏低;但当技术指标增长50%时,其单机搜潜发现概率已可满足载舰的应召反潜需求;
(3)在目前的战技指标情况下,利用2架直升机,1架装载吊放声纳,1架装载声纳浮标,可以较好的实现载舰的应召反潜需求,
发现概率取决于浮标识别概率。
(4)当吊放声纳的最大作用距离提高到12km 时,利用反潜直升机上的吊放声纳执行载舰的应召反潜任务,良好水文条件下双机协同反潜时,发现概率可以达到83.4%。
从上述分析结论可知,提高反潜直升机吊放声纳和声纳浮标的探测指标对基于载舰应召反潜效能有着重大意义。要达到同样的搜潜效能,不仅可节约舰载直升机的数量,也可灵活选择单架直升机或者双机进行协同。
今后,随着吊放声纳的探测能力以及声纳浮标种类和指标的提升,上述分析对反潜直升机的应召反潜具有一定的指导意义,也可得出水声探测指标的提升对搜潜效能的重大意义,因此提升反潜直升机的搜潜能力迫在眉睫。
参考文献
[1]高学强,杨日杰,安昕等.潜艇机动规避对抗吊放声纳搜索技
术仿真要求[J].测试技术学报,2009,23(1):14-18.
[2]刘伯胜,雷家煜.水声学原理[M].哈尔滨:哈尔滨工程大学
出版社,2006.
[3]陈建勇,冷江,于传健.使用吊放声纳的直升机应召搜潜发现
概率[J].海军航空工程学院学报,2004,19(5):559-561.
[4]吴杰,孙明太,刘海光.反潜机协同作战样式及关键问题研究
[J].国防科技,2016,297(2):101-104.
[5]叶敬礼,罗德刚,宋裕农.舰载飞机使用声纳浮标搜潜阵式分
析[J].火力与指挥控制,2002,27(增刊):53-55.作者简介
竹建东(1987-),男,浙江省嵊州市人。硕士研究生,工程师。研究方向为直升机航电武器与控制等。
王化吉,大学本科学历,高工。研究方向为航电武器与控制。孙黎静,硕士研究生,高工。研究方向为航电武器与控制。
李宏宇,硕士研究生,助理工程师。研究方向为航电武器与控制。许恒博,硕士研究生,助理工程师。研究方向为航电武器与控制。
1 引言
近年来,随着家用机器人、自动驾驶、无人机、AR/VR 等产业的发展。SLAM (Simultaneous Localization and Mapping ,同步定位与建图)技术也呈现出了一个快速发展的态势。SLAM 技术为可移动设备提供了实时可靠的定位功能。其中,使用摄像头作为传感器的视觉SLAM ,凭借其远低于激光雷达的成本,获得了市场和研究人员的青睐,得到了快速的发展。
回环检测是视觉SLAM 中的一个重要组成部分,其目的是消除移动机器人在长时间的工作下产生的位姿估计的累计误差。它通过计算图像之间的相似度检测回环。在得到了回环信息之后,SLAM 后端优化算法便可以根据回环约束对位姿进行优化,得到更加精确的定位。 基于Mask R-CNN 的回环检测算法
林钊浩 徐颖
(深圳大学机电与控制工程学院 广东省深圳市 518061)
目前,在回环检测问题中已经比较成熟且广泛应用的算法是基于BOW (BagofWords ,词袋模型),并使用无监督学习算法K-means 和TF-IDF 加权方式(Term Frequency-Inverse Document Frequency )[1]的算法[2]。但是,BOW 存在一些缺点。它需要计算SIFT ,SURF ,ORB 等人工设计的图像特
征,这通常比较消耗计算资源且效率低下。而且,这些人工设计的特征对于光线强度的变化都比较敏感[3]。
近年来,随着深度学习技术的发展,CNN (Convolutional Neural Network,卷积神经网络)在图像处理上的应用也越来越广泛,并且取得了超过传统算法的效果。而回环检测问题,本质上就是一个图像间的特征匹配问题,属于图像处理的范畴,所以,可以借用CNN 的技术对回环检测算法进行提高。
摘 要:本文针对SLAM 问题中的回环检测算法进行研究,结合深度学习技术,提出了基于Mask R-CNN 的回环检测算法。该算法利用Mask R-CNN 检测得到的掩膜表示图像特征,定义了一种基于物体掩膜的计算图像相似度的方法。本文还将该算法与经典的BOW 算法进行了融合,提出了2种融合算法的方式。本文在2个开放的数据集NewCollege 和CityCentre 对提出的算法进行了实验。实验结果表明,融合算法有着比BOW 算法更高的性能,而且随着图像中可识别物体数量的增加,性能也会增加。 关键词:视觉SLAM;回环检测;深度学习;Mask R-CNN;算法融合
电子技术Electronic Technology
电磁屏蔽导电胶电子技术与软件工程Electronic Technology & Software Engineering
2 算法结构
本文提出的算法称为LOM(ListofMasks,掩膜列表),通过Mask R-CNN[4]得到图像中可识别物体的掩膜,利用掩膜表示图像特征。它通过计算两张图像所有掩膜之间的相似程度来判断两张图像是否构成回环。为了提高该算法的通用性,本文还将该算法与经典的词袋模型进行融合。
2.1 LOM
2.1.1 特征表示
LOM使用Mask R-CNN提取的掩膜来表示图像特征。一幅图像可以表示为若干个物体掩膜的列表:
其中,M i表示第i张图像,m iu表示M i的第u个掩膜,其表现形式是和图像同等大小的矩阵,若图像中某一个像素属于m iu,则m iu的矩阵中该位置的值为1,否则为0。|M i|是图像M i中检测得到的物体掩膜的个数。
2.1.2 相似度计算
本文通过计算两张图像的同类别的物体掩膜之间的交并比IOU (Intersection over Union,交并比)来衡量两张图像的相似度。
但是,由于一张图像中存在的1个类别的掩膜可能不止1个,所以,需要确定M i中的每一个掩膜是匹配M j中的哪一个掩膜。匹配的原则是要尽量保证M i与M j对应的掩膜来自于物理世界中的同一个物体。
如果M i和M j存在回环,那么M i和M j匹配的每两个掩膜之间应该存在比较大的IOU,因为此时两张图像是极为相似的。而且,掩膜之间应该一一匹配,不能出现1个掩膜匹配2个掩膜的情况。那么,掩膜匹配问题就可以抽象成一个指派问题,即如何到一个最优的匹配关系,使得使用该匹配关系计算得到的IOU的和最大,且每一个M i掩膜只能与一个M j掩膜匹配。解决指派问题的经典算法之一就是匈牙利算法[5]。匈牙利算法应用在掩膜匹配问题中的算法流程图如图1所示。
其中,第2步要交换M i,M j是为了保证|M i|≥|M j|,这样便于编程实现。
第4步要使用1减去矩阵T的每一个元素是因为匈牙利算法的最优值是代价的最小值,而掩膜匹配问题的最优值是IOU的最大值,所以使用1减去矩阵T的每一个元素,再利用匈牙利算法进行求解,才可以得到掩膜匹配问题的最优解,求解得到的结果是一个形如P 的由二元组组成的集合。
P={(1,2),…,(u-1,0),(u,w),…}
其中,一个匹配对是一个二元组,第一个元素表示M i中的掩膜序号,第二个元素表示与之匹配的M_j中的掩膜序号,0表示“未到匹配”,因为|M i|≥|M j|,所以只有二元组的第二个元素可能为0。
得到匹配关系之后就可以计算两张图像之间的总IOU作为LOM的相似度:
其中,|m iu∩m jw|表示m iu和m jw的交集的像素个数。|m iu∪m jw|表示m iu和m jw的并集的像素个数。假如w为0,即m iu没有匹配的M i掩膜,则|m iu∩m jw|=0,|m iu∪m jw|=|m iu|
得到相似度之后,通过设置阈值就可以判断两张图片是否存在
表1:子数据集信息标表
子数据集名称原始数据集最少物体数平均物体数图像张数nc0New College00.16402146
nc1New College1 1.3858254
nc2New College2 2.633360
cc0City Centre0 1.02752474
cc1City Centre1 2.23371138
cc2City Centre2 3.2145634
表2:实验结果
算法BOW LOM fusion fusion2
nc00.59%/0.59%0.59%
rtrenc112.60%/11.81%17.32%
cc00.96%/ 1.25% 1.27%
电蒸汽发生器蒸箱cc1 1.03%/ 1.30% 3.42%
cc2
1.37%/ 1.88%8.26%
图3:City Centre数据集
0508.jpg
图2:City Centre数据集
0326.jpg
●基金项目:基于直接法的语义SLAM室内场景建模研究,大学生创新训练项目,000029020408。
图1:掩膜匹配流程图
72
73
电子技术
94crw
Electronic Technology
电子技术与软件工程
Electronic Technology & Software Engineering
回环。其中,表示使用LOM 对M i 和M j 是否存在回环的判断结果,
0表示不存在回环,1表示存在回环。
2.2 算法融合
LOM 依赖于Mask R-CNN 检测到的物体掩膜,只能识别场景中的部分物体。当场景中可识别的物体比较少时,LOM 的性能就会下降。所以,为了提高LOM 的通用性,本文将其与BOW 进行融合,并提出了两种算法融合的方式,分别是线性组合和使用双阈值。
2.2.1 线性组合
本文首先考虑的是使用线性组合。由于LOM 在物体较多的时候更为可靠,所以,利用图像中的物体个数对LOM 分配权重。物体数量多时给予LOM 更大的权重,反之给予BOW 更大的权重。公式如下。
λ=min(λi ,λj )
其中,max|M|表示整个数据集中在一张图像中能检测出来的最大物体掩膜个数。λ是LOM 的权重。表示使用线性组合融印花交联剂
合LOM 和BOW 的相似度。表示判断结果。
2.2.2 设置双阈值
另外一种融合LOM 和BOW 的方式是使用两个阈值。分别利用BOW 和LOM 对M i 和M j 是否存在回环进行判断,只有当两个算法同时判定M i 和M j 存在回环,才判断M i 和M j 存在回环。公式如下:
其中,表示使用双阈值融合LOM 和BOW 对M i 和M j 是否存在回环的判断结果。3 实验3.1 数据集
实验使用两个开放的数据集New College 和City Centre 。以图像中的最少物体数为筛选条件,本文筛选出6个子数据集,全部子数据集的信息如表1所示,其中,nc0和cc0等价于原数据集。nc2由于图像张数过少,所以不使用它进行实验。 3.2 模型训练
本文使用谷歌发布的预训练网络。该网络基于InceptionV2并在MSCOCO 数据集上完成训练。BOW 的实现使用DBoW3库 。
在New College 和City Centre 数据集上使用的词袋模型字典分别是使用New College 和City Centre 数据集进行训练的。3.3 实验结果
本文使用100%精确度下的最高召回率作为系统性能的指标。实验结果如表2所示,fusion 表示使用线性组合融合的算法,fusion2表示使用双阈值融合的算法。在计算精确度和召回率的过程中,所有的阈值都是从0以最大值的1/500增加到最大值。加粗字体是在同一个子数据集下得到的最好性能。
表2中LOM 没有数据是因为无论取任何一个阈值,LOM 都无法达到100%精确度,所以不存在100%
精确度下的最高召回率。LOM 之所以性能这么差,是因为它只考虑了图像的高层特征,而不考虑图像的低层特征。如图2和图3,高层特征,也就是图像中可识别物体的类别和占据的像素位置,都很相似,但是低层特征,如颜,纹理等,很不相似。
表2中,从横向来看,无论是在哪一个数据集上,使用双阈值融合LOM 和BOW 的性能在各个数据集上都是最好的。这得益于该融合方式存在2个阈值,将BOW 相似度和LOM 相似度分开计算和判断,同时考虑了图像的高层特征和低层特征,只有在高层特征和低层特征都相似的时候,才会判定为存在回环。从纵向来看,不论是New College 还是City Centre ,随着图像中的可识别物体数越来越多时,2种融合算法相对于BOW 的提升越来越大。4 结论
本文使用Mask R-CNN 提取图像中的物体掩膜,并利用物体掩膜表示图像特征,定义了一种基于物体掩膜计算图像相似度的方
法。本文还提出了两种融合LOM 和BOW 的方法。通过实验,可以看到融合算法在New College 和City Centre 数据集上的表现优于BOW ,而且随着图像中物体掩膜个数的增加,与BOW 的性能差距也逐渐增大。参考文献
[1]Robertson S.了解反文档频率:关于IDF 的理论论证[J].
Journal of Documentation, 2004,60(5):503-520.
[2]Sivic J, Zisserman A. 谷歌视频:一种用于视频中对象匹配
的文本检索方法[C]//Computer Vision, IEEE International Conference on. IEEE Computer Society, 2003, 3: 1470-1470.
[3]Hou Y, Zhang H, Zhou S.基于卷积神经网络的图像表示,用于
视觉环闭合检测[C]//2015 IEEE international conference on information and automation. IEEE, 2015: 2238-2245.[4]He K, Gkioxari G, Dollár P, et al. 掩膜区域卷积神经网络
[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
[5]Kuhn H W. 指派问题的匈牙利方法[J]. Naval research
logistics quarterly, 1955, 2(1-2): 83-97.作者简介
林钊浩(1998-),男,广东省揭阳市人。深圳大学本科在读。研究方向为SLAM。
徐颖,博士学历,深圳大学副教授。研究方向为智能辅助驾驶、机器视觉。