1.本发明属于计算机辅助
手术的技术领域,尤其涉及一种应用于机器人辅助手术视频分析的实时手术
工具检测方法。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.计算机辅助手术是一种新的外科辅助手段,其利用计算机技术来辅助外科医生或手术机器人来完成外科手术。与传统的手术不同,计算机辅助手术能减少因为人的主观意识、疲劳等其他因素造成的手术事故,可以降低医护人员被传染的概率。尤其是计算机辅助手术系统中的手术工具检测技术,通过检测与识别微创手术工具在人体内的位置与类别等信息,可以辅助外科医生对手术过程的判断与决策,具有一定的导航作用,使手术更安全的进行。
4.手术工具实时检测是计算机辅助手术领域的核心技术之一,其任务是用方框标示出图像中手术工具的具体位置,并给出手术工具的类别,以为外科医生或辅助机器人提供不同工具的实时位置信息等,提高手术效率,减少并发症的发生。因为要将手术工具检测技术用在手术视频图像中,所以需要在手术工具的检测过程中做到又快又准,即实时性和准确性是手术工具检测的需求。
5.与一般的目标检测任务不同,用于手术工具检测的实际图像往往存在着血雾、模糊、移动速度过快等不利于手术工具检测的因素,这就会导致手术工具检测精度下降,从而影响手术导航过程对人体造成危害;另一方面来说,要通过手术工具检测来帮助实施手术导航,实时性是非常必要的,若达不到手术工具检测的实时性,就会延误医生在手术过程中的视野,对人体造成不必要的损害。但是目前的手术工具检测所采用的方法非常耗时,需要生成非常多的锚盒作为先验框甚至还需要将先验框映射回图像
特征图,这增加了计算量,非常耗时,达不到实时性的效果。
技术实现要素:
6.为克服上述现有技术的不足,本发明提供了一种应用于机器人辅助手术视频分析的实时手术工具检测方法,提高了手术工具检测的速度及准确度。
7.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
8.本发明第一方面提供了一种应用于机器人辅助手术视频分析的实时手术工具检测方法,包括:
9.采集计算机辅助手术视频并处理得到手术图像;
10.对手术图像以逐像素预测方式进行分类预测,回归预测与中心度预测;
11.根据回归预测得到手术工具的候选
边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的
边界框。
12.本发明第二方面提供了应用于机器人辅助手术视频分析的实时手术工具检测方法,包括:
13.采集计算机辅助手术视频并处理得到手术图像;
14.对手术图像以逐像素预测方式进行分类预测,回归预测与中心度预测;
15.根据回归预测得到手术工具的边界框,并利用后处理非极大值抑制算法得到最终的边界框。
16.本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。
17.本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。
18.以上一个或多个技术方案存在以下有益效果:
19.1、本发明采用无锚框卷积神经网络架构,避免了复杂的锚框计算,显著减少了参数的数量。并结合了注意力机制来增强网络的表达能力,提高了网络的检测精度。
20.2、本发明使用桥模块来构建垮桥网络,以代替传统的骨干网络进行特征提取。并利用简单的多跨阶段路径聚合网络进行特征融合,降低了网络的复杂度,在保证较高检测准确率的同时,提高了检测速度,满足实时性的检测要求。
21.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1为实施例一的整体卷积神经网络框架图;
24.图2为实施例一的桥模块详细结构图;
25.图3为实施例一的注意力头详细结构图。
具体实施方式
26.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
27.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
28.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
29.实施例一
30.本实施例公开了应用于机器人辅助手术视频分析的实时手术工具检测方法,整体构思为:
31.采集计算机辅助手术视频并处理得到手术图像;
32.对手术图像以逐像素预测方式进行分类预测,回归预测与中心度预测;
33.根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。
34.具体步骤包括:
35.s1:采集计算机辅助手术视频,再对手术视频进行分帧操作,得到手术图像;
36.s2:初始化用于训练的神经网络框架;
37.s3:将步骤s1得到手术图像输入神经网络框架,手术图像预处理;
38.s4:训练神经网络框架得到在步骤s3手术图像中的手术工具的分类预测,回归预测和中心度预测;
39.s5:根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。
40.具体实施例子中,步骤s1,具体包括:
41.s11:在计算机辅助手术进行时用内窥镜采集整个手术过程视频,速度为25fps;
42.s12:用分帧软件进一步将步骤s11中采集到的速度为25fps的视频降采样为1fps再保存为手术图像;此处需要说明的是,具体实施时将原视频降采样降到人工标记手术视频帧速度;降采样实现向下采样原始视频,以丰富视频片段间的时间信息,有利于手术工具检测的准确率。
43.s13:重复步骤s12,直到所有手术视频全部转换为手术图像。
44.步骤s2,具体包括:
45.s21:手术视频中出现手术工具种类为c,此处c=6,表示在处理的手术视频中出现了六种手术工具。此处手术图像的大小854
×
480,为了提高神经网络的训练速度,将手术图像的分辨率统一设置为512
×
512的大小。
46.s22:步骤s21得到的手术图像先经过骨干网络进行特征提取,然后将得到的低级特征和高级特征进行特征融合,以提高特征信息的利用率。最后利用输出头输出分类预测和回归预测。网络框架参见附图1所示。
47.s23:步骤s22中的骨干网络为垮桥网络。首先由一个普通的6
×
6的卷积模块去扩展通道数,并缩小图像大小,然后利用四个桥模块进行有效的特征提取,在此过程中使用最大池化来降低特征分辨率,以减少参数量。其中桥模块前面的n
×
为残差块重复堆叠的个数,每个阶段后面的数字为经过相应模块后输出的通道数。桥模块的具体细节参见附图2所示,首先输入特征经过n/2个残差块处理,然后将得到的特征进行分支处理,一支继续利用n/2个残差块和一个1
×
1的卷积模块进行处理,另一支只进行一次1
×
1的卷积处理,然后将这两支获得的特征层和输入经过一次1
×
1卷积后得到的特征层进行拼接处理,最后再利用一个1
×
1的卷积模块进行通道的变化,输出想要的通道数。其中残差块只包含一个1
×
1卷积和一个3
×
3卷积,参见附图2左边所示。
48.s24:步骤s22中的特征融合用简单的多跨阶段路径聚合网络进行,首先它使用空间金字塔模块对骨干网络的最终输出特征进行处理,旨在提高网络的感受野。空间金字塔
模块使用四个不同尺度卷积核大小分别为1
×
1、5
×
5、9
×
9、13
×
13的最大池化进行处理,而为了减少参数量,会在空间金字塔模块前后使用1
×
1卷积模块灵活地调整通道数。
49.空间金字塔池之后通过上采样和下采样引出四个不同尺度的预测路径,以检测不同尺度的手术工具。每条路径都将进行两次高级特征与低级特征之间的特征融合,以提高信息的利用率。以第二路径为例,首先使用1
×
1卷积来调整空间金字塔的输出特征和骨干网络的最终输出特征的通道数,这样它们的大小与通道数相同,然后与下一路径向上传播的特征进行特征融合。融合后的特征一方面经过最大池化向上传播,另一方面经过一个3
×
3卷积进行处理,然后再与前面的特征和上一个路径向下传播的特征进行特征融合。最后融合后的特征一方面进行上采样向下传播,另一方面输入到注意力头进行预测。其他路径的处理大同小异,更多的细节从附图1中就能了解到。
50.s25:步骤s22中的输出头是利用注意力头输出预测内容,其使用了三个独立的分支分别进行分类预测,回归预测和中心度预测。其中“中心度”描述了从位置到该位置负责的对象中心的归一化距离,以降低远离对象中心的边界框分数的权重,抑制低质量预测框,提高检测精度。每个分支都先使用两个3
×
3卷积,然后结合注意力机制模块,没有引入过多的参数,并增强了网络关注有用特征的能力,抑制了无用特征的表达,促进后续的回归与分类,提高了检测精度。更多的细节从附图3中就能了解到。值得注意的是,多跨阶段路径聚合网络的四个预测路径共享一个注意力头,故每个路径引入了一个自适应参数,以满足不同尺度的预测需求。
51.步骤s3具体包括:
52.s31:对输入的手术图像进行分批处理;
53.s32:对输入的批图像进行预处理,即使用随机翻转,随机调整图像的调/饱和度/对比度,随机擦除图像中的某一矩形区域等作为数据增强来丰富训练样本。
54.s33:重复步骤s32直到所有的批数据都处理完毕。
55.步骤s4具体包括:
56.s41:训练神经网络框架得到在步骤s3手术图像中的手术工具分类预测,回归预测和中心度预测,利用中心度预测抑制低质量预测框,保留高质量预测框。
57.步骤s5具体包括:
58.s51:设计一个总损失函数,如下所示:
[0059][0060]
其中l
cls
是分类损失,l
ctn
是中心度损失,l
reg
是回归损失,λ是平衡权重,设为1。n
pos
表示正样本数,p
x,y
、t
x,y
和ctn
x,y
分别表示特征图fi的(x,y)位置的分类预测分数、回归预测和中心度预测,和分别表示特征图fi的(x,y)位置的分类标签、回归标签和
中心度标签。是指示符函数,如果该位置有目标,即则是1,否则为0。
[0061]
为了解决正样本与负样本的不平衡问题,分类损失l
cls
使用焦点损失函数。而回归损失l
reg
使用giou损失函数,其被定义如下:
[0062][0063]
其中iou为预测边界框的面积与真实框的面积的交集部分占两者所包含的并集面积的比例,用来评估预测框与真实框之间的重合程度。ac是包围真实框与预测框的最小矩形面积,而u表示真实框与预测框的并集面积。
[0064]
中心度是描述了从位置到该位置负责的对象中心的归一化距离,即其范围从0到1,因此中心度损失l
ctn
使用二进制交叉熵损失函数。
[0065]
s52:重复步骤s51,不断学习,不断训练网络,使步骤s51中的损失函数的值越来越小到某个值后趋于不变,直到卷积神经网络的损失函数曲线拟合。
[0066]
损失函数曲线拟合代表神经网络训练成功,给定一个输入图像,我们通过网络将其正向传播,获得特征图上每个位置的分类预测、回归预测以及中心度预测。
[0067]
根据回归预测得到手术工具的候选边界框,分类预测得到候选边界框的分类得分,将中心度预测乘以分类得分得到最终的预测得分,以降低远离对象中心的低质量候选边界框的预测得分。并利用后处理非极大值抑制算法对最终的预测得分进行处理,获得最终的预测边界框。
[0068]
其中,目标检测的过程中在同一目标的位置上会产生大量的候选边界框,这些候选边界框相互之间可能会有重叠,此时我们需要利用非极大值进行抑制,从而到最佳的目标边界框,消除冗余的边界框;具体的算法过程包括:
[0069]
将所有候选边界框最终的预测得分进行排序,选中最高预测得分及其对应的候选框;
[0070]
遍历其余的候选框,如果和当前最高分候选框的重叠面积(iou)大于一定阈值,我们就将该候选框删除。
[0071]
从未处理的候选框中继续选一个得分最高的,重复上述过程。
[0072]
实施例二
[0073]
本实施例公开了应用于计算机辅助手术视频分析的实时手术工具检测系统:包括:
[0074]
手术图像获取模块,被配置为:采集计算机辅助手术视频并处理得到手术图像;
[0075]
手术工具的预测模块,被配置为:对手术图像以逐像素预测方式进行分类预测,回归预测以及中心度预测;
[0076]
手术工具的边界框获取模块,被配置为:根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。
[0077]
实施例三
[0078]
本实施例的目的是提供计算机可读存储介质。
[0079]
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。
[0080]
实施例四
[0081]
本实施例的目的是提供电子设备。
[0082]
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。
[0083]
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0084]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0085]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,包括:采集计算机辅助手术视频并处理得到手术图像;对手术图像以逐像素预测方式进行分类预测,回归预测以及中心度预测;根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。2.如权利要求1所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,采用训练轻量级神经网络框架后得到的骨干网络对手术图像进行特征提取以及特征融合后,利用输出头进行分类预测、回归预测和中心度预测。3.如权利要求2所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,所述骨干网络为垮桥网络,包括一个卷积模块和四个桥模块。4.如权利要求2所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,所述的特征融合采用多跨阶段路径聚合网络进行,具体包括:首先使用空间金字塔模块对骨干网络的最终输出特征进行处理,然后通过上采样和下采样引出四个不同尺度的预测路径,以检测不同尺度的手术工具,每条路径都将进行两次高级特征与低级特征之间的特征融合,最后融合后的特征一方面进行上采样向下传播,另一方面输入到输出头进行预测。5.如权利要求4所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,所述输出头为注意力头,利用注意力头输出预测内容,包括三个独立的分支分别进行分类预测,回归预测和中心度预测。6.如权利要求1所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,所述利用后处理非极大值抑制算法对最终的预测得分进行处理,获得最终的预测边界框,具体包括:将所有候选边界框最终的预测得分进行排序,选中最高预测得分及其对应的候选框;遍历其余的候选框,如果和当前最高分候选框的重叠面积大于一定阈值,就将该候选框删除;从未处理的框中继续选一个得分最高的,重复上述过程。7.如权利要求2所述的应用于机器人辅助手术视频分析的实时手术工具检测方法,其特征在于,所述训练神经网络包括:建立神经网络的损失函数,使损失函数的值越来越小到某个值后趋于不变,直到卷积神经网络的损失函数曲线拟合,代表神经网络训练完成;总损失函数如下所示:其中,l
cls
是分类损失,l
ctn
是中心度损失,l
reg
是回归损失,λ是平衡权重,设为1;n
pos
表示正样本数,p
x,y
、t
x,y
和ctn
x,y
分别表示特征图f
i
的(x,y)位置的分类预测分数、回归预测和
中心度预测,和分别表示特征图f
i
的(x,y)位置的分类标签、回归标签和中心度标签;是指示符函数,如果该位置有目标,即则是1,否则为0。8.应用于计算机辅助手术视频分析的实时手术工具检测系统,其特征在于:包括:手术图像获取模块,被配置为:采集计算机辅助手术视频并处理得到手术图像;手术工具的预测模块,被配置为:对手术图像以逐像素预测方式进行分类预测,回归预测以及中心度预测;手术工具的边界框获取模块,被配置为:根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的应用于机器人辅助手术视频分析的实时手术工具检测方法中的步骤。
技术总结
本发明属于计算机辅助手术的技术领域,尤其涉及一种应用于机器人辅助手术视频分析的实时手术工具检测方法,包括:采集计算机辅助手术视频并处理得到手术图像;对手术图像以逐像素预测方式进行分类预测,回归预测与中心度预测;根据回归预测得到手术工具的候选边界框,利用分类预测和中心度预测得到候选候选边界框的预测得分,利用后处理非极大值抑制算法对预测得分进行处理,得到最终的边界框。本发明采用无锚框卷积神经网络架构,避免了复杂的锚框计算,显著减少了参数的数量。并结合了注意力机制来增强网络的表达能力,提高了网络的检测精度。检测精度。检测精度。
技术研发人员:
赵子健 宋赫
受保护的技术使用者:
山东大学
技术研发日:
2022.10.24
技术公布日:
2022/12/30