基于xformer类
算法的腹腔镜
图像分割方法
技术领域
1.本发明涉及医学类计算机跨学科领域和人工智能计算机视觉算法设计领域,具体涉及基于xformer类算法的腹腔镜图像分割方法。
背景技术:
2.医疗器械市场是现如今全球经济中发展最快、国际贸易往来最为活跃的市场之一,而腹腔镜市场是全球医疗器械市场中增长较快的一类。虽然腹腔镜的先前市场主要在欧洲和北美,但是近几年来,随着国内经济水平的提高和医疗体系的完善,国内医疗器械市场得到蓬勃发展,其中腹腔镜设备的需求量大大增加。
3.腹腔镜(laparoscope)与胃镜、结肠镜类似,是一种带有光源和微型摄像头的医疗器械,属于三类医疗器械。其整套设备包括腹腔镜、能源系统、光源系统、灌流系统、成像系统以及常用的腹腔镜手术器械(如穿刺针、套管针、分离钳、电凝钩及电凝棒、施夹器、钛夹、剪刀、持针器、圈套器等),主要用于普通外科、妇科外科和其他外科手术。在腹腔镜手术中,医生通过患者腹部很小的创口将腹腔镜送入腹腔内,腹腔镜的摄像头就可以回传患者腹腔内部情况到录像监视系统的监视器上供医生检查和手术操作。相对于传统的开腹手术,腹腔镜手术具有创伤小、术后疼痛轻,恢复快,美观等优点。因此在临床术式的选择中广受医生和患者的青睐。
4.
语义分割是当今计算机视觉领域的关键问题之一。从宏观上看,语义分割是一项高层次的任务,为实现场景的完整理解铺平了道路。场景理解作为一个核心的计算机视觉问题,其重要性在于越来越多的应用程序通过从图像中推断知识来提供营养,包含一些应用领域如自动驾驶场景分割,医学图像场景。近年来随着深度学习的普及,许多语义分割问题正在采用深层次的结构来解决,最常见的是
卷积神经网络,在精度和效率上都大大超过了其他方法。
5.语义分割结合了图像分类、目标检测和图像分割,通过一定的方法将图像分割成具有一定语义含义的区域块,并识别出每个区域块的语义类别,实现从底层到高层的语义推理过程,最终得到一幅具有逐像素语义标注的分割图像。图像语义分割方法有传统方法和基于卷积神经网络的方法,其中传统的语义分割方法又可以分为基于统计的方法和基于几何的方法。随着深度学习的发展,语义分割技术得到很大的进步,基于卷积神经网络的语义分割方法与传统的语义分割方法最大不同是,网络可以自动学习图像的特征,进行端到端的分类学习,大大提升语义分割的精确度,可以大概分成基于候选区域和基于全卷积的深度语义分割模型。然而,在进行图像语义分割时,图像首先需要被编码成一系列补丁才能进行后续任务,但是这中切分的编码方案的输出往往很模糊,相比于原始图像的特征信息损失巨大,而针对这个问题的常规解决方案是让网络更好地利用上下文信息才能被正确分割,因此上下文建模对图像语义分割的性能至关重要。而与以往基于卷积网络的方法不同,现在的基于transformer的语义分割方法能够打破卷积结构在图像全局信息访问有限的问题。xformer类语义分割模型属于基于vision transformer的语义分割模型,因其基于纯
transformer架构,所以整体性能不亚于最先进的卷积网络。
6.随着计算机技术的发展,人工智能(ai)在内镜领域被广泛研究,如用于基于腹腔镜的异常肿瘤部位识别。计算机辅助诊断的一个主要作用是帮助腹腔镜师确定实体器官中肿瘤的边缘通常具有挑战性,尤其是当肿瘤位于器官深处或仅部分暴露时。因此将语义分割的现实技术引导腹腔镜下精准手术是腔镜下手术的必然发展趋势。多项研究已经证明ai系统在了解决人类解剖结构和外科手术环境的识别任务中的潜力。此外,人工智能系统的诊断准确性也与经验丰富的医师进行了比较,被证明可以达到可比的性能。基于语义分割的算法能够对实际场景下的腹腔镜图像自动分割,以辅助医生完成准确识别和标记人体躯干区域腹腔镜视频馈送中的组织和器官,这对于此类微创手术是有重大帮助的。
7.然而,目前针对腔镜数据的分割还存在一些问题。首先,从检测算法看,目前针对腹腔镜数据的处理方案算法还处在尝试初级阶段,因此模型的性能还很一般;其次,腹腔镜图像相比于常规的内镜图视野局限大,因为数据伪影较大,这会直接影响任务性能。数据和模型作为计算机辅助医疗任务的两大支撑,上述问题会直接阻碍语义分割方法在腹腔镜中的应用,因此还需要做更进一步的技术改进。
技术实现要素:
8.为了克服背景技术的不足,本发明提供基于xformer类算法的腹腔镜图像分割方法,主要解决目前的腹腔镜图像分割处中模型的性能还很一般的问题。
9.本发明所采用的技术方案是:
10.基于xformer类算法的腹腔镜图像分割方法,包括以下步骤:
11.s1,收集腹腔镜手术视频并对图片和视频,使用cvat进行标注,得到腹腔镜分割数据库;
12.s2,使用直方图均衡算法对原始内窥镜数据做预处理;
13.s3,对数据集图像采用letterbox方法修改图像尺寸以满足网络的输入尺寸要求;
14.s4,构建一个基于xformer类算法的内窥镜图像目标检测网络;
15.s5,用制作的语义分割内窥镜数据集训练xformer网络并保存模型;
16.s6,用测试集数据去测试,先输入内窥镜图像,通过xformer模型检测是否有目标区域;
17.s7,将模型部署到gpu模块上用于检测客户端传输的图片,并把检测结果返还至交互界面。
18.s4中,目标检测网络具体实施细节为:
19.s4.1,利用注意力机制对encoder中骨干网络resnet得到的特征优化,以获得更有效底层特征;
20.s4.2,通过基于聚类的decoder解码encoder信息;
21.s4.3,在原图绘制出检测结果边框。
22.s2中的直方图均衡算法的具体步骤如下:
23.s2.1,依次扫描原始灰度图像的每一个像素,计算出图像的灰度直方图;
24.s2.2,计算灰度直方图的累积分布函数;
25.s2.3,根据累积分布函数和直方图均衡化原理得到输入与输出之间的映射关系;
26.s2.4,最后根据映射关系得到结果进行图像变换。
27.s3的letterbox方法具体步骤如下:
28.s3.1,通过网络要求输入尺寸和原始输入图尺寸计算收缩比r。
29.s3.2,通过收缩比乘原图长宽获得尺寸缩放后的图像。
30.s3.3,计算收缩后图像中需要填补的面积。
31.s3.4,填补像素。
32.s4.1中的注意力机制psa算法的具体步骤如下:
33.s4.1.1,psa通道分支,首先先用了卷积核将输入的特征x转换成了q和v,其中q的通道被完全压缩,而v的通道维度依旧保持在一个比较高的水平(也就是c/2)。因为q的通道维度被压缩,如上面所说的那样,就需要通过hdr进行信息的增强,用softmax对q的信息进行了增强,然后将q和k进行矩阵乘法,并在后面接上卷积核、ln将通道上c/2的维度升为c,最后用sigmoid函数使得所有的参数都保持在0-1之间,权重计算公式如下:
[0034][0035][0036]
其中wz,wv,wq指1
×
1卷积,bn指批处理,ru指relu激活层,sm指softmax,fsm指softmax操作,σ1和σ2是两个张量重塑算子,θ1指通道之间的参数,x指输入特征,x∈cin
×h×
w;
[0037]
s4.1.2,通道注意力,模型先用了卷积核将输入的特征转换为了q和v,其中,对于q特征用globalpooling对空间维度压缩;而v特征的空间维度则保持在一个比较大的水平(hxw),用了softmax对q的信息进行增强,然后将q和k进行矩阵乘法,然后接上reshape和sigmoid使得所有的参数都保持在0-1之间,
[0038]
权重计算公式如下:
[0039]asp
(x)=f
sg
[σ3({f
sm
(σ1(f
gp
(wq(x))))
×
σ2(wv(x)))],
[0040][0041]
其中,wq和wv分别是标准的1
×
1卷积layer,θ2是这些信道卷积的中间参数,σ1、σ2和σ3是三个整形算子,fsm(
·
)指softmax操作,fgp(
·
)是一个全局池算子;
[0042]
s4.1.3,整合,对于两个分支的结果,模型提出了两种融合的方式:并联和串联,得到通道和空间的输出zch和zsp:
[0043][0044][0045]
其中
⊙
ch
指通道乘法,
⊙
sp
指空间乘法运算;
[0046]
下面为拼接公式,下标p指串联,s指并联;
[0047]
psa
p
(x)=z
ch
+z
sp
[0048]
=a
ch
(x)
⊙
ch
x+a
sp
(x)
⊙
sp
x,
[0049]
or under the sequential layout
[0050]
psas(x)=z
sp
(z
ch
)
[0051]
=a
sp
(a
ch
(x)
⊙
ch
x)
⊙
apach
(x)
⊙
ch
x.。
[0052]
s4.2中基于聚类的decoder解码的具体步骤如下:
[0053]
聚类路径共包含六个聚类解码器,它们均匀分布在不同空间分辨率的特征地图中。
[0054]
s4.2.1,分别为输出步长32、16和8的像素特征部署了两个聚类解码器;
[0055]
s4.2.2,通过交叉注意力计算对象查询和像素(即qc
×
(kp)t)之间的亲和力,该亲和力通过空间方向的softmax(沿图像分辨率操作)转换为注意力图,计算如下:
[0056][0057]
其中,softmax指集方向的argmax,其中c∈rn
×
d表示具有d个通道的n个对象查询,c^表示更新的对象查询,上标p和c分别表示从像素特征和对象查询中投影的特征,qc∈r n
×
d,kp∈r hw
×
d,vp∈r hw
×
d表示查询、键和值的线性投影特征。
[0058]
本发明的有益效果是:本发明设计了一种基于xformer类算法的腹腔镜图像分割方法,其具有基于全局直方图均衡算法的腹腔镜数据颜改善方法(传统的方案通常使用传统的opencv算法对颜改善),和现有方案相比,这样的颜恒常性能有效改善来自多源图像的检测任务性能,实现了检测器对光照畸变鲁棒性提高;其次,本发明设计了一种改进版的xformer类腹腔镜检测算法,相比于之前的原始版本xformer类,首先,本方案加入psa注意力机制缓解了在语义分割系统中,encoder和decoder之间传递信息通路狭窄导致的信息损失过大的问题;其次,本方案通过简单的聚类支路改进语义分割中解码块性能。本方案核心优势在于transformer机制在语义分割系统中,在解码部分能考虑时空因素,从而有效提升模型精度;同时在考虑计算吞吐量后,该方法能够避免过大的gpu显存占用;本方案优势在于:首先,本方案在xformer类算法原版基础上,加入了被证明对于语义分割模型有益的psa注意力机制,在参数量增多极少的情况下,有效地调高我们模型的性能,这中尝试在腹腔镜计算机辅助算法中还没有人尝试,是具有创新性的。综上可知,本模型针对腹腔镜数据,有效地实现了对内窥镜图像场景分割。
附图说明
[0059]
图1为xforme语义分割结构示意图。
具体实施方式
[0060]
下面结合附图对本发明作进一步说明:如图所示,基于xformer类算法的腹腔镜图像分割方法,包括以下步骤:
[0061]
s1,收集腹腔镜手术视频并对图片和视频,使用cvat进行标注,得到腹腔镜分割数据库;
[0062]
s2,使用直方图均衡算法对原始内窥镜数据做预处理;
[0063]
s3,对数据集图像采用letterbox方法修改图像尺寸以满足网络的输入尺寸要求;
[0064]
s4,构建一个基于xformer类算法的内窥镜图像目标检测网络;
[0065]
s5,用制作的语义分割内窥镜数据集训练xformer网络并保存模型;
[0066]
s6,用测试集数据去测试,先输入内窥镜图像,通过xformer模型检测是否有目标区域;
[0067]
s7,将模型部署到gpu模块上用于检测客户端传输的图片,并把检测结果返还至交互界面。
[0068]
s4中,目标检测网络具体实施细节为:
[0069]
s4.1,利用注意力机制对encoder中骨干网络resnet得到的特征优化,以获得更有效底层特征;
[0070]
s4.2,通过基于聚类的decoder解码encoder信息;
[0071]
s4.3,在原图绘制出检测结果边框。
[0072]
s2中的直方图均衡算法的具体步骤如下:
[0073]
s2.1,依次扫描原始灰度图像的每一个像素,计算出图像的灰度直方图;
[0074]
s2.2,计算灰度直方图的累积分布函数;
[0075]
s2.3,根据累积分布函数和直方图均衡化原理得到输入与输出之间的映射关系;
[0076]
s2.4,最后根据映射关系得到结果进行图像变换。
[0077]
s3的letterbox方法具体步骤如下:
[0078]
s3.1,通过网络要求输入尺寸和原始输入图尺寸计算收缩比r。
[0079]
s3.2,通过收缩比乘原图长宽获得尺寸缩放后的图像。
[0080]
s3.3,计算收缩后图像中需要填补的面积。
[0081]
s3.4,填补像素。
[0082]
s4.1中的注意力机制psa算法的具体步骤如下:
[0083]
s4.1.1,psa通道分支,首先先用了卷积核将输入的特征x转换成了q和v,其中q的通道被完全压缩,而v的通道维度依旧保持在一个比较高的水平(也就是c/2)。因为q的通道维度被压缩,如上面所说的那样,就需要通过hdr进行信息的增强,用softmax对q的信息进行了增强,然后将q和k进行矩阵乘法,并在后面接上卷积核、ln将通道上c/2的维度升为c,最后用sigmoid函数使得所有的参数都保持在0-1之间,权重计算公式如下:
[0084][0085][0086]
其中wz,wv,wq指1
×
1卷积,bn指批处理,ru指relu激活层,sm指softmax,fsm指softmax操作,σ1和σ2是两个张量重塑算子,θ1指通道之间的参数,x指输入特征,x∈cin
×h×
w;
[0087]
s4.1.2,通道注意力,模型先用了卷积核将输入的特征转换为了q和v,其中,对于q特征用globalpooling对空间维度压缩;而v特征的空间维度则保持在一个比较大的水平(hxw),用了softmax对q的信息进行增强,然后将q和k进行矩阵乘法,然后接上reshape和sigmoid使得所有的参数都保持在0-1之间,
[0088]
权重计算公式如下:
[0089]asp
(x)=f
sg
[σ3(f
sm
(σ1(f
gp
(wq(x))))
×
σ2(wv(x)))],
[0090][0091]
其中,wq和wv分别是标准的1
×
1卷积layer,θ2是这些信道卷积的中间参数,σ1、σ2和σ3是三个整形算子,fsm(
·
)指softmax操作,fgp(
·
)是一个全局池算子;
[0092]
s4.1.3,整合,对于两个分支的结果,模型提出了两种融合的方式:并联和串联,得到通道和空间的输出zch和zsp:
[0093][0094][0095]
其中
⊙
ch
指通道乘法,
⊙
sp
指空间乘法运算;
[0096]
下面为拼接公式,下标p指串联,s指并联;
[0097]
psa
p
(x)=z
ch
+z
sp
[0098]
=a
ch
(x)
⊙
ch
x+a
sp
(x)
⊙
sp
x,
[0099]
or under the sequential layout
[0100]
psas(x)=z
sp
(z
ch
)
[0101]
=a
sp
(a
ch
(x)
⊙
ch
x)
⊙
spach
(x)
⊙
ch
x.。
[0102]
s4.2中基于聚类的decoder解码的具体步骤如下:
[0103]
聚类路径共包含六个聚类解码器,它们均匀分布在不同空间分辨率的特征地图中。
[0104]
s4.2.1,分别为输出步长32、16和8的像素特征部署了两个聚类解码器;
[0105]
s4.2.2,通过交叉注意力计算对象查询和像素(即qc
×
(kp)t)之间的亲和力,该亲和力通过空间方向的softmax(沿图像分辨率操作)转换为注意力图,计算如下:
[0106][0107]
其中,softmax指集方向的argmax,其中c∈rn
×
d表示具有d个通道的n个对象查询,c^表示更新的对象查询,上标p和c分别表示从像素特征和对象查询中投影的特征,qc∈rn
×
d,kp∈r hw
×
d,vp∈r hw
×
d表示查询、键和值的线性投影特征。
[0108]
专利设计了一种基于vit的xformer类算法完成腹腔镜图像语义分割的方法,对腹腔镜图像进行器官和组织以及器械等不同部分的分割,以更出地完成腔镜手术操作系统中的对肿块的实时定位和注释信息,通过这样的方式为医生提供有用的参考结果有助于实现降低操作者术中误切血管、神经及破坏性切除。
[0109]
首先,算法从数据处理入手,针对图像彩差异问题影响模型精度出发,尝试了几种目前性能较好的直方图均衡方案,它们分别是:局部均值直方图均衡法,全局直方图均衡,基于图像分析的偏检测及颜校正方法和动态阈值算法。通过考虑处理速度,处理效果好坏等方面,我们最后选择了全局直方图均衡来处理本文数据。
[0110]
其次,关于本文使用的psa注意力机制,为了解决同时对空间和通道建模时,如果不进行维度缩减,就会导致计算量、显存爆炸的问题。作者在psa中采用了一种极化滤波(polarized filtering)的机制。类似于光学透镜过滤光一样,每个sa的作用都是用于增强
或者削弱特征。(在摄影时,所有横向的光都会进行反射和折射。极化滤波的作用就是只允许正交于横向方向的光通过,以此来提高照片的对比度。原理是可以从两个结构看,首先是滤波(filtering):使得一个维度的特征(比如通道维度)完全坍塌,同时让正交方向的维度(比如空间维度)保持高分辨率。然后是high dynamic range(hdr):首先在attention模块中最小的tensor上用softmax函数来增加注意力的范围,然后再用sigmoid函数进行动态的映射。
[0111]
关于我们使用的xformer类算法下面进行简单介绍,在使用vit完成腹腔镜图像进行语义分割中,我们会面临2个问题,首先是图像任务中空间扁平像素特征的极大序列长度,这会阻碍像素特征和对象查询交叉注意学习。其次,实际腹腔镜数据存在数据多尺度问题,这对模型来说是一个很有挑战性的问题,数据的多尺度问题,就对提取特征的encoder网络有较高的要求才能很好地实现对不同尺度特征都具有同样提取特征的能力。本方案基于上述问题,使用了能够有效解决问题的改进版xformer类算法的模型。首先,针对第一个问题,本方案中从解码模块入手,因为图形数据相比于nlp领域的文本信息对应信息丰富,而针对图像数据的长序列导致的transformer通过聚类算法改进解码能力,本方案中的聚类方案与常见的聚类方案原理类似,通过加入这样的对序列的处理步骤能够直接缩短信息序列长度,这种简单的改进却能加强数据特征和对象查询之间的关系。而本方案中编码部分骨干网络中psa中的aspp模块能够较好的解决第二个问题,同时,在encoder-decoder设计中,将xformer类算法作为编码器,利用atrous卷积生成任意维度的特征,同时采用空洞空间卷积池化金字塔(atrous spatial pyramid pooling(aspp))对所给定的输入以不同采样率的空洞卷积并行采样,相当于以多个比例捕捉图像的上下文。aspp模块的应用是受spp模块的启发,它能够通过不同尺度的卷积核对特征进行采样,能够准确、高效地对任意尺度的区域进行分类。另外,为了进一步提高分割算法的速度和精度,模型用resnet替换xception,能够有效提高模型的特征提取能力,通过空洞卷积提高模型的处理速度。总结一下,使用xformer类算法提出了新的encoder-decoder结构,采用改进版卷积类算法作为encoder模块,以及基于聚类的decoder的简单有效的decoder模块;值得注意的是,本方案将原始卷积模块的替换为空洞卷积,目的是通过空洞卷积任意控制encoder模块特征图的分辨率,并充分考虑的速度和精度,这是现有的encoder-decoder模块没有的;采用了xception模块用于分割任务,并将深度可分离卷积(depthwise separable convolution)应用到aspp和encoder模块中。
[0112]
参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。实施例不应视为对本发明的限制,但任何基于本发明的精神所作的改进,都应在本发明的保护范围之内。
技术特征:
1.基于xformer类算法的腹腔镜图像分割方法,其特征在于:包括以下步骤:s1,收集腹腔镜手术视频并对图片和视频,使用cvat进行标注,得到腹腔镜分割数据库;s2,使用直方图均衡算法对原始内窥镜数据做预处理;s3,对数据集图像采用letterbox方法修改图像尺寸以满足网络的输入尺寸要求;s4,构建一个基于xformer类算法的内窥镜图像目标检测网络;s5,用制作的语义分割内窥镜数据集训练xformer网络并保存模型;s6,用测试集数据去测试,先输入内窥镜图像,通过xformer模型检测是否有目标区域;s7,将模型部署到gpu模块上用于检测客户端传输的图片,并把检测结果返还至交互界面。2.根据权利要求1所述的基于xformer类算法的腹腔镜图像分割方法,其特征在于:s4中,目标检测网络具体实施细节为:s4.1,利用注意力机制对encoder中骨干网络resnet得到的特征优化,以获得更有效底层特征;s4.2,通过基于聚类的decoder解码encoder信息;s4.3,在原图绘制出检测结果边框。3.根据权利要求1所述的基于xformer类算法的腹腔镜图像分割方法,其特征在于:s2中的直方图均衡算法的具体步骤如下:s2.1,依次扫描原始灰度图像的每一个像素,计算出图像的灰度直方图;s2.2,计算灰度直方图的累积分布函数;s2.3,根据累积分布函数和直方图均衡化原理得到输入与输出之间的映射关系;s2.4,最后根据映射关系得到结果进行图像变换。4.根据权利要求1所述的基于xformer类算法的腹腔镜图像分割方法,其特征在于:s3的letterbox方法具体步骤如下:s3.1,通过网络要求输入尺寸和原始输入图尺寸计算收缩比r。s3.2,通过收缩比乘原图长宽获得尺寸缩放后的图像。s3.3,计算收缩后图像中需要填补的面积。s3.4,填补像素。5.根据权利要求1所述的基于xformer类算法的腹腔镜图像分割方法,其特征在于:s4.1中的注意力机制psa算法的具体步骤如下:s4.1.1,psa通道分支,首先先用了卷积核将输入的特征x转换成了q和v,其中q的通道被完全压缩,而v的通道维度依旧保持在一个比较高的水平(也就是c/2),用softmax对q的信息进行增强,然后将q和k进行矩阵乘法,并在后面接上卷积核、ln将通道上c/2的维度升为c,最后用sigmoid函数使得所有的参数都保持在0-1之间,权重计算公式如下:1之间,权重计算公式如下:其中wz,wv,wq指1
×
1卷积,bn指批处理,ru指relu激活层,sm指softmax,fsm指softmax
操作,σ1和σ2是两个张量重塑算子,θ1指通道之间的参数,x指输入特征,x∈cin
×
h
×
w;s4.1.2,通道注意力,模型先用了卷积核将输入的特征转换为了q和v,其中,对于q特征用globalpooling对空间维度压缩;而v特征的空间维度则保持在一个比较大的水平(hxw),用了softmax对q的信息进行增强,然后将q和k进行矩阵乘法,然后接上reshape和sigmoid使得所有的参数都保持在0-1之间,权重计算公式如下:a
sp
(x)=f
sg
[σ3(f
sm
(σ1(f
gp
(w
q
(x))))
×
σ2(w
v
(x)))],其中,wq和wv分别是标准的1
×
1卷积layer,θ2是这些信道卷积的中间参数,σ1、σ2和σ3是三个整形算子,fsm(
·
)指softmax操作,fgp(
·
)是一个全局池算子;s4.1.3,整合,对于两个分支的结果,模型提出了两种融合的方式:并联和串联,得到通道和空间的输出zch和zsp:道和空间的输出zch和zsp:其中
⊙
ch
指通道乘法,
⊙
sp
指空间乘法运算;下面为拼接公式,下标p指串联,s指并联;psa
p
(x)=z
ch
+z
sp
=a
ch
(x)
⊙
ch
x+a
sp
(x)
⊙
sp
x,or under the sequential layoutpsa
s
(x)=z
sp
(z
ch
)=a
sp
(a
ch
(x)
⊙
ch
x)
⊙
sp
a
ch
(x)
⊙
ch
x.。6.根据权利要求1所述的基于xformer类算法的腹腔镜图像分割方法,其特征在于:s4.2中基于聚类的decoder解码的具体步骤如下:聚类路径共包含六个聚类解码器,它们均匀分布在不同空间分辨率的特征地图中。s4.2.1,分别为输出步长32、16和8的像素特征部署了两个聚类解码器;s4.2.2,通过交叉注意力计算对象查询和像素(即qc
×
(kp)t)之间的亲和力,该亲和力通过空间方向的softmax(沿图像分辨率操作)转换为注意力图,计算如下:其中,softmax指集方向的argmax,其中c∈r n
×
d表示具有d个通道的n个对象查询,c^表示更新的对象查询,上标p和c分别表示从像素特征和对象查询中投影的特征,qc∈r n
×
d,kp∈r hw
×
d,vp∈r hw
×
d表示查询、键和值的线性投影特征。
技术总结
基于Xformer类算法的腹腔镜图像分割方法。主要解决目前的腹腔镜图像分割处中模型的性能还很一般的问题。本发明设计了一种基于直方图均衡的数据颜处理方法,该方法通过直方图均衡算法让模型对光照的影响更具有鲁棒性,采用了完美反射作为本文的方案,获得颜均衡后的新数据。本方案克服了使用多源设备的导致的数据的颜差异伪影干扰,实现了提高检测模型的检测性能。型的检测性能。型的检测性能。
技术研发人员:
帅建伟 王思璇 李钰杭 李家和 史依 陈钒萱 韦超祎 陈浩满 何情祖 帅真浩 阮煜闻
受保护的技术使用者:
国科温州研究院(温州生物材料与工程研究所)
技术研发日:
2022.08.23
技术公布日:
2022/12/29