1.本技术涉及光学文字识别技术领域,尤其涉及一种基于动态染的场景文字检测方法和系统。
背景技术:
2.在过去的几年里,场景
文本检测在计算机视觉界引起了广泛的关注。因为它在场景理解、产品搜索和自动驾驶等许多领域都有应用。在许多领域的应用,如场景理解、产品搜索和自动驾驶。受益于深度学习的发展,场景文本检测已经取得了很大的进步。然而,由于文本在字体、大小、颜和方向上的无约束性变化,任意形状的场景文本检测仍然是一个挑战。
3.目前基于深度学习的场景文本检测方法可以分为两类:基于回归的方法和基于分割的方法。由于对每个像素的预测,基于分割的方法不需要明确处理复杂的曲线文本。然而,这类方法对噪音很敏感,所以它们通常依赖于对大型数据集的预训练。此外,像素级处理大大增加了计算成本,而且后处理步骤通常非常复杂。相比之下,基于回归的方法通常更简洁,更容易训练。然而,基于回归的方法仍有两个主要问题没有解决。一方面,设计一个紧凑的文本掩码表示,以适应任意形状的文本实例的不同几何差异,是一个挑战。由于直接回归任意形状的文本掩码的复杂性很高,大多数现有的基于回归的方法都是回归文本的轮廓点序列。然而,点序列并不足以捕捉高度弯曲的文本的细节,在这种情况下,所代表的文本轮廓通常是不光滑的。
4.另一方面,最先进的基于回归的方法在很大程度上依赖于
特征金字塔网络(fpn)中的分而治之策略来回归多尺度文本。然而,所有的训练样本都受到相同的监督,导致不同的金字塔层之间存在不平衡的监督问题,特别是对于单级检测器。具体来说,p3层的训练样本数量是fpn的p7层的256倍。因此,将多级头连接在一起将导致不同层的样本之间的学习极其不平衡,因为像p3这样的浅层收到的监督比深层多得多。
5.如何表示真实图像中的文本实例是场景文本检测的主要挑战之一,通常有两种策略来解决这一挑战产生的问题。第一种是将文本实例作为一种特殊的对象,使用旋转的矩形或四边形进行描述。这类方法通常继承自通用对象检测,并经常利用人工设计的锚点来实现更好的回归。显然,这种解决方案忽略了不规则文本的几何特征,可能会引入相当大的背景噪声,此外,很难制定合适的锚点来适应各种形状的文本。另一种策略是将文本实例分解成几个概念或物理成分,并通过一系列不可或缺的后处理步骤重建
多边形轮廓。例如,pan遵循聚类的理念,根据文本像素嵌入的距离来聚合。在textsnake中,文本实例由文本中心线和有序的圆盘表示。因此,这些方法比之前的建模方法更灵活、更通用。然而,由于复杂的后处理步骤,它们中的大多数都存在推理速度慢的问题,这主要是由这种繁琐的基于多成分的表示策略造成的。另外,他们的成分预测被建模为一个简单的狄拉克三角分布,这严格要求数字输出达到准确的位置,因此削弱了容忍错误的能力。错误的成分预测会将错误传播给启发式后处理程序,使重建的文本轮廓不准确。基于上述观察,我们可以发现,一个
快速准确的场景文本检测器的实现在很大程度上取决于一个简单而有效的文本实例表示和一个强大的后处理算法,它可以容忍模糊性和不确定性。
技术实现要素:
6.有鉴于此,本技术的目的在于提出一种基于动态染的场景文字检测方法和系统,本技术能够针对性的解决现有的问题。该方法在语义分割网络的基础上将文本实例分割问题转化为多分类语义分割问题(染),相邻的文本实例会被网络赋予不同的颜,以此分离相邻的文本实例,最终,经过连通域连接及一个检测框合并算法,获得任意形状文字精确的边界。
7.基于上述目的,本技术提出了一种基于动态染的场景文字检测方法,包括:
8.1)提取待检测图像的视觉特征,并对
所述视觉特征进行多尺度特征融合,获取所述待检测图像的特征表达;
9.2)根据所述特征表达,生成5个颜通道的文本核语义分割概率图;
10.3)在每个所述文本核语义分割概率图上到置信度大于0的连通域,得到每个文本核位点集合;
11.4)将每个所述文本核位点集合膨胀为完整文本实例,得到每个完整文本实例的多边形候选框;
12.5)依次遍历所有多边形候选框,对于每两个多边形候选框,如果交叉面积与相对较小的多边形候选框的面积之比大于0.5,则将该两个多边形候选框合并,得到所有检测框。
13.进一步地,所述的步骤1)中,提取所述视觉特征的方法包括:利用在imagenet上预训练的主干网络,所述主干网络包括resnet50网络。
14.进一步地,所述的步骤2)中,通过对特征表达进行三个连续的卷积及线性整流后,最后经过softmax层得到5个颜通道的文本核语义分割概率图。
15.进一步地,所述的步骤3)中,设定一个阈值,在每个文本核语义分割概率图上到置信度大于所述阈值的连通域,得到每个文本核位点集合。
16.进一步地,所述的步骤4)中,将每个文本核位点集合经过形态学操作膨胀为完整文本实例;遍历所有序号,得到每个完整文本实例的独立二值图,再通过寻轮廓算法,得到每个完整文本实例的多边形候选框。
17.进一步地,所述的步骤5)的具体算法为:
[0018][0019]
其中,n
t
为最终检测框,iou(pi,pj)为第i个与第j个候选框的交叉比,f为判断为重叠的交叉比的阈值。
[0020]
进一步地,所述的步骤1)中,对视觉特征进行多尺度特征融合的方法包括:自浅入深的融合多尺度特征。
[0021]
基于上述目的,本技术还提出了一种基于动态染的场景文字检测系统,包括:
[0022]
特征提取融合模块,用于提取待检测图像的视觉特征,并对所述视觉特征进行多尺度特征融合,获取所述待检测图像的特征表达;
[0023]
染分割模块,用于根据所述特征表达,生成5个颜通道的文本核语义分割概率图;
[0024]
文本核模块,用于在每个所述文本核语义分割概率图上到置信度大于0的连通域,得到每个文本核位点集合;
[0025]
膨胀模块,用于将每个所述文本核位点集合膨胀为完整文本实例,得到每个完整文本实例的多边形候选框;
[0026]
交叉合并模块,用于依次遍历所有多边形候选框,对于每两个多边形候选框,如果交叉面积与相对较小的多边形候选框的面积之比大于0.5,则将该两个多边形候选框合并,得到所有检测框。
[0027]
总的来说,本技术的优势及给用户带来的体验在于:
[0028]
一、引入了文本实例间的相邻信息,并通过学习该信息,将预测出的相邻实例输出到不同的颜通道上,避免了文本实例粘连问题;
[0029]
二、本发明无需设计先验框,从而使得模型有更好的泛化性;
[0030]
三、本发明检测能力强,对于水平文字,多方向文字以及曲线文字等任意形状的文字均具有优秀的性能。
[0031]
四、与现有技术相比,本发明具有更好的泛化性、更有效的执行速度和对相邻文本更强的切割能力。
附图说明
[0032]
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本技术公开的一些实施方式,而不应将其视为是对本技术范围的限制。
[0033]
图1示出根据本技术实施例的基于动态染的场景文字检测方法的流程图。
[0034]
图2为本发明方法的文字检测框架示意图。
[0035]
图3示出根据本技术实施例的基于动态染的场景文字检测系统的构成图。
[0036]
图4示出了本技术一实施例所提供的一种电子设备的结构示意图。
[0037]
图5示出了本技术一实施例所提供的一种存储介质的示意图。
具体实施方式
[0038]
下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0039]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0040]
本发明通过无先验的语义分割网络,设计了一个变形的交叉熵损失函数,将二分类的文本实例分割问题转化为多分类的语义分割问题(染),能够良好区分相邻的文本实例,获得任意形状文字精确的边界。
[0041]
本技术提出了一种基于动态染的场景文字检测方法,包括:
[0042]
步骤一:提取待检测图像的视觉特征,并对视觉特征进行多尺度特征融合,获取所
述待检测图像的特征表达fe。
[0043]
提取视觉特征的方法包括:利用在imagenet上预训练的主干网络,所述主干网络包括:resnet50网络。
[0044]
对视觉特征进行多尺度特征融合的方法包括:自浅入深的融合多尺度特征。在本技术的模型中,学习的目标是确保对于任何训练图像的每个文字实例都使用相同的颜,即它的所有像素都会有高值,在某个c》1的输出图y[c]中具有高值,另外与该实例相邻的像素在同一颜通道中的具有低值。
[0045]
在这两个条件下,后处理阶段将正确地把文本实例恢复为对应于颜c的连接组件。这个观察的一个结果是,着网络应该把两个相邻的对象实例分配到不同的输出通道。总的来说,这使得网络的训练过程类似于图形着,每个对象实例应该被分配到c个颜中的一种,而不会有相邻的实例被分配到同一颜。
[0046]
步骤二:根据特征表达fe,生成5个颜通道的文本核语义分割概率图ci。
[0047]
具体的,通过对特征表达fe进行三个连续的卷积及线性整流后,最后经过softmax层得到5个颜通道的文本核语义分割概率图ci。
[0048]
如上所述,我们并不提前给实例分配颜。相反,着是在损失计算过程中进行,可以被看作是损失的一部分。令x为一张训练图片,其包含k个文本实例,令mk为第k个文本实例内的像素集合。我们定义为mk的外围圆环区域,其中的宽度为m个像素距离,m为一个重要的超参数。可将定义为:
[0049][0050]
令为着网络的输出,其参数为θ,对于第k个的文本实例,着过程将寻求能使以下简单目标最大化的颜:
[0051][0052]
换句话说,着选择颜的目的是为了该颜通道的平均对数概率最大化,而在文字实例外部的圆环区域平均对数概率最小化。μ是另外一个重要的超参数,它控制了负样本的影响。
[0053]
一旦文本实例被着,我们使用标准的像素的对数损失,将ck作为该训练阶段的伪颜标签。因此,对每幅训练图像计算以下损失:
[0054][0055]
然后反向传播给网络,更新θ参数。
[0056]
步骤三:在每个文本颜通道ci上到多个置信度大于0的连通域,通过连通分量标记算法,得到区分不同的文本核实例,进而得到每个文本核位点集合kj。
[0057]
具体的,设定一个阈值τ,在每个文本颜通道ci上到置信度大于τ的连通域,得到每个文本核位点集合kj。
[0058]
步骤四:将每个文本核kj膨胀为完整文本实例tj,得到每个文本实例的多边形候选
框pj;
[0059]
具体的,在每个文本颜通道ci上,每个通道ci是属于第i种颜的像素级别的二分类图,每个文本核kj为ci中的第i个连通域,对ci进行形态学膨胀(dilation)即可将每个文本核kj膨胀为完整文本实例tj;遍历所有序号i,得到每个文本实例tj的独立二值图,再通过寻轮廓算法(findcontours),得到每个文本实例的多边形候选框pj。
[0060]
步骤五:依次遍历所有多边形候选框,对于每两个多边形候选框pipj,如果其交叉面积与较小多边形面积之比大于0.5,则将其合并,由此得到所有检测框。具体算法为:
[0061][0062]
其中,iou(pi,pj)为第i个与第j个候选框的交叉比,η为判断为重叠的交叉比的阈值,优选为0.5,n
t
为最终检测框。
[0063]
本发明提出的渐近回归边界的任意形状文字检测方法,其测试环境及实验结果为:
[0064]
(1)测试环境:
[0065]
系统环境:ubuntu20.04。
[0066]
硬件环境:内存:32gb,gpu:nvidia rtx 2080ti,cpu:4.00ghz intel(r)xeon(r)w-2125,硬盘:2tb。
[0067]
(2)实验数据:
[0068]
本发明在两个数据集上进行了实验,分别是ctw1500(1000张训练图片,500张测试图片),total-text(1255张训练图片,300张测试图片)。在评估过程中,对于ctw1500,total-text,其测试图片的最短边分别设置为512和640。
[0069]
(3)优化方式:
[0070]
使用adam优化器进行优化。对于ctw1500,total-text分别训练600,900个epoch。模型的初始学习率为0.001。对于主干网络resnet-50,训练过程中的batch size设置为16。
[0071]
(4)实验结果:
[0072]
在ctw1500上的性能比较:
[0073]
[0074][0075]
在total-text数据集上的性能比较:
[0076]
方法precison(%)recall(%)f-measure(%)seglink76.873.175.0mcn728076east78.383.380.7textfield80.0584.382.4textsnake84.980.482.6textboxes++78.587.882.9pixellink82.085.583.7fots82.0488.8485.31psenet-1s84.586.9285.69lse85.088.386.6atrr83.390.486.8craft84.389.886.9ours84.6988.5386.56
[0077]
申请实施例提供了一种基于动态染的场景文字检测系统,该系统用于执行上述实施例所述的基于动态染的场景文字检测方法,如图3所示,该系统包括:
[0078]
特征提取融合模块501,用于提取待检测图像的视觉特征,并对所述视觉特征进行多尺度特征融合,获取所述待检测图像的特征表达;
[0079]
染分割模块502,用于根据所述特征表达,生成5个颜通道的文本核语义分割概率图;
[0080]
文本核模块503,用于在每个所述文本核语义分割概率图上到置信度大于0的连通域,得到每个文本核位点集合;
[0081]
膨胀模块504,用于将每个所述文本核位点集合膨胀为完整文本实例,得到每个完整文本实例的多边形候选框;
[0082]
交叉合并模块505,用于依次遍历所有多边形候选框,对于每两个多边形候选框,如果交叉面积与相对较小的多边形候选框的面积之比大于0.5,则将该两个多边形候选框合并,得到所有检测框。
[0083]
本技术的上述实施例提供的基于动态染的场景文字检测系统与本技术实施例提供的基于动态染的场景文字检测方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0084]
本技术实施方式还提供一种与前述实施方式所提供的基于动态染的场景文字
检测方法对应的电子设备,以执行上基于动态染的场景文字检测方法。本技术实施例不做限定。
[0085]
请参考图4,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。如图4所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的基于动态染的场景文字检测方法。
[0086]
其中,存储器201可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
[0087]
总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述基于动态染的场景文字检测方法可以应用于处理器200中,或者由处理器200实现。
[0088]
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
[0089]
本技术实施例提供的电子设备与本技术实施例提供的基于动态染的场景文字检测方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0090]
本技术实施方式还提供一种与前述实施方式所提供的基于动态染的场景文字检测方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于动态染的场景文字检测方法。
[0091]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0092]
本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的基于动态染的场景文字检测方法出于相同的发明构思,具有与其存储的应用程序所采用、运行
或实现的方法相同的有益效果。
[0093]
需要说明的是:
[0094]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备有固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
[0095]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0096]
类似地,应当理解,为了精简本技术并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
[0097]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0098]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0099]
本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的虚拟机的创建系统中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0100]
应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,
不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0101]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种基于动态染的场景文字检测方法,包括以下步骤:1)提取待检测图像的视觉特征,并对所述视觉特征进行多尺度特征融合,获取所述待检测图像的特征表达;2)根据所述特征表达,生成5个颜通道的文本核语义分割概率图;3)在每个所述文本核语义分割概率图上到置信度大于0的连通域,得到每个文本核位点集合;4)将每个所述文本核位点集合膨胀为完整文本实例,得到每个完整文本实例的多边形候选框;5)依次遍历所有多边形候选框,对于每两个多边形候选框,如果交叉面积与相对较小的多边形候选框的面积之比大于0.5,则将该两个多边形候选框合并,得到所有检测框。2.根据权利要求1所述的方法,其特征在于,所述的步骤1)中,提取所述视觉特征的方法包括:利用在imagenet上预训练的主干网络,所述主干网络包括resnet50网络。3.根据权利要求1所述的方法,其特征在于,所述的步骤2)中,通过对特征表达进行三个连续的卷积及线性整流后,最后经过softmax层得到5个颜通道的文本核语义分割概率图。4.根据权利要求1所述的方法,其特征在于,所述的步骤3)中,设定一个阈值,在每个文本核语义分割概率图上到置信度大于所述阈值的连通域,得到每个文本核位点集合。5.根据权利要求1所述的方法,其特征在于,所述的步骤4)中,将每个文本核位点集合经过形态学操作膨胀为完整文本实例;遍历所有序号,得到每个完整文本实例的独立二值图,再通过寻轮廓算法,得到每个完整文本实例的多边形候选框。6.根据权利要求1所述的方法,其特征在于,所述的步骤5)的具体算法为:其中,n
t
为最终检测框,iou(p
i
,p
j
)为第i个与第j个候选框的交叉比,η为判断为重叠的交叉比的阈值。7.根据权利要求1所述的方法,其特征在于,所述的步骤1)中,对视觉特征进行多尺度特征融合的方法包括:自浅入深的融合多尺度特征。8.一种基于动态染的场景文字检测系统,其特征在于,包括:特征提取融合模块,用于提取待检测图像的视觉特征,并对所述视觉特征进行多尺度特征融合,获取所述待检测图像的特征表达;染分割模块,用于根据所述特征表达,生成5个颜通道的文本核语义分割概率图;文本核模块,用于在每个所述文本核语义分割概率图上到置信度大于0的连通域,得到每个文本核位点集合;膨胀模块,用于将每个所述文本核位点集合膨胀为完整文本实例,得到每个完整文本实例的多边形候选框;交叉合并模块,用于依次遍历所有多边形候选框,对于每两个多边形候选框,如果交叉面积与相对较小的多边形候选框的面积之比大于0.5,则将该两个多边形候选框合并,得到所有检测框。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
技术总结
本申请提供一种基于动态染的场景文字检测方法和系统。方法,包括以下步骤:1)提取待检测图像的视觉特征,对视觉特征进行特征融合,获取特征表达;2)将特征表达输入分割预测头部,生成5个颜通道的文本核语义分割概率图;3)在每个颜通道C
技术研发人员:
邓若愚 胡尚薇
受保护的技术使用者:
同济人工智能研究院(苏州)有限公司
技术研发日:
2022.10.11
技术公布日:
2022/12/30