一种基于外观设计专利的多模态图像检索方法

阅读: 评论:0

著录项
  • CN201610001348.1
  • 20160105
  • CN105701173A
  • 20160622
  • 中国电影科学技术研究所;北京信息科技大学
  • 李雪伟;吕学强;张鑫;王木旺;崔强
  • G06F17/30
  • G06F17/30

  • 北京市海淀区双榆树科学院南路44号
  • 北京(11)
摘要
本发明涉及一种基于外观设计专利的多模态图像检索方法,包括以下步骤:步骤1):提出有效内容提取算法提取图像有效内容,并对图像进行预处理操作;步骤2):提取图像文本特征;步骤3):提取图像快速局部方向模式视觉特征;步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。本发明提出一种融合文本特征与底层视觉特征的多模态图像检索算法,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单模态检索方法,可以很好地满足实际应用的需要。
权利要求

1.一种基于外观设计专利的多模态图像检索方法,其特征在于,包括以下步骤:

步骤1):提出图像有效内容提取算法IECE(ImageEffectiveContentExtraction Algorithm)提取图像有效内容,并根据图像直方图范围动态选择对图像进行灰度拉伸预处 理操作;

其中,所述图像有效内容是指属于图像信息且在专利审查中对比的图像内容;

步骤2):提取图像文本特征;

步骤3):提取图像快速局部方向模式视觉特征FLDP(FastLocalDirectional Pattern);

步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。

2.根据权利要求1所述的基于外观设计专利的多模态图像检索方法,其特征在于,所述 步骤1)中所述的图像有效内容提取算法具体为:

步骤A:初步确定图像无关内容范围;

其中,所述图像无关内容是指属于图像信息但在专利审查中忽略的图像内容;

步骤B:利用基于一阶微分法判断有效边界;

其中,所述有效边界指有效内容与无关内容邻接处属于图像有效内容对应的行或列所 在区域,具有唯一性和不变性;

步骤C:利用回溯确定有效边界。

3.根据权利要求2所述的多模态图像检索方法,其特征在于,所述步骤A具体为:

步骤A1:在列方向判断图像有效内容,如公式(1)和公式(2)所示;

num=num+1,if(abs(p i,j-p i+1,j)≤threshold_rate)(1)

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取值范 围为[0,Hmax];threshold_rate为差值阈值;

步骤A2:在行方向判断图像有效内容,如公式(3)和公式(4)所示;

num=num+1,abs(p i,j-p i,j+1)>threshold_rate(3)

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取值范 围为[0,Wmax];threshold_rate为差值阈值。

4.根据权利要求2所述的多模态图像检索方法,其特征在于,所述步骤B具体如公式(5) 和公式(6)所示:

其中,Gx和Gy求取方式如公式(7)和公式(8)所示:

G x=|f(x+1,y)-f(x,y)|(7)

G y=|f(x,y+1)-f(x,y)|(8)。

5.根据权利要求2所述的多模态图像检索方法,其特征在于,所述步骤C具体为:

步骤C1:根据方向设置滑动窗口:垂直方向滑动窗口应设置为height*2大小,水平方向 滑动窗口大小应为2*width;

步骤C2:初始化滑动窗口;

步骤C3:判断外边缘是否为有效边界,如果是则转向步骤C5,否则转向步骤C4;

步骤C4:根据方向以1个像素点为步长向外移动滑动窗口;

步骤C5:结束回溯。

6.根据权利要求1所述的基于外观设计专利的多模态图像检索方法,其特征在于,所述 步骤1)中所述的根据图像直方图范围动态选择对图像进行灰度拉伸预处理操作具体如公 式(9)所示:

其中,R min与R max分别为整幅图像灰度值中的最小值与最大值,若R min与R max之间宽度小 于设定阈值,则对图像进行灰度拉伸预处理。

7.根据权利要求1所述的基于外观设计专利的多模态图像检索方法,其特征在于,所述 步骤2)具体为:

步骤A:提取外观设计专利摘要信息中的类别信息;其中,所述类别信息指外观设计产 品的名称信息;

步骤B:利用哈工大版《同义词词林》对提取的类别信息进行扩展。

8.根据权利要求7所述的多模态图像检索方法,其特征在于,所述步骤B具体为:

将《同义词词林》中的同义词与相关词加入文本特征库,并为同义词赋予较高的权重, 相关词赋予相对较低的权重。

9.根据权利要求1所述的基于外观设计专利的多模态图像检索方法,其特征在于,所述 步骤3)具体为:

步骤A:计算方向边缘响应:将图像分别按Kirsch边缘模板进行卷积运算,进而得到8个 边缘响应矩阵M0,M1,......,M7;其中,将正的边缘响应编码设为1,负的边缘响应编码设为 0;

步骤B:构造编码图像:对于图像中每一像素点,构造其对应的8位FLDP描述子,获取8位 二进制串,并将其转换为十进制值,且该值为编码图像的灰度值;

步骤C:提取图像的FLDP特征:将步骤B构造的编码图像的直方图作为原图像的FLDP特 征。

10.根据权利要求1所述的基于外观设计专利的多模态图像检索方法,其特征在于,所 述步骤4)具体为:

融合文本特征和图像特征,计算图像间的相似性,返回相似的图像。

说明书
技术领域

本发明属于外观设计专利中图像检索技术领域,具体涉及一种基于外观设计专利 的多模态图像检索方法。

随着我国经济的快速发展,外观设计专利已成为保护企业知识产权、维护自身利 益、保护发明创造的重要途径。实现外观设计专利的快速查询,一方面能帮助用户获取指定 的专利信息,减少模仿纠纷,另一方面对实现真正的现代化管理、增强企业国际竞争力具有 非常重要的作用。

不同于互联网上复杂多变的图像,外观设计专利图像保护的是图像的纹理及形状 信息,因此,在对图像提取底层视觉特征时,主要以纹理和形状特征为主,以颜特征为辅。 由于语义鸿沟的存在,仅依据图像底层视觉特征进行检索存在限制性,无法满足人们检索 需求。

外观设计专利数据分为文本信息和图像信息,而利用图像本身的视觉特征提取图 像的语义特征,实现外观设计专利图像的多模态检索。这种方法因语义鸿沟的存在,影响语 义特征提取的正确率,进而影响检索效果。

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的基于外观设计专利的多模态图像检索方法。

为了实现上述发明目的,本发明采用的技术方案如下:

一种基于外观设计专利的多模态图像检索方法,包括以下步骤:

步骤1):提出图像有效内容提取算法IECE(ImageEffectiveContent ExtractionAlgorithm)提取图像有效内容,并根据图像直方图范围动态选择对图像进行 灰度拉伸预处理操作;

其中,所述图像有效内容是指属于图像信息且在专利审查中对比的图像内容;

步骤2):提取图像文本特征;

步骤3):提取图像快速局部方向模式视觉特征FLDP(FastLocalDirectional Pattern);

步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。

进一步地,所述步骤1)具体为:

步骤A:初步确定图像无关内容范围;

其中,所述图像无关内容是指属于图像信息但在专利审查中忽略的图像内容;

步骤B:利用基于一阶微分法判断有效边界;

其中,所述有效边界指有效内容与无关内容邻接处属于图像有效内容对应的行或 列所在区域,具有唯一性和不变性;

步骤C:利用回溯确定有效边界。

进一步地,所述步骤A具体为:

步骤A1:在列方向判断图像有效内容,如公式(1)和公式(2)所示;

num=num+1,if(abs(pi,j-pi+1,j)≤threshold_rate)(1)

MayInvalid R o w _ j = 1 , n u m > r a t e * h e i g h t 0 , o t h e r w i s e - - - ( 2 )

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取 值范围为[0,Hmax];threshold_rate为差值阈值;

步骤A2:在行方向判断图像有效内容,如公式(3)和公式(4)所示;

num=num+1,abs(pi,j-pi,j+1)>threshold_rate(3)

MayInvalid c o l u m n _ i = 1 , n u m r a t e * w i d t h 0 , o t h e r w i s e - - - ( 4 )

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取 值范围为[0,Wmax];threshold_rate为差值阈值。

进一步地,所述步骤B具体如公式(5)和公式(6)所示:

G x , y = 1 , | G x | t h r e s h o l d _ g r a y 0 , o t h e r w i s e G x , y = 1 , | G y | t h r e s h o l d _ g r a y 0 , o t h e r w i s e - - - ( 5 )

IsValid x = 1 , Σ y = 0 w i d t h - 1 G x , y r a t e * w i d t h 0 , o t h e r w i s e IsValid y = 1 , Σ x = 0 h e i g h t - 1 G x , y r a t e * h e i g h t 0 , o t h e r w i s e - - - ( 6 )

其中,Gx和Gy求取方式如公式(7)和公式(8)所示:

Gx=|f(x+1,y)-f(x,y)|(7)

Gy=|f(x,y+1)-f(x,y)|(8)

进一步地,所述步骤C具体为:

步骤C1:根据方向设置滑动窗口:垂直方向滑动窗口应设置为height*2大小,水平 方向滑动窗口大小应为2*width;

步骤C2:初始化滑动窗口;

步骤C3:判断外边缘是否为有效边界,如果是则转向步骤C5,否则转向步骤C4;

步骤C4:根据方向以1个像素点为步长向外移动滑动窗口;

步骤C5:结束回溯。

进一步地,所述步骤1)中所述的根据图像直方图范围动态选择对图像进行灰度拉 伸预处理操作具体如公式(9)所示:

I s S t r e t c h = t r u e , | R m i n - R max | < t h r e s h o l d f a l s e , o t h e r w i s e - - - ( 9 )

其中,Rmin与Rmax分别为整幅图像灰度值中的最小值与最大值,若Rmin与Rmax之间宽 度小于设定阈值,则对图像进行灰度拉伸预处理。

进一步地,所述步骤2)具体为:

步骤A:提取外观设计专利摘要信息中的类别信息;其中,所述类别信息指外观设 计产品的名称信息;

步骤B:利用哈工大版《同义词词林》对提取的类别信息进行扩展。

进一步地,所述步骤3)具体为:

步骤A:计算方向边缘响应:将图像分别按Kirsch边缘模板进行卷积运算,进而得 到8个边缘响应矩阵M0,M1,......,M7;其中,将正的边缘响应编码设为1,负的边缘响应编 码设为0;

步骤B:构造编码图像:对于图像中每一像素点,构造其对应的8位FLDP描述子,获 取8位二进制串,并将其转换为十进制值,且该值为编码图像的灰度值;

步骤C:提取图像的FLDP特征:将步骤B构造的编码图像的直方图作为原图像的 FLDP特征。

进一步地,所述步骤4)具体为:

融合文本特征和图像特征,计算图像间的相似性,返回相似的图像。

本发明提供的基于外观设计专利的多模态图像检索方法,将文本特征与底层视觉 特征进行融合,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单 模态检索方法,可以很好地满足实际应用的需要。

图1为本发明的流程图;

图2为图像边缘无关信息;

图3为条纹图像;

图4为回溯流程图;

图5为图像直方图;

图6为外观设计专利数据;

图7为Kirsch模板;

图8为同类图像;

图9为相似图像。

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。

如图1所示,一种基于外观设计专利的多模态图像检索方法,包括以下步骤:

步骤1):提出图像有效内容提取算法IECE(ImageEffectiveContent ExtractionAlgorithm)提取图像有效内容,并根据图像直方图范围动态选择对图像进行 灰度拉伸预处理操作;

定义1:图像有效内容:属于图像信息且在专利审查中对比的图像内容。

定义2:图像无关内容:属于图像信息但在专利审查中忽略的图像内容。

根据外观设计专利图像相似性判断标准可知,专利审查对比外观设计专利图像的 形状、图案和彩等信息。外观设计专利的图案是指通过设计构思产生线条、符号、文字等, 对其排列或组合所呈现在专利表面的视觉能感受到的图形,图像边缘的空白区域不属于外 观设计专利的图案内容,因此,在检索之前需获取图像有效内容。图2中,(a)的图案为边框 内的信息,空白区域虽属于图像内容,但不属于专利审查对象。因此,图(a)中图像有效内容 为边框内图像内容,而边框外内容属于图像无关内容。图(b)中图像有效内容为边框内信 息,边框则属于图像无关内容。

步骤2):提取图像文本特征;

步骤3):提取图像快速局部方向模式视觉特征FLDP(FastLocalDirectional Pattern);

步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。

其中,所述步骤1)具体为:

步骤A:初步确定图像无关内容范围;

步骤B:利用基于一阶微分法判断有效边界;

其中,所述有效边界指有效内容与无关内容邻接处属于图像有效内容对应的行或 列所在区域,具有唯一性和不变性;

步骤C:利用回溯确定有效边界。

分析外观设计专利图像数据的特点可知,外观设计专利图像有效内容为包含图像 形状、图案等信息的部分,这些有效内容分布在图像的中心区域。图像无关内容为图像的边 缘空白信息或边框信息,即图像的边缘区域。因此,无关内容判定可转化为图像边缘内容有 效性判断。因图像无关内容属于图像中不太重要的信息,只占整幅图像很小一部分,在无关 内容初步判定过程中,设置图像无关内容宽度与高度阈值分别为Hmax与Wmax。

图像的形状或图案一般不具有规律性,因此图像有效内容对应像素值的分布也应 呈现随机性,即每行或每列像素值应分布在较大的数值范围内。但外观设计专利图像的无 关内容为边缘空白区域或边框信息,这些图像信息呈现相同的视觉感受,因此对应的像素 值也应该相等,即每行或每列像素值应比较接近。

通过分析图像有效内容和无关内容的特点,本发明通过统计每行或每列像素值的 变化判断图像内容是否有效。所述步骤A具体为:

步骤A1:在列方向判断图像有效内容,如公式(1)和公式(2)所示;

num=num+1,if(abs(pi,j-pi+1,j)≤threshold_rate)(1)

MayInvalid R o w _ j = 1 , n u m > r a t e * h e i g h t 0 , o t h e r w i s e - - - ( 2 )

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,若相 邻像素点差值小于设置的阈值,则对计数器num加1,i取值范围为[0,Hmax];threshold_ rate为差值阈值;

步骤A2:在行方向判断图像有效内容,如公式(3)和公式(4)所示;

num=num+1,abs(pi,j-pi,j+1)>threshold_rate(3)

MayInvalid c o l u m n _ i = 1 , n u m r a t e * w i d t h 0 , o t h e r w i s e - - - ( 4 )

其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取 值范围为[0,Wmax];threshold_rate为差值阈值。

定义3:当前图像有效内容判定过程中,有效内容与无关内容邻接处属于图像无关 内容对应的行或列所在区域,记为图像内边缘。

定义4:当前图像有效内容判定过程中,有效内容与无关内容邻接处属于图像有效 内容对应的行或列所在区域,记为图像外边缘。

因图像有效内容需要逐行或逐列判定,因此,在判定过程中,内边缘或外边缘不断 变化。

定义5:图像有效内容判定完成后,图像外边缘定义为有效边界,即图像有效内容 与无关内容的确定边界。有效边界具有唯一性和不变性。

外观设计专利中部分图像某些行或列可能存在像素值分布接近的情况。若据式 (3)对图像有效内容的定义,图3整幅图像都应判定为无关内容,但从视觉角度分析,整幅图 像应为有效内容。因此,在行或列方向满足式(3)或式(4)是判断图像内容是否有效的必要 条件,并非充分条件。为避免将图像有效内容误判为无关内容,本发明通过回溯确定有效边 界。由于图像有效内容与无关内容在视觉上具有较大的差异性,邻接处会产生较强的灰度 变化,因此,本发明提出基于一阶微分法判断有效边界。

一阶微分通过梯度法实现。对于函数f(x,y),在其坐标(x,y)上的梯度定义如下:

f = G x G y = f x f y - - - ( 5 )

向量的模值计算方法如下:

f = [ ( f x ) 2 + ( f y ) 2 ] 1 2 - - - ( 6 )

当对整幅图像进行梯度计算时运算量较大,因此,在实际操作中常用绝对值代替 平方与平方根运算近似求梯度的模值:

f | G x | + | G y | - - - ( 7 )

在判定图像内容是否有效时,只需考虑与邻近行或列对应像素点值的变化,即只 考虑像素值在一个方向的变化。判定上、下有效边界时,在垂直方向对比像素点的变化,判 定左、右有效边界时,在水平方向对比像素点的变化。因此,本发明在判定有效边界时,沿着 两个空间轴分别求取偏微分。式(7)可以简化为:


其中,Gx和Gy求取方式如式(9-10)所示:

Gx=|f(x+1,y)-f(x,y)|(9)

Gy=|f(x,y+1)-f(x,y)|(10)

有效边界判定公式如式(11-12)所示:

G x , y = 1 , | G x | t h r e s h o l d _ g r a y 0 , o t h e r w i s e G x , y = 1 , | G y | t h r e s h o l d _ g r a y 0 , o t h e r w i s e - - - ( 11 )

IsValid x = 1 , Σ y = 0 w i d t h - 1 G x , y r a t e * w i d t h 0 , o t h e r w i s e IsValid y = 1 , Σ x = 0 h e i g h t - 1 G x , y r a t e * h e i g h t 0 , o t h e r w i s e - - - ( 12 )

回溯流程图如图4所示。

垂直方向判断图像的左、右有效边界时,滑动窗口应设置为height*2大小,在水平 方向判断上、下有效边界时,滑动窗口大小应为2*width。并通过初步判定过程中确定的内、 外边缘对滑动窗口初始化。在判断过程中以1个像素点为步长向外移动滑动窗口。

因图像质量不等,部分图像对比度较低,导致图像部分细节特征被忽略。图5中(b) 为(a)对应直方图,因(a)图颜对比度低,直方图分布在较窄范围内,部分细节信息被模 糊。因此,本发明在提取图像特征前,根据图像直方图范围动态选择对图像进行灰度拉伸预 处理操作。具体如公式(13)所示:

I s S t r e t c h = t r u e , | R m i n - R max | < t h r e s h o l d f a l s e , o t h e r w i s e - - - ( 13 )

其中,Rmin与Rmax分别为整幅图像灰度值中的最小值与最大值,当Rmin与Rmax之间宽 度小于设定阈值时,表示整幅图像的灰度值分布在较窄的范围内,对应在视觉上为对比度 较低的图像,因此,需对图像进行灰度拉伸预处理,提高图像整体亮度。

所述步骤2)具体为:

步骤A:提取外观设计专利摘要信息中的类别信息;其中,所述类别信息指外观设 计产品的名称信息;

步骤B:利用哈工大版《同义词词林》对提取的类别信息进行扩展

外观设计专利数据以多模态形式存储。如图6所示为一项外观设计专利数据,包括 文本和图像两部分,文本数据包括专利申请号、申请日期、申请人和摘要等信息。图像数据 为外观设计专利保护内容。

传统基于关键字的检索方法虽存在文字描述能力不足的缺点,但与人的检索意图 相符,不存在语义鸿沟问题。通过对外观设计专利文本数据分析可知,外观设计专利摘要信 息中包含专利名称、用途等描述信息,因此,本发明将摘要中专利的名称作为专利的文本特 征,确定图像的所属类别。

因外观设计专利数据的特殊性,文本信息排列具有规律性,其中摘要信息格式为 “1.外观设计产品的名称:XX。2.外观设计产品的用途:XX。3.外观设计的设计要点:XX。 4.……”。通过分析外观设计摘要信息可得,外观设计产品名称即为类别,因此,通过摘要信 息直接提取外观设计专利的类别信息。

通过摘要信息只获得一个类别词语作为文本特征,类别信息单一,为扩展外观设 计专利图像的文本特征,本发明通过哈工大版同义词词林对提取的类别信息进行扩展。哈 工大同义词词林对所有词分五级,第五级分类结果包含同义词、相关词和单独一个词三种, 将同义词与相关词加入文本特征库,并为同义词赋予较高的权重,相关词赋予相对较低的 权重。

局部二进制模式(LBP)是一种理论简单、计算高效的非参数局部纹理特征描述子, 具有较高的特征鉴别力和较低的计算复杂度,在图像处理和计算机视觉领域受到越来越多 的关注。LBP描述子通过邻域像素点与中心像素值比较获取一定长度的二进制编码,转换为 十进制后即为中心点特征值,整幅图像的直方图即为对应图像的特征向量。公式如式(14) 所示:

LBP P , R ( x c , y c ) = Σ p = 0 P - 1 s ( g p - g c ) 2 p

s ( x ) = 1 , x 0 0 , x < 0 - - - ( 14 )

虽LBP特征有良好的特征表达能力,但因灰度值易受随机噪声、非单调光照变化等 的影响,进而影响特征提取。为解决这一问题,Jabid等人提出对像素邻域8方向的边缘响应 编码构造描述子,即LDP。LDP在一定程度上增强了LBP对随机噪声及非单调光照变化的抗干 扰能力。

Jabid等人计算LDP纹理特征时采用Kirsch模板计算图像8个方向的边缘,并对边 缘响应的绝对值进行排序,排名前n的响应编码为1,其余编码为0,然后生成LDP响应图像, 其直方图作为LDP特征。图7为Kirsch8方向模板(M0-M7)。

LDP算子只对边缘响应绝对值位于前n位的方向编码为1,而梯度排名前n位的方向 不太可能由于噪声的影响改变位置,因此LDP具有一定抗噪性。然而,构造LDP描述子时要进 行8个方向的卷积与排序操作,算法的时间消耗较大,因此刘海军等人提出两种改进LDP的 方案:FLDP和MLDP。本发明利用FLDP纹理特征对图像进行检索.

提取FLDP算子过程中仍然采用Kirsch边缘模板,但为了提高运算速度,不再对响 应值排序,而是直接按边缘响应的符号编码,即正的边缘响应编码为1,负的边缘响应编码 为0。所述步骤3)具体为:

步骤A:计算方向边缘响应:将图像分别按Kirsch边缘模板进行卷积运算,进而得 到8个边缘响应矩阵M0,M1,......,M7;其中,将正的边缘响应编码设为1,负的边缘响应编 码设为0;

步骤B:构造编码图像:对于图像中每一像素点,构造其对应的8位FLDP描述子,获 取8位二进制串,并将其转换为十进制值,且该值为编码图像的灰度值;

步骤C:提取图像的FLDP特征:将步骤B构造的编码图像的直方图作为原图像的 FLDP特征。

所述步骤4)具体为:

融合文本特征和图像特征,计算图像间的相似性,返回相似的图像。

本发明采用以下两种性能评价指标评价本发明的有效性。

1).同类检准率SCPN

本发明中将所属类别相同的图像定义为同类图像。如图8所示,虽图(a)与图(b)内 容不同,但两幅图像所属类别相同,都为壁纸类图像。SCPN表示返回的前N张图像中与被检 索图像所属相同类别的图像所占百分比。SCPN体现了检索算法对同类图像检索的准确率, 值越大,返回的同类别图像数目越多,检索效果越好;反之,检索效果越差。式(15)为SCPN 的计算公式。

S C P N = S a m e C l a s s N u m N - - - ( 15 )

其中,N为返回图像数目,SameClassNum为返回图像中与被检索图像同类被图像数 目。

2).相似图像检准率SIPN

本发明中将灰度化操作后纹理相似的图像定义为相似图像。如图9所示,图(a)与 图(b)内容虽不完全相同,但纹理相似。SIPN表示返回的N中图像中与被检索图像相似的图 像所占百分比。SIPN体现了检索算法的准确率,值越大,表示检索到的相似图像越靠前,检 索效果越好。式(16)为SIPN的计算公式。

S I P N = S i m i l a r N u m N - - - ( 16 )

其中N表示检索返回的图像数目,SimilarNum表示返回图像中与被检索图像相似 的图像数目。

去除图像无关内容时,阈值设置要合理。若值过大,易把图像无关内容误判为真实 内容,影响图像有效内容的正确提取;若阈值过小,会误删图像的真实内容。因此,通过对图 像无关内容像素值的统计和实验分析,本发明将rate值置为0.9。

本发明分别提取外观设计专利的文本与底层视觉特征,其中,将外观设计专利文 本数据中的类别信息作为文本特征,并通过同义词林对类别信息进行扩展,提取FLDP特征 作为视觉特征。进而实现外观设计专利图像的多模态检索。源图像库为从专利局申请05-06 类部分图像,共计15000张。为验证本发明提取图像有效内容及多模态检索算法的有效性, 将本发明提出的方法与已有的检索方法进行对比。

首先,为验证本发明提取图像有效内容算法的有效性,分别对图像进行提取有效 内容预处理与不进行预处理操作,对比不同图像库中图像检准率。首先利用本发明提出的 IEIC算法对源图像库中所有图像提取有效内容,生成新图像库,然后分别针对源图像库与 新图像库提取特征进行检索,并统计SIPN(N=30)。其中,特征1:GLCM特征;特征2:图像滤 波后提取GLCM及全局特征;特征3:FLDP特征。

表1:不同图像库SIPN相似图像检索准确率统计表


从表1可以看出,在检索相似图像时,对于特征1,特征2和特征3,提取有效内容后 检索比直接对图像进行检索准确率高。因图像无关内容在图像相似性判断中不起作用,图 像相似性判定对象为图像有效内容。因此在提取特征之前去除图像无关内容,去除了伪特 征向量,避免图像无关内容对对检索产生的干扰,使得提取出的特征是对图像真实有效内 容的描述,从而提高相似图像检准率。

通过表1可知,在同一图像库下进行检索,特征3对应检索效果最好,特征2对应的 检索效果次之,特征1对应的检索效果最差。特征1为提取的灰度共生矩阵特征,灰度共生矩 阵表示灰度的空间依赖性,即纹理模式下的像素灰度的空间关系。但因其没有完全抓住局 部灰度的图形特点,因此检索效果不佳。特征2为融合特征,首先对图像进行小波变换,提取 图像的整体信息,然后提取灰度共生矩阵,全局特征与全局特征融合实现多特征检索,因此 检索效果优于特征1对应的检索方法。本发明提取的FLDP特征利用8个方向的边缘信息来描 述纹理,并将对检索重要的边缘编码赋值为1,不重要的边缘响应编码为0,从而突出重要边 缘信息,因此检索准确率比特征1和2对应的检索效果都要好。

为验证本发明提出的多模态检索算法的有效性,在新图像库下,将本发明提出的 方法与现有的检索方法分别在单、多模态下进行对比实验,并统计SCPN(N=30)。其中,单 模态检索提取的特征为上文3种特征,多模态检索方法提取特征为文本特征与3种特征的融 合。

表2:不同模态检索方法SCPN统计表


表3:不同模态检索方法SIPN统计表


从表2可以看出在多模态检索下,同类图像检准率达到100%,检索效果远优于单 模态检索。底层视觉特征能描述图像内容,但因存在语义鸿沟问题,视觉特征与人们的上层 理解之间不能建立一一对应关系,从而导致同类图像检索准确率低。文本特征虽不能准确 描述复杂图像的全部内容,但本发明提取的文本特征并不是对图像内容的标注,而是根据 图像已有文本数据提取类别信息,是对图像所属类别信息的准确描述。因此融合图像的文 本和视觉特征,实现图像的多模态检索,大大提高同类图像检索准确率。

从表3可以看出,在检索相似图像时,多模态检索方法效果优于单模态检索方法。 因同类别图像图像描述内容相似,因此,本发明首先根据图像的文本特征确定图像所属类 别,在同类别图像中根据视觉特征进行相似性计算,排除了非同类图像的干扰,提高了相似 图像检索准确率。

为验证本发明提出多模态检索算法对同类图像检索效果的稳定性,在新图像库 下,分别取不同N值,统计SCPN。其中,提取特征3为图像的视觉特征。

表4:N取不同值对应SCPN统计表


分析表4可得,在多模态检索下,随着N取值的增大,同类图像检索准确率不变。多 模态检索时,根据图像文本特征确定图像类别,因图像文本特征是对图像类别的正确描述, 因此,多模态检索方法可以正确检索出与被检索图像类别相同的图像,且准确率与N值无 关。

本发明提供的基于外观设计专利的多模态图像检索方法,将文本特征与底层视觉 特征进行融合,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单 模态检索方法,可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能 因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说, 在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范 围。因此,本发明专利的保护范围应以所附权利要求为准。

本文发布于:2023-03-13 07:05:28,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/69456.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图