一种基于深度学习的网络监督细粒度图像识别方法和系统

阅读：评论：0

1.本发明涉及图像识别技术领域，更具体地，涉及一种基于深度学习的网络监督细粒度图像识别方法和系统。

背景技术：

2.细粒度图像识别旨在识别给定对象类别的子类，例如不同种类的鸟类以及飞机和汽车，在智慧建设以及互联网等领域有着重要的科学意义和应用价值。近年来，随着深度学习的不断发展，细粒度图像识别取得了很大的进展。
3.目前大部分算法主要采用以优质数据驱动的深度学习来实现细粒度图像识别，在很大程度上依赖于大规模的人工标注的数据，而这些数据集的收集之难以及数据标注成本之高已经成为制约其推广和普及的瓶颈。
4.在互联网高速发展的当下，网络上有大量的弱标签数据可用于缓解目前细粒度图像识别算法对人工标注的依赖，即将网络检索所得的数据用于训练神经网络模型。然而，网络检索的数据中包含一定比例的噪声标签，这会对模型的训练产生不良影响。此外，细粒度图像中固有的类间方差小和类内方差大的特点进一步提高了识别难度。
5.目前的现有技术公开了基于类间相似度的分布式标签的细粒度图像识别算法，包括以下步骤：使用骨干网络提取输入图像的特征表示；利用中心损失模块通过特征表示计算中心损失并更新类别中心；分类损失模块利用特征表示和最终标签分布计算分类损失(例如交叉熵损失)，其中的最终标签分布通过计算独热标签分布和由类别中心生成的分布式标签分布的加权和得到；由中心损失和分类损失加权求和得到最终的目标损失函数，以此优化整个模型；现有技术中的方法能够通过降低模型预测的确信度缓解过拟合的问题，能够有效学习细粒度数据的辨别性特征，在一定程度上提高区分不同细粒度类别数据的准确性；但现有技术中的方法主要采用以优质数据驱动的深度学习来区分从属类别，依赖于大规模的人工标注的图像数据，数据收集及标注成本较高，在进行细粒度图像识别时常常费时费力，存在着效率和准确率均较低的问题。

技术实现要素：

6.本发明为克服上述现有技术在进行细粒度图像识别时效率和准确率低下的缺陷，提供一种基于深度学习的网络监督细粒度图像识别方法和系统，能够高效准确地对图像进行细粒度识别。
7.为解决上述技术问题，本发明的技术方案如下：
8.一种基于深度学习的网络监督细粒度图像识别方法，包括以下步骤：
9.s1：从互联网中获取含有噪声标签的输入图像；
10.s2：对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；
11.s3：根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例
图；
12.s4：根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；
13.s5：将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；
14.s6：获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。
15.优选地，所述步骤s2中，对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图，具体方法为：
16.用特征提取器对所述含有噪声标签的输入图像进行特征提取，获取整体特征图；将所述整体特征图通过一个卷积层，获取均值滤波后的整体特征图；对所述均值滤波后的整体特征图基于通道数计算每个位置的均值，获取整体均值特征图；搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标，根据最大响应值区域的坐标获取区域判别特征图。
17.优选地，所述搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标的具体方法为：
18.根据以下公式进行搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标：
[0019][0020][0021]
其中，表示整体均值特征图，f
‘g表示均值滤波后的整体特征图，c表示均值滤波后的整体特征图的通道数，表示搜寻最大响应值区域对应的行和列，(i,j)表示最大响应值区域的坐标。
[0022]
优选地，所述步骤s3中，根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图，具体方法为：
[0023]
将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度，获取相同维度的区域特征图；利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维，获取降维后的整体特征图和降维后的区域特征图；根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图：
[0024]gins
＝《v
ins
,e
ins
》
[0025]
其中，g
ins
表示含有噪声标签特征的实例图，v
ins
表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合，e
ins
表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵。
[0026]
优选地，所述步骤s4中，根据所获取的含有噪声标签特征的实例图，构造图原型的具体方法为：
[0027]
根据所获取的含有噪声标签特征的实例图，为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型，图原型采用移动平均的方式进行更新：
[0028]gk
＝《vk,ek》
[0029][0030]
其中，gk表示所构建的第k个类别的图原型，vk表示第k个类别的图原型中所有特征点的集合，ek表示第k个类别的图原型中特征点之间连接的邻接矩阵，g'k为更新后的图原型，m为预设参数。
[0031]
优选地，所述步骤s5中，将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型，具体方法为：
[0032]
所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层，获得优化后的图匹配神经网络模型包括以下步骤；
[0033]
s5.1：将所获得的含有噪声标签特征的实例图g
ins
与图原型gk输入图内传播层，获得第一特征矩阵和第二特征矩阵，将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新；
[0034]
s5.2：将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合，获得聚合特征向量；
[0035]
s5.3：将所述聚合特征向量输入图间传播层进行图卷积操作，并迭代更新所述聚合特征向量，获得第一特征表达f
ins
和第二特征表达zk；
[0036]
s5.4：将第一特征表达f
ins
和第二特征表达zk输入图匹配层计算相似度sk，根据相似度sk计算图匹配损失
[0037]
s5.5：对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本进行剔除；
[0038]
s5.6：计算分类交叉熵损失和总损失根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型。
[0039]
优选地，所述步骤s5.4中，将第一特征表达f
ins
和第二特征表达zk输入图匹配层计算相似度sk，根据相似度sk计算图匹配损失具体为：
[0040]
将所述第一特征表达f
ins
和第二特征表达zk输入图匹配层进行图匹配，并计算相似度sk，具体为：
[0041][0042]
所述图匹配层设置图匹配损失函数，根据相似度sk计算图匹配损失，所述图匹配损失函数具体为：
[0043][0044][0045]
其中，为图匹配损失，yi表示原始标签，k表示图原型的类别，k表示图原型的类别总数。
[0046]
优选地，所述步骤s5.5中，对含有噪声标签特征的实例图中的噪声标签进行修正
以及对离样本进行剔除，具体方法为：
[0047]
所述图内传播层设置有分类器，将所述含有噪声标签特征的实例图输入分类器中，获得分类器分布概率pi，计算图匹配分布概率di，根据分类器分布概率pi和图匹配分布概率di计算总概率qi，具体为：
[0048]
qi＝αpi+(1-α)di[0049][0050]
其中，α为预设参数，τ为温度系数；
[0051]
根据总概率qi和预设阈值t对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本ood进行剔除，具体为：
[0052][0053]
其中，为伪标签，t为预设阈值，当总概率qi的最大值大于t时，将总概率qi最大值对应的类别作为伪标签；当总概率qi大于类别平均概率时，将原始标签yi作为伪标签，实现对含有噪声标签特征的实例图中的噪声标签进行修正；其他情况将ood作为伪标签，ood表示离样本，实现对离样本的剔除。
[0054]
优选地，所述步骤s5.6中，计算分类交叉熵损失和总损失根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型，具体方法为：
[0055]
所述图内传播层设置有分类交叉熵损失函数，具体为：
[0056][0057]
其中，为分类交叉熵损失，p
ij
为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率，为第i张含有噪声标签特征的实例图相对第j个类别的伪标签；
[0058]
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数，所述总损失函数具体为：
[0059][0060]
其中，为总损失，λ
pro
为比例系数；
[0061]
根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型。
[0062]
本发明还提供一种基于深度学习的网络监督细粒度图像识别系统，应用上述一种基于深度学习的网络监督细粒度图像识别方法，包括：
[0063]
图像获取单元：用来从互联网中获取含有噪声标签的输入图像；
[0064]
特征提取单元：用来对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；
[0065]
实例图生成单元：用来根据所获得的区域判别特征图和整体特征图，获取含有噪
声标签特征的实例图；
[0066]
图原型构造单元：用来根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；
[0067]
图匹配单元：用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；
[0068]
图像识别单元：用来获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。
[0069]
与现有技术相比，本发明技术方案的有益效果是：
[0070]
本发明提供一种基于深度学习的网络监督细粒度图像识别方法和系统，该方法通过对含有噪声标签的输入图像进行特征处理，获取含有噪声标签特征的实例图，利用含有噪声标签特征的实例图为每个类别构建一个对应的图原型，用所获得的含有噪声标签特征的实例图与图原型对预置的图像匹配神经网络模型中进行训练以及噪声标签的修正，利用优化后的图像匹配神经网络模型进行细粒度图像的识别；该方法基于深度学习进行网络监督细粒度图像的识别，通过引入图原型与含有噪声标签特征的实例图进行对比学习，能够有效地对噪声标签进行校正，显著提高了细粒度图像识别的效率和准确率。
附图说明
[0071]
图1为实施例1所提供的一种基于深度学习的网络监督细粒度图像识别方法流程图。
[0072]
图2为实施例2所提供的一种基于深度学习的网络监督细粒度图像识别方法示意图。
[0073]
图3为实施例3所提供的一种基于深度学习的网络监督细粒度图像识别系统结构图。
[0074]
301-图像获取单元，302-特征提取单元，303-实例图生成单元，304-图原型构造单元，305-图匹配单元，306-图像识别单元。
具体实施方式
[0075]
附图仅用于示例性说明，不能理解为对本专利的限制；
[0076]
为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；
[0077]
对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。
[0078]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0079]
实施例1
[0080]
如图1所示，本实施例提供一种基于深度学习的网络监督细粒度图像识别方法，包括以下步骤：
[0081]
s1：从互联网中获取含有噪声标签的输入图像；
[0082]
s2：对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；
[0083]
s3：根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图；
[0084]
s4：根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；
[0085]
s5：将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；
[0086]
s6：获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。
[0087]
在具体实施过程中，首先通过网络检索获取含有噪声标签的输入图像，之后用cnn卷积神经网络对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图，之后根据所获得的区域判别特征图和整体特征图获取含有噪声标签特征的实例图，之后根据含有噪声标签特征的实例图为每个类别构建一个对应的图原型，之后将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，并计算图匹配损失和分类交叉熵损失进行优化神经网络，获得优化后的图匹配神经网络模型，最后利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果；
[0088]
该方法基于深度学习进行细粒度图像的识别，通过引入图原型与含有噪声标签特征的实例图进行对比学习，能够有效地对噪声标签进行校正，显著提高了细粒度图像识别的效率和准确率。
[0089]
实施例2
[0090]
如图2所示，本实施例提供一种基于深度学习的网络监督细粒度图像识别方法，包括以下步骤：
[0091]
s1：从互联网中获取含有噪声标签的输入图像；
[0092]
s2：对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图，具体方法为：
[0093]
用特征提取器对所述含有噪声标签的输入图像进行特征提取，获取整体特征图；将所述整体特征图通过一个卷积层，获取均值滤波后的整体特征图；对所述均值滤波后的整体特征图基于通道数计算每个位置的均值，获取整体均值特征图；搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标，根据最大响应值区域的坐标获取区域判别特征图；
[0094]
所述搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标的具体方法为：
[0095]
根据以下公式进行搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标：
[0096][0097][0098]
其中，表示整体均值特征图，f
‘g表示均值滤波后的整体特征图，c表示均值滤
波后的整体特征图的通道数，表示搜寻最大响应值区域对应的行和列，(i,j)表示最大响应值区域的坐标；
[0099]
s3：根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图，具体方法为：
[0100]
将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度，获取相同维度的区域特征图；利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维，获取降维后的整体特征图和降维后的区域特征图；根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图：
[0101]gins
＝《v
ins
,e
ins
》
[0102]
其中，g
ins
表示含有噪声标签特征的实例图，v
ins
表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合，e
ins
表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵；
[0103]
s4：根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型，具体方法为：
[0104]
根据所获取的含有噪声标签特征的实例图，为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型，图原型采用移动平均的方式进行更新：
[0105]gk
＝《vk,ek》
[0106][0107]
其中，gk表示所构建的第k个类别的图原型，vk表示第k个类别的图原型中所有特征点的集合，ek表示第k个类别的图原型中特征点之间连接的邻接矩阵，g'k为更新后的图原型，m为预设参数；
[0108]
s5：将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；
[0109]
所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层，获取优化后的图匹配神经网络模型包括以下步骤；
[0110]
s5.1：将所获得的含有噪声标签特征的实例图g
ins
与图原型gk输入图内传播层，获得第一特征矩阵和第二特征矩阵，将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新，具体为：
[0111]
将所获得的含有噪声标签特征的实例图g
ins
与图原型gk输入图内传播层，将降维后的整体特征图和降维后的区域特征图中所有特征点的集合v
ins
重构为第一特征矩阵其中，n1为含有噪声标签特征的实例图所有特征点的数量，c1为含有噪声标签特征的实例图中每个特征点对应的维度；
[0112]
将图原型中所有特征点的集合vk重构为第二特征矩阵其中，n2为图原型中所有特征点的数量，c2为图原型中每个特征点对应的维度；
[0113]
对所述第一特征矩阵和第二特征矩阵分别进行图卷积操作，并迭代更新所述第一特征矩阵和第二特征矩阵，具体为：
[0114]
[0115][0116]
其中，为第l次迭代更新后的第一特征矩阵，为第l次迭代更新后的第二特征矩阵，和为图内传播层的参数；
[0117]
s5.2：将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合，获得聚合特征向量，具体为：
[0118]
将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图像聚合层进行特征结合，获得聚合特征向量，具体为：
[0119][0120]
其中，为聚合特征向量，为更新后的第一特征矩阵，为更新后的第二特征矩阵；
[0121]
s5.3：将所述聚合特征向量输入图间传播层进行图卷积操作，并迭代更新所述聚合特征向量，获得第一特征表达f
ins
和第二特征表达zk，具体为：
[0122]
将所述聚合特征向量输入图间传播层进行图卷积操作，并迭代更新所述聚合特征向量，具体为：
[0123][0124]
其中，为第l次迭代更新后的聚合特征向量，e
cross
为聚合特征向量的邻接矩阵，和为图间传播层的参数；
[0125]
根据第l次迭代更新后的聚合特征向量获得第一特征表达f
ins
和第二特征表达zk；
[0126]
s5.4：将第一特征表达f
ins
和第二特征表达zk输入图匹配层计算相似度sk，根据相似度sk计算图匹配损失具体为：
[0127]
将所述第一特征表达f
ins
和第二特征表达zk输入图匹配层进行图匹配，并计算相似度sk，具体为：
[0128][0129]
所述图匹配层设置图匹配损失函数，根据相似度sk计算图匹配损失，所述图匹配损失函数具体为：
[0130][0131][0132]
其中，为图匹配损失，yi表示原始标签，k表示图原型的类别，k表示图原型的类别总数；
[0133]
s5.5：对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本进行剔除，具体为：
[0134]
所述图内传播层设置有分类器，将所述含有噪声标签特征的实例图输入分类器
中，获得分类器分布概率pi，计算图匹配分布概率di，根据分类器分布概率pi和图匹配分布概率di计算总概率qi，具体为：
[0135]
qi＝αpi+(1-α)di[0136][0137]
其中，α为预设参数，τ为温度系数；
[0138]
根据总概率qi和预设阈值t对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本ood进行剔除，具体为：
[0139][0140]
其中，为伪标签，t为预设阈值，当总概率qi的最大值大于t时，将总概率qi最大值对应的类别作为伪标签；当总概率qi大于类别平均概率时，将原始标签yi作为伪标签，实现对含有噪声标签特征的实例图中的噪声标签进行修正；其他情况将ood作为伪标签，ood表示离样本，实现对离样本的剔除；
[0141]
s5.6：计算分类交叉熵损失和总损失根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型，具体为：
[0142]
所述图内传播层设置有分类交叉熵损失函数，具体为：
[0143][0144]
其中，为分类交叉熵损失，p
ij
为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率，为第i张含有噪声标签特征的实例图相对第j个类别的伪标签；
[0145]
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数，所述总损失函数具体为：
[0146][0147]
其中，为总损失，λ
pro
为比例系数；
[0148]
根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型；
[0149]
s6：获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。。
[0150]
在具体实施过程中，首先通过网络检索获取含有噪声标签的输入图像，本实施例中所使用的数据集为webfg-496，该数据集由三个子数据集组成，分别为web-bird、web-aircraft和web-car，所述含有噪声标签的输入图像尺寸为448
×
448；
[0151]
之后设置以resnet50-varian作为骨干cnn的卷积神经网络，用特征提取器对所述含有噪声标签的输入图像进行特征提取，获取整体特征图，所述整体特征图维度为14
×
14
×
2048；将所述整体特征图通过一个卷积层，获取均值滤波后的整体特征图；对所述均值滤
波后的整体特征图基于通道数计算每个位置的均值，获取整体均值特征图；
[0152]
根据以下公式进行搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标：
[0153][0154][0155]
其中，表示整体均值特征图，f
‘g表示均值滤波后的整体特征图，c表示均值滤波后的整体特征图的通道数，表示搜寻最大响应值区域对应的行和列，(i,j)表示最大响应值区域的坐标；
[0156]
根据所获得的最大值响应区域的坐标在所述整体特征图中截取若干不同大小的局部区域，本实施例设置三种不同的面积大小s1、s2、s3以及三种不同的长宽比a1、a2、a3共9种组合，对所述整体特征图进行截取，其中三种不同面积大小s1、s2、s3分别为整体特征图面积的二分之一、三分之一、三分之二，三类不同的长宽比值a1、a2、a3分别为1、0.5、2；
[0157]
用特征提取器对所截取的若干不同大小的局部区域进行特征提取，获取区域判别特征图；
[0158]
构建含有噪声标签特征的实例图和每个类别对应的图原型，将得到的含有噪声标签特征的实例图和图原型分别输入图内传播层gcn进行图卷积操作，本实施例中，输出通道数分别为1024和2048；将输出的含有噪声标签特征的实例图和图原型特征进行聚合，并获得第一特征表达f
ins
和第二特征表达zk；根据第一特征表达f
ins
和第二特征表达zk分别计算图匹配损失和分类交叉熵损失来对图匹配神经网络模型进行优化；
[0159]
本实施例中，α＝0.5，τ＝0.1，t＝0.75，λ
pro
＝1；
[0160]
从cub200-2011、fgvc-aircraft和stanford cars中获取待识别图像作为验证数据，提取待识别图像的特征后，利用所述优化后的图像匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果；
[0161]
如下表所示，为不同方法细粒度图像的识别准确率对比图：
[0162][0163]
表1-不同方法细粒度图像的识别准确率对比图
[0164]
与基本模型进行比较，本实施例中的方法在三个数据集上的性能表现都远超于各类基本模型，本实施例使用的骨干网络为resnet-50，相比于单独resnet-50模型，本实施例的方法在三个数据集上都有了大幅度的提升，平均识别准确率提升了20.14％；为了进行公平的比较，统一使用resnet-50作为骨干网络，由图3可知，当使用resnet-50作为骨干网络时，本实施例的方法取得最高的83.53％的平均准确率，而在web-bird、web-aircraft和web-car上的准确率分别为76.62％、85.79％和82.09％，比目前较为先进的方法peer-learning高出2.23％、4.2％和1.94％；更进一步地使用其它模型如b-cnn作为骨干网络，从比较结果中可知，本实施例的方法可与不同的骨干网络进行适配，从而在细粒度图像识别中得到较为明显的性能提升；
[0165]
该方法基于深度学习进行网络监督细粒度图像的识别，通过引入图原型与含有噪声标签特征的实例图进行对比学习，能够有效地对噪声标签进行校正，显著提高了细粒度图像识别的效率和准确率。
[0166]
实施例3
[0167]
如图3所示，本实施例提供一种基于深度学习的网络监督细粒度图像识别系统，应用实施例1或2所述的基于深度学习的网络监督细粒度图像识别方法，包括：
[0168]
图像获取单元301：用来从互联网中获取含有噪声标签的输入图像；
[0169]
特征提取单元302：用来对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；
[0170]
实例图生成单元303：用来根据所获得的区域判别特征图和整体特征图，获取含有
噪声标签特征的实例图；
[0171]
图原型构造单元304：用来根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；
[0172]
图匹配单元305：用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；
[0173]
图像识别单元306：用来获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果；
[0174]
在具体实施过程中，首先利用图像获取单元301进行网络检索，获取含有噪声标签的输入图像；之后利用特征提取单元302对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；利用实例图生成单元303根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图；之后根据所获取的含有噪声标签特征的实例图，利用图原型构造单元304为每个类别构造图原型；之后利用图匹配单元305将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；最后图像识别单元306获取待识别图像，提取待识别图像特征后，利用所述优化后的图像匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果；
[0175]
该系统基于深度学习进行细粒度图像的识别，通过引入图原型与含有噪声标签特征的实例图进行对比学习，能够有效地对噪声标签进行校正，显著提高了细粒度图像识别的效率和准确率。
[0176]
相同或相似的标号对应相同或相似的部件；
[0177]
附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；
[0178]
显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

技术特征：

1.一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，包括以下步骤：s1：从互联网中获取含有噪声标签的输入图像；s2：对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；s3：根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图；s4：根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；s5：将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；s6：获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。2.根据权利要求1所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s2中，对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图，具体方法为：用特征提取器对所述含有噪声标签的输入图像进行特征提取，获取整体特征图；将所述整体特征图通过一个卷积层，获取均值滤波后的整体特征图；对所述均值滤波后的整体特征图基于通道数计算每个位置的均值，获取整体均值特征图；搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标，根据最大响应值区域的坐标获取区域判别特征图。3.根据权利要求2所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标的具体方法为：根据以下公式进行搜寻整体均值特征图中的最大响应值区域，并定位最大响应值区域的坐标：的坐标：其中，表示整体均值特征图，f
g
‘
表示均值滤波后的整体特征图，c表示均值滤波后的整体特征图的通道数，表示搜寻最大响应值区域对应的行和列，(i,j)表示最大响应值区域的坐标。4.根据权利要求3所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s3中，根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图，具体方法为：将所获得的区域判别特征图采用双线性插值的方法变换为相同的维度，获取相同维度的区域特征图；利用全局平均池化的方法对整体特征图和相同维度的区域特征图进行降维，获取降维后的整体特征图和降维后的区域特征图；根据降维后的整体特征图和降维后的区域特征图获取含有噪声标签特征的实例图：g
ins
＝<v
ins
,e
ins
>
其中，g
ins
表示含有噪声标签特征的实例图，v
ins
表示降维后的整体特征图和降维后的区域特征图中所有特征点的集合，e
ins
表示含有噪声标签特征的实例图中特征点之间连接的邻接矩阵。5.根据权利要求4所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s4中，根据所获取的含有噪声标签特征的实例图，构造图原型的具体方法为：根据所获取的含有噪声标签特征的实例图，为每个类别构造一个与所述含有噪声标签特征的实例图相同结构的图原型，图原型采用移动平均的方式进行更新：g
k
＝<v
k
,e
k
>其中，g
k
表示所构建的第k个类别的图原型，v
k
表示第k个类别的图原型中所有特征点的集合，e
k
表示第k个类别的图原型中特征点之间连接的邻接矩阵，g'
k
为更新后的图原型，m为预设参数。6.根据权利要求5所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s5中，将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型，具体方法为：所述预置的图匹配神经网络模型包括图内传播层、图聚合层、图间传播层和图匹配层，获得优化后的图匹配神经网络模型包括以下步骤；s5.1：将所获得的含有噪声标签特征的实例图g
ins
与图原型g
k
输入图内传播层，获得第一特征矩阵和第二特征矩阵，将第一特征矩阵和第二特征矩阵分别通过图卷积操作进行迭代更新；s5.2：将迭代更新后的第一特征矩阵和第二特征矩阵输入所述图聚合层进行特征结合，获得聚合特征向量；s5.3：将所述聚合特征向量输入图间传播层进行图卷积操作，并迭代更新所述聚合特征向量，获得第一特征表达f
ins
和第二特征表达z
k
；s5.4：将第一特征表达f
ins
和第二特征表达z
k
输入图匹配层计算相似度s
k
，根据相似度s
k
计算图匹配损失s5.5：对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本进行剔除；s5.6：计算分类交叉熵损失和总损失根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型。7.根据权利要求6所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s5.4中，将第一特征表达f
ins
和第二特征表达z
k
输入图匹配层计算相似度s
k
，根据相似度s
k
计算图匹配损失具体为：将所述第一特征表达f
ins
和第二特征表达z
k
输入图匹配层进行图匹配，并计算相似度s
k
，具体为：
所述图匹配层设置图匹配损失函数，根据相似度s
k
计算图匹配损失，所述图匹配损失函数具体为：数具体为：其中，为图匹配损失，y
i
表示原始标签，k表示图原型的类别，k表示图原型的类别总数。8.根据权利要求7所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s5.5中，对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本进行剔除，具体方法为：所述图内传播层设置有分类器，将所述含有噪声标签特征的实例图输入分类器中，获得分类器分布概率p
i
，计算图匹配分布概率d
i
，根据分类器分布概率p
i
和图匹配分布概率d
i
计算总概率q
i
，具体为：q
i
＝αp
i
+(1-α)d
i
其中，α为预设参数，τ为温度系数；根据总概率q
i
和预设阈值t对含有噪声标签特征的实例图中的噪声标签进行修正以及对离样本ood进行剔除，具体为：其中，为伪标签，t为预设阈值，当总概率q
i
的最大值大于t时，将总概率q
i
最大值对应的类别作为伪标签；当总概率q
i
大于类别平均概率时，将原始标签y
i
作为伪标签，实现对含有噪声标签特征的实例图中的噪声标签进行修正；其他情况将ood作为伪标签，ood表示离样本，实现对离样本的剔除。9.根据权利要求8所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，所述步骤s5.6中，计算分类交叉熵损失和总损失根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型，具体方法为：所述图内传播层设置有分类交叉熵损失函数，具体为：其中，为分类交叉熵损失，p
ij
为第i张含有噪声标签特征的实例图相对第j个类别的分类器分布概率，为第i张含有噪声标签特征的实例图相对第j个类别的伪标签；
根据分类交叉熵损失函数和图匹配损失函数构建总损失函数，所述总损失函数具体为：其中，为总损失，λ
pro
为比例系数；根据总损失对所述图匹配神经网络模型进行优化，获得优化后的图匹配神经网络模型。10.一种基于深度学习的网络监督细粒度图像识别系统，应用权利要求1-9任意一项中所述的一种基于深度学习的网络监督细粒度图像识别方法，其特征在于，包括：图像获取单元：用来从互联网中获取含有噪声标签的输入图像；特征提取单元：用来对所述含有噪声标签的输入图像进行特征提取，获取区域判别特征图和整体特征图；实例图生成单元：用来根据所获得的区域判别特征图和整体特征图，获取含有噪声标签特征的实例图；图原型构造单元：用来根据所获取的含有噪声标签特征的实例图，为每个类别构造图原型；图匹配单元：用来将所获得的含有噪声标签特征的实例图与图原型输入预置的图匹配神经网络模型中进行训练，获得优化后的图匹配神经网络模型；图像识别单元：用来获取待识别图像，提取待识别图像特征后，利用所述优化后的图匹配神经网络模型对待识别图像进行识别，获得待识别图像的识别结果。

技术总结

本发明提供一种基于深度学习的网络监督细粒度图像识别方法和系统，通过对含有噪声标签的输入图像进行特征处理，获取含有噪声标签特征的实例图，利用含有标签的实例图为每个类别构建图原型，用所获得的含有噪声标签特征的实例图与图原型对预置的图匹配神经网络模型中进行训练，利用优化后的图匹配神经网络模型进行细粒度图像的识别；该方法基于深度学习进行细粒度图像的识别，通过引入图原型与含有噪声标签特征的实例图进行对比学习，能够有效地对噪声标签进行校正和对离样本进行剔除，显著提高了细粒度图像识别的效率和准确率。著提高了细粒度图像识别的效率和准确率。著提高了细粒度图像识别的效率和准确率。