一种基于并行多图卷积神经网络的无监督专利聚类方法

阅读: 评论:0

著录项
  • CN202210695144.8
  • 20220620
  • CN114781553A
  • 20220722
  • 浙江大学滨江研究院
  • 韩蒙;梁兵;况欢;陈灏毅;陈唯;林昶廷
  • G06K9/62
  • G06K9/62 G06V10/762 G06V10/764 G06V10/82 G06N3/04 G06N3/08

  • 浙江省杭州市滨江区东信大道66号二号楼301
  • 浙江(33)
  • 杭州天勤知识产权代理有限公司
  • 曹兆霞
摘要
本发明公开了一种基于并行多图卷积神经网络的无监督专利聚类方法,在构建4类专利图和自编码器对专利数据的编码向量的基础上,通过图卷积操作以充分提取4类专利图和编码向量,以此全面提取专利数据的有效特征向量,通过并行单图自注意力模块每类特征向量分配权值,提高单图重要特征的重要程度以得到单图注意力向量,通过多图注意力模块融合所有类的单图注意力向量进行学习,以此为重要的单图分配更大的权重,使得得到的全局注意力向量综合了多方面特征信息,进而提升聚类的精度。
权利要求

1.一种基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,包括以下步骤:

对待聚类的专利数据进行向量化,以得到向量化专利数据;

依据向量化专利数据构建多类专利图,包括基于专利相似度构建的KNN专利图、共同申请人专利图,共同发明人专利图和共同关键词专利图;

利用基于无监督学习构建的模型对待聚类的专利数据进行计算,包括:利用自编码器包含的编码器对每个向量化专利数据进行向量编码得到编码向量;利用并行图卷积神经网络模块包含的每个图卷积神经网络并行提取结合编码向量的每类专利图的特征向量;利用并行单图自注意力模块包含的每个单图自注意力层并行根据每类特征向量计算单图注意力向量;利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量;

对所有专利数据的全局注意力向量聚类以得到聚类结果。

2.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,每个专利数据包括发明名称、摘要、申请人、发明人,对这些数据进行向量化以得到向量化专利数据。

3.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,在构建多类专利图时,以每个专利作为节点,以向量化专利数据作为节点属性,节点之间的连边依据专利图的种类不同,构建方式也不同,包括:

针对KNN专利图,对所有专利数据进行任意两个专利数据之间的相似度计算,并依据相似度值筛选前k大个相似度对应的专利数据作为邻域专利数据,用于构建节点之间的连边,即在所有邻域专利数据任意两者对应的节点之间构建连边;

针对共同申请人专利图,在共同申请人对应的节点之间构建连边;

针对共同发明人专利图,在共同发明人对应的节点之间构建连边;

针对共同关键词专利图,在共有关键词对应的节点之间构建连边。

4.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,所述编码器包含L个编码层,输入的向量化专利数据经过多个编码层的向量编码以得到每层输出的编码向量;

每类专利图对应的每个图卷积神经网络包含L个图卷积层,图卷积层数与编码层数相等,每个图卷积层首先对对应编码层输出的编码向量和上一层图卷积层输出的特征向量进行权重分配后,再将分配权重的特征向量作为当前图卷积操作的输入,结合每类专利图的邻接矩阵进行图卷积操作,以输出特征向量,用公式表示为:

其中,l表示为网络层层数的索引,v表示专利图种类的索引,表示权重,用于平衡编 码向量和特征向量的重要性程度,表示第l-1层编码层输出的编码向量,和分 别表示第v类专利图对应的第l-1层和第l层图卷积操作输出的特征向量,表示分配权 重的特征向量,表示第v类专利图对应的第l层图卷积操作的权重,表示第v类专利 图的邻接矩阵与单位矩阵之和,D表示的对角线矩阵,ReLU()表示relu激活函数;

针对第一个图卷积层,表示每类专利图的节点矩阵X。

5.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,每个单图自注意力层并行根据每类特征向量计算单图注意力向量,包括:首先根据每类特征向量计算特征的注意力权重,然后根据注意力权重对每类特征向量进行激活计算,以得到每类特征向量对应的单图注意力向量。

6.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量,包括:首先对每类单图注意力向量进行非线性变换,以得到每类多层注意力值;然后对每类多层注意力值进行相对于所有类多层注意力值的归一化处理,以得到每类全局注意力权重;最后根据每类全局注意力权重对每类单图注意力向量进行加权求和,以得到每个专利数据的全局注意力向量。

7.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,所述模型在被应用之前需要进行参数优化,包括:

利用自编码器包含的解码器对编码器输出的编码向量进行解码操作得到每个向量化专利数据对应的重构专利数据;

构建总损失,包括基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失,基于所有类单图注意力向量构建多图相关损失,重构损失和多图相关损失的加权求和作为总损失;

利用总损失并采用无监督学习方式优化模型参数,以得到参数优化后的模型。

8.根据权利要求7所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,所述基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失,包括:根据所有专利数据对应的向量化专利数据与重构专利数据之间欧几里得范数的平方构建重构损失。

9.根据权利要求7所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,基于所有类单图注意力向量构建多图相关损失,包括:首先计算每类单图注意力向量的自相关相似度;然后根据任意两类单图注意力向量的自相关相似度之间欧几里得范数的平方构建多图相关损失。

10.根据权利要求1所述的基于并行多图卷积神经网络的无监督专利聚类方法,其特征在于,所述无监督专利聚类方法还包括:

依据聚类结果对每个专利数据进行CPC代码分类,包括:认为属于同一聚类簇的专利数据具有相同的CPC代码,在人工判断聚类簇中的一个专利数据的CPC时,即可得到所属聚类簇的其他所有专利数据的CPC代码。

说明书
技术领域

本发明属于专利分类技术领域,具体涉及一种基于并行多图卷积神经网络的无监督专利聚类方法。

通过对专利数据的分析,可以获得具体的市场发展风向标和组织创新实力。人们通常使用专利名称、关键字和CPC(Cooperative Patent Classification,联合专利分类体系)代码等信息在各种知识产权平台上搜索专利。其中,CPC代码是IPC(InternationalPatent Classification,国际专利分类法)的延伸,由EPO(European Patent Office,欧洲专利局)和美国专利商标局共同管理。它被分为九个部分,A-H和Y,这些部分又被分为类、子类、组和子组,大约有250000个分类条目。无论哪个机构参与处理和批准专利,都将确定用于发明的分类代码类型。一旦专利申请获得批准,CPC代码就不能再更改了。因此,对于专利申请者来说提前预判专利CPC代码是极其重要的。

目前,专利CPC代码分类大都采用人工方法,查看专利名称、摘要和文本,以匹配相应的专利CPC代码,这对于专利审查员来说非常繁琐且容易出错。

现有一部分学者研究NLP(Natural Language Processing,自然语言处理)技术,通过词嵌入系统和机器学习分类模型实现专利的分类,提高了专利分类的速度和准确率,减少了人工成本,但这些方法面对精细的多分类时,专利分类的精度往往不够理想,分类准确率直线下降。

现有学者还研究了深度学习方法来进行专利分类,可以包括卷积神经网络(Convolutional Neural Networks, CNN)、图神经网络(Graph Neural Network,GNN)和图卷积神经网络(Graph Convolutional Network, GCN)等。其中,图卷积神经网络引入图嵌入来考虑原始专利样本的结构信息,并在图上使用卷积运算有效地利用了节点之间的重要关系,使模型达到更优的认知与专利分类能力,但传统的图卷积神经网络只关注单个图的嵌入,严重依赖于单个图的质量,导致模型的泛化性能不足。再者,精细分类时标签训练样本少会导致有监督的模型分类性能不足,不足以实现CPC代码精细分类。

专利文献CN109446319A公开了一种基于K-means的生物医药专利聚类分析方法,将专利分析中专利申请量、专利授权量、专利成长率、专利有效率4个重要评价指标同时选作为聚类变量进行聚类分析,能够深层次挖掘数据间的关联,较好地对专利数据进行类别划分,但是不能实现对专利CPC代码的分类。

鉴于上述,本发明提供了一种基于并行多图卷积神经网络的无监督专利聚类方法,在无监督学习下以提升模型对专利精细分类的精度,提升专利分类的准确度。

为实现上述发明目的,实施例提供的一种基于并行多图卷积神经网络的无监督专利聚类方法,包括以下步骤:

对待聚类的专利数据进行向量化,以得到向量化专利数据;

依据向量化专利数据构建多类专利图,包括基于专利相似度构建的KNN专利图、共同申请人专利图,共同发明人专利图和共同关键词专利图;

利用基于无监督学习构建的模型对待聚类的专利数据进行计算,包括:利用自编码器包含的编码器对每个向量化专利数据进行向量编码得到编码向量;利用并行图卷积神经网络模块包含的每个图卷积神经网络并行提取结合编码向量的每类专利图的特征向量;利用并行单图自注意力模块包含的每个单图自注意力层并行根据每类特征向量计算单图注意力向量;利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量;

对所有专利数据的全局注意力向量聚类以得到聚类结果。

在一个实施例中,每个专利数据包括发明名称、摘要、申请人、发明人,对这些数据进行向量化以得到向量化专利数据。

在一个实施例中,在构建多类专利图时,以每个专利作为节点,以向量化专利数据作为节点属性,节点之间的连边依据专利图的种类不同,构建方式也不同,包括:

针对KNN专利图,对所有专利数据进行任意两个专利数据之间的相似度计算,并依据相似度值筛选前k大个相似度对应的专利数据作为邻域专利数据,用于构建节点之间的连边,即在所有邻域专利数据任意两者对应的节点之间构建连边;

针对共同申请人专利图,在共同申请人对应的节点之间构建连边;

针对共同发明人专利图,在共同发明人对应的节点之间构建连边;

针对共同关键词专利图,在共有关键词对应的节点之间构建连边。

在一个实施例中,所述编码器包含L个编码层,输入的向量化专利数据经过多个编码层的向量编码以得到每层输出的编码向量;

每类专利图对应的每个图卷积神经网络包含L个图卷积层,图卷积层数与编码层数相等,每个图卷积层首先对对应编码层输出的编码向量和上一层图卷积层输出的特征向量进行权重分配后,再将分配权重的特征向量作为当前图卷积操作的输入,结合每类专利图的邻接矩阵进行图卷积操作,以输出特征向量,用公式表示为:

其中,l表示为网络层层数的索引,v表示专利图种类的索引,表示权重,用于平 衡编码向量和特征向量的重要性程度,表示第l-1层编码层输出的编码向量,和分别表示第v类专利图对应的第l-1层和第l层图卷积操作输出的特征向量,表示 分配权重的特征向量,表示第v类专利图对应的第l层图卷积操作的权重,表示第v 类专利图的邻接矩阵与单位矩阵之和,D表示的对角线矩阵,ReLU()表示relu激活函 数;

针对第一个图卷积层,表示每类专利图的节点矩阵X。

在一个实施例中,每个单图自注意力层并行根据每类特征向量计算单图注意力向量,包括:首先根据每类特征向量计算特征的注意力权重,然后根据注意力权重对每类特征向量进行激活计算,以得到每类特征向量对应的单图注意力向量。

在一个实施例中,利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量,包括:首先对每类单图注意力向量进行非线性变换,以得到每类多层注意力值;然后对每类多层注意力值进行相对于所有类多层注意力值的归一化处理,以得到每类全局注意力权重;最后根据每类全局注意力权重对每类单图注意力向量进行加权求和,以得到每个专利数据的全局注意力向量。

在一个实施例中,所述模型在被应用之前需要进行参数优化,包括:

利用自编码器包含的解码器对编码器输出的编码向量进行解码操作得到每个向量化专利数据对应的重构专利数据;

构建总损失,包括基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失,基于所有类单图注意力向量构建多图相关损失,重构损失和多图相关损失的加权求和作为总损失;

利用总损失并采用无监督学习方式优化模型参数,以得到参数优化后的模型。

在一个实施例中,所述基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失,包括:根据所有专利数据对应的向量化专利数据与重构专利数据之间欧几里得范数的平方构建重构损失。

在一个实施例中,基于所有类单图注意力向量构建多图相关损失,包括:首先计算每类单图注意力向量的自相关相似度;然后根据任意两类单图注意力向量的自相关相似度之间欧几里得范数的平方构建多图相关损失。

在一个实施例中,所述无监督专利聚类方法还包括:

依据聚类结果对每个专利数据进行CPC代码分类,包括:认为属于同一聚类簇的专利数据具有相同的CPC代码,在人工判断聚类簇中的一个专利数据的CPC时,即可得到所属聚类簇的其他所有专利数据的CPC代码。

与现有技术相比,具有的有益效果至少包括:

在构建4类专利图和自编码器对专利数据的编码向量的基础上,通过图卷积操作以充分提取4类专利图和编码向量,以此全面提取专利数据的有效特征向量,通过并行单图自注意力模块每类特征向量分配权值,提高单图重要特征的重要程度以得到单图注意力向量,通过多图注意力模块融合所有类的单图注意力向量进行学习,以此为重要的单图分配更大的权重,使得得到的全局注意力向量综合了多方面特征信息,进而提升聚类的精度。

采用的模型基于无监督学习构建,在精细分类标签确实的情况下提高模型对专利数据深度聚类的泛化性能,以此提高模型的特征提取的全面性,进而提高专利数据聚类的有效性。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是实施例提供的基于并行多图卷积神经网络的无监督专利聚类方法的流程图;

图2是实施例提供的模型的结构示意图;

图3是实施例提供的每个图卷积层的结构示意图;

图4是实施例提供的每个单图自注意力层的结构示意图;

图5是实施例提供的多图注意力模块的结构示意图。

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

解决专利精细分类时标签训练样本过少导致有监督分类模型分类性能不足的问题,还为依据单方面专利图,导致分类模型的泛化性能不足进而引起的专利分类不准确的问题。实施例提供了一种基于并行多图卷积神经网络的无监督专利聚类方法,在无监督学习下以提升模型对专利精细分类的精度,提升专利分类的准确度。

图1是实施例提供的基于并行多图卷积神经网络的无监督专利聚类方法的流程图。如图1所示,实施例提供的基于并行多图卷积神经网络的无监督专利聚类方法,包括以下步骤:

步骤1,对待聚类的专利数据进行向量化,以得到向量化专利数据。

实施例中,待聚类的每个专利数据对应一个专利文献,包括专利的发明名称、摘要、申请人以及发明人,对这些数据进行向量化以得到向量化专利数据,具体的向量化专利数据表示成为1维度向量组的形式。

步骤2,依据向量化专利数据构建多类专利图。

实施例中,多类专利图包括基于专利相似度构建的KNN(K-nearest-neighbour)专利图、共同申请人专利图,共同发明人专利图和共同关键词专利图。在构建多类专利图时,以每个专利作为节点,以向量化专利数据作为节点属性,节点之间的连边依据专利图的种类不同,构建方式也不同,包括:

针对KNN专利图,对所有专利数据进行任意两个专利数据之间的相似度计算,并依据相似度值筛选前k大个相似度对应的专利数据作为邻域专利数据,用于构建节点之间的连边,即在所有邻域专利数据任意两者对应的节点之间构建连边,以形成KNN专利图。

在一个实施方式中,可以计算任意两个专利数据之间的余弦相似度,依据余弦相似度,筛选前k大个余弦相似度对应的专利数据作为邻域专利数据,以此来构建节点之间的连边。

实施例中,针对共同申请人专利图,在共同申请人对应的节点之间构建连边,以形成共同申请人专利图;针对共同发明人专利图,在共同发明人对应的节点之间构建连边,以形成共同发明人专利图;针对共同关键词专利图,在共有关键词对应的节点之间构建连边,以形成共同关键词专利图。其中,关键词是从发明名称和摘要内容提取得到。

步骤3,利用基于无监督学习构建的模型对待聚类的专利数据进行计算,以得到每个专利数据的全局注意力向量。

图2是实施例提供的模型的结构示意图。如图2所示,构建的模型包括包含编码器和解码器的自编码器、并行图卷积神经网络模块、并行单图自注意力模块,多图注意力模块,其中,编码器用于向量化专利数据进行向量编码得到编码向量;解码器用于对编码向量进行解码以得到重构专利数据;并行图卷积神经网络模块用于并行提取结合编码向量的每类专利图的特征向量;并行单图自注意力模块用于并行根据每类特征向量计算单图注意力向量;多图注意力模块用于根据所有类单图注意力向量计算每个专利数据的全局注意力向量。

实施例中,编码器包含L个编码层,输入的向量化专利数据经过多个编码层的向量编码以得到每层输出的编码向量,用公式表示为:

其中,l表示为编码层的索引,ReLU()表示relu激活函数,和表示编码层的 权重和偏置,和分别表示第l-1层和第l层编码层输出的编码向量,特别地,当l=1 时,即针对第一层编码层,表示输入的向量化专利数据,编码层可以采用全连接层,得 到的编码向量可以用于增强专利图的数据表示。

实施例中,解码器的层数与编码器相同,包含L个解码层,输入的编码向量经过多个解码层的向量解码以得到最后解码层输出解码向量作为重构专利数据,该重构专利数据用于构建重构损失,用公式表示为:

其中,和表示解码层的权重和偏置,和分别表示第l-1层和第l层 解码层输出的解码向量,特别地,当l=1时,即针对第一层解码层,表示输入的编码向 量。

实施例中,并行图卷积神经网络模块包含与专利图种类相同个数的图卷积神经网络,即针对4类专利图则有4个图卷积神经网络,4个图卷积神经网络并行地分别对结合编码向量的4类专利图的特征向量进行特征提取,以得到4类专利图的特征向量。

实施例中,每类专利图对应的每个图卷积神经网络包含L个图卷积层,即图卷积层数与编码层数相等,如图3所示,每个图卷积层包括权重分配操作和图卷积操作,即每个图卷积层首先对对应编码层(对应编码成理解为与卷积层具有相同索引的编码层)输出的编码向量和上一层图卷积层输出的特征向量进行权重分配后,再将分配权重的特征向量作为当前图卷积操作的输入,结合每类专利图的邻接矩阵进行图卷积操作,以输出特征向量,用公式表示为:

其中,l表示为网络层(编码层或图卷积层)层数的索引,v表示专利图种类的索引, 即分别索引KNN专利图、共同申请人专利图,共同发明人专利图和共同关键词专利图,表 示权重,用于平衡编码向量和特征向量的重要性程度,和分别表示第v类专利图对 应的第l-1层和第l层图卷积操作输出的特征向量,表示分配权重的特征向量,表 示第v类专利图对应的第l层图卷积操作的权重,表示第v类专利图的邻接矩阵与单 位矩阵之和,即,D表示的对角线矩阵,ReLU()表示relu激活函数,特别 地,当l=1时,即针对第一个图卷积层,表示每类专利图的节点矩阵X。

实施例中,并行图卷积神经网络模块通过结合自编码器的编码向量和每类专利图的图信息,能够提高模型的特征凝聚能力,全面获得专利数据的特向特征。

实施例中,并行单图自注意力模块包含与专利图种类相同个数的单图自注意力层,即针对4类专利图则有4个单图自注意力层,4个单图自注意力层并行地分别根据4类特征向量计算4类单图注意力向量。

实施例中,如图4所示,每类专利图对应的每个单图自注意力层包含注意力权重计算操作和激活计算操作,即首先根据每类特征向量计算特征的注意力权重,然后根据注意力权重对每类特征向量进行激活计算,以得到每类特征向量对应的单图注意力向量,用公式表示为:

其中,i和m均表示专利数据的索引,、以及分别表示第v类专利图包 含的第i个专利数据对应的特征向量、注意力权重以及单图注意力向量,和分别表示 注意力权重计算的权重和偏置,tan()表示tan三角函数,Sigmoid()表示Sigmoid激活函 数。

实施例中,并行单图自注意力模块的每个注意力层能够为单个专利图的重要特征分配更高权重,以使得到的单图注意力向量更关注自己类别体现的特性信息。

实施例中,多图注意力模块用于根据所有类单图注意力向量计算全局注意力向量。如图5所示,多图注意力模块包括非线性变换计算操作、全局注意力权重计算操作、全局注意力向量计算操作,即首先对每类单图注意力向量进行非线性变换,以得到每类多层注意力值;然后对每类多层注意力值进行相对于所有类多层注意力值的归一化处理,以得到每类全局注意力权重;最后根据每类全局注意力权重对每类单图注意力向量进行加权求和,以得到每个专利数据的全局注意力向量,用公式表示为:

其中,表示共享注意向量,上标T表示转置,和分别表示非线性变换计算 操作的权重和偏置,、以及分别表示第v类专利图包含的第i个专利数 据对应的多层注意力值、全局注意力权重以及全局注意力向量。

实施例中,多图注意力模块为重要的那类单图注意力向量分配更高的权重,以此提升模型的特征提取能力,进而提高深度聚类能力。

实施例中,构建的模型在被应用之前需要进行参数优化,包括:构建总损失,包括基于自编码器输入的向量化专利数据与输出的重构专利数据构建重构损失,基于所有类单图注意力向量构建多图相关损失,重构损失和多图相关损失的加权求和作为总损失;利用总损失并采用无监督学习方式优化模型参数,以得到参数优化后的模型,其中,总损失Lossfinal表示为:

其中,α,β为超参数,通过无监督学习确定。

实施例中,重构损失Loss重构基于自编码器输入的向量化专利数据与输出的重构专利数据构建,具体包括:根据所有专利数据对应的向量化专利数据与重构专利数据之间欧几里得范数的平方构建重构损失,用公式表示为:

其中,、分别表示第i个专利数据对应的向量化专利数据与重构专利数 据,、分别表示所有专利数据对应的向量化专利数据与重构专利数据,N表示专利数 据总量,表示欧几里得范数的平方,表示欧几里得范数结果。

实施例中,多图相关损失Loss多图根据所有类单图注意力向量构建,具体包括:首先计算每类单图注意力向量的自相关相似度;然后根据任意两类单图注意力向量的自相关相似度之间欧几里得范数的平方构建多图相关损失,用公式表示为:

其中,、分别表示第v类单图注意力向量相对于自身的归一化结果和自相 关相似度,t表示单图注意力向量的自相关相似度索引,分别表示第t类和第v类单图 注意力向量的自相关相似度,V表示专利图种类。

实施例提供的总损失融合重构损失和多图损失,提高模型对专利数据深度聚类的泛化性能,以此提高专利CPC代码分类的有效性。

经过采用上述总损失经过无监督学习优化后的模型具有很强的泛化能力,能够获得全面的全局注意力向量,该全局注意力向量能够实现专利CPC代码的有效可靠分类。

实施例中,利用参数优化后的对待聚类的专利数据进行计算,包括以下过程:利用自编码器包含的编码器对每个向量化专利数据进行向量编码得到编码向量;利用并行图卷积神经网络模块包含的每个图卷积神经网络并行提取结合编码向量的每类专利图的特征向量;利用并行单图自注意力模块包含的每个单图自注意力层并行根据每类特征向量计算单图注意力向量;利用多图注意力模块根据所有类单图注意力向量计算每个专利数据的全局注意力向量。

步骤4,对所有专利数据的全局注意力向量聚类以得到聚类结果。

实施例中,以每个专利数据对应的全局注意力向量为基础,进行聚类操作,以得到聚类结果,每个聚类簇包含多个专利数据对应的全局注意力向量,由于每个全局注意力向量具有能够全面表达专利数据特性的向量,这样基于全局注意力向量进行聚类得到的聚类簇具有非常相同专利数据特性,可认为属于同一类,具有相同的CPC代码。聚类算法可以采用k-means聚类等算法。

步骤5,依据聚类结果对每个专利数据进行CPC代码分类。

实施例中,认为属于同一聚类簇的专利数据具有相同的CPC代码,在人工判断聚类簇中的一个专利数据的CPC时,即可得到所属聚类簇的其他所有专利数据的CPC代码。

总之,实施例提供的基于并行多图卷积神经网络的无监督专利聚类方法,通过考虑专利数据的多图信息和编码信息,实现专利的深度聚类,提高专利CPC代码分类的有效性和泛化性,对专利的CPC代码分类具有较高的应用价值。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

本文发布于:2023-03-12 23:59:22,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68550.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图