利用多视图表示融合进行专利发明人消歧的方法及系统

阅读: 评论:0

著录项
  • CN202211303426.5
  • 20221024
  • CN115564611A
  • 20230103
  • 安徽大学
  • 赵姝;张金磊;陈洁;段震;徐晨初;张燕平
  • G06Q50/18
  • G06Q50/18 G06F18/23 G06F18/24 G06N3/0464 G06N3/08

  • 安徽省合肥市蜀山区肥西路3号
  • 安徽(34)
  • 合肥市浩智运专利代理事务所(普通合伙)
  • 朱文振
摘要
本发明提供利用多视图表示融合进行专利发明人消歧的方法及系统,方法包括:对专利数据进行预聚类;构建多个局部视图和一个全局视图;利用PatentBERT预训练模型生成文本语义表示向量;利用GAT表征模型并加入生成的节点语义表示向量在所有视图上分别获取对应节点表示向量,该表示向量融合语义信息和结构信息;融合局部视图获取的节点表示向量得到一个局部视图融合向量;接着将局部视图融合向量和全局视图向量借助对比损失进行模型训练,得到节点最终融合向量;利用层次凝聚聚类方法对最终向量进行聚类得到消歧结果。本发明通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。
权利要求

1.利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述方法包括:

S1、对专利数据进行预处理,并抽取专利信息,所述专利信息包括:发明人信息、权利人信息以及分类号信息;

S2、利用预聚类算法,对经过预处理的专利进行预聚类处理,得到预聚类专利,对所述预聚类专利执行专利融合,以得到融合专利;

S3、利用PatentBERT预训练模型进行语义嵌入,将所述融合专利的关键信息进行嵌入表示,其中,所述关键信息包括:标题,摘要信息;

S4、根据所述融合专利构建局部网络视图及全局网络视图,其中,所述局部网络视图包括:共同合作者-专利视图、共同分类号-专利视图、共同权利人-专利视图,利用多视图表示学习对所有视图上节点进行嵌入,并利用注意力机制对不少于2个所述局部网络视图的表示向量进行动态加权,对所述局部网络视图进行融合,据以获得局部融合节点表示向量,从所述全局网络视图上获取全局节点表示向量,利用对比损失方式,训练所述全局节点表示向量和所述局部融合节点表示向量,以获取最终节点表示向量;

S5、利用层次凝聚聚类对所述最终节点表示向量进行聚类,得到专利的簇,每一个所述专利的簇对应一个发明人实体。

2.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S1包括:

S11、删除所述标题及所述摘要信息中的标点符号、删除介词、截取字段长度;

S12、根据所述发明人的姓名信息进行相似度匹配,以得到发明人相似度信息,根据所述发明人相似度信息划分待消歧发明人。

3.根据权利要求2所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S12包括:

S121、利用Jaccard算法计算发明人名称相似度,记作sim_1;

S122、计算发明人名称最小可编辑距离,记作sim_2;

S123、计算发明人名称余弦相似度,记作sim_3;

S124、利用下述逻辑,根据所述发明人名称相似度、所述发明人最小可编辑距离、所述发明人名称余弦相似度确认最终划分指标sim_max:

sim_max=MAX(sim_1,sim_2,sim_3);

S125、在所述最终划分指标sim_max大于0.95时,判定作者姓名相同,根据相同姓名划分待消歧数据。

4.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S2包括:

S21、根据所述发明人信息,以下述逻辑计算各专利之间的合作者名称重合度:

a=names_i&names_j-1;

S22、依据所述合作者重合度设置阈值为2,并判断所述合作者名称重合度是否大于或等于所述阈值;

S23、若是,则将两篇专利待消歧作者视为同一实体;

S24、若否,则将两篇所述专利待消歧作者视为非同一实体。

5.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S2中的融合操作,还包括:

S21’,对合作者集合求并集;

S22’、对题目信息进行拼接;

S23’、对所述分类号信息求并集;

S24’、对所述权利人信息求并集。

6.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S3中的语义信息嵌入操作,包括:

S31’、拼接处理所述标题和所述摘要信息,以得到拼接信息;

S32’、利用所述Patentbert预训练模型对所述拼接信息进行嵌入表示。

7.如权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S4中的网络节点嵌入操作中,利用多层GAT网络,结合所述语义嵌入表示获得所有视图上节点表示。

8.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S4中的局部多视图融合操作包括:

S41、利用视图增强模块增强视图内部节点表示;

S42、利用下述逻辑进行动态加权:

attm=W2·tanh(W1·Pm+b1)+b2

att′m=softmax(attm)

P*=∑matt′m·Pm

式中,P*是融合后的向量,m代表不同视图,attm是每个视图的注意力权重,W2,W1,b1,b2是全连接网络参数;

S42、利用单头注意力机制融合不同视图的节点表示。

9.根据权利要求1所述的利用多视图表示融合进行专利发明人消歧的方法,其特征在于,所述步骤S4中的模型训练操作包括:

S41’、在所述全局网络视图得到的节点表示和所述局部网络视图融合后的节点表示上进行正负采样来实现数据增强;

S42’、计算利用InfoNce算法计算对比损失,更新GAT以及注意力参数。

10.利用多视图表示融合进行专利发明人消歧的系统,其特征在于,所述系统包括:

预处理模块,用以对专利数据进行预处理,并抽取专利信息,所述专利信息包括:发明人信息、权利人信息以及分类号信息;

预聚类及融合模块,用以利用预聚类算法,对经过预处理的专利进行预聚类处理,得到预聚类专利,对所述预聚类专利执行专利融合,以得到融合专利,所述预聚类及融合模块与所述预处理模块连接;

语义嵌入模块,用以利用PatentBERT预训练模型进行语义嵌入,将所述融合专利的关键信息进行嵌入表示,其中,所述关键信息包括:标题,摘要信息,所述语义嵌入模块与所述预聚类及融合模块连接;

节点表示获取模块,用以根据所述融合专利构建局部网络视图及全局网络视图,其中,所述局部网络视图包括:共同合作者-专利视图、共同分类号-专利视图、共同权利人-专利视图,利用多视图表示学习对所有视图上节点进行嵌入,并利用注意力机制对不少于2个的所述局部网络视图的表示向量进行动态加权,对局部网络视图进行融合,据以获得局部融合节点表示向量,从所述全局网络视图上获取全局节点表示向量,利用对比损失方式,训练所述全局节点表示向量和所述局部融合节点表示向量,以获取最终节点表示向量,所述节点表示获取模块与所述语义嵌入模块连接;

最终向量聚类模块,用以利用层次凝聚聚类对所述最终节点表示向量进行聚类,得到专利的簇,每一个所述专利的簇对应一个发明人实体,所述最终向量聚类模块与所述节点表示获取模块连接。

说明书
技术领域

本发明涉及专利数据分析领域,具体涉及利用多视图表示融合进行专利发明人消歧的方法及系统。

近年来,专利申请量正在快速增长,发明人消歧在专利数据分析应用领域中是一个非常具有挑战性和亟需解决的问题。发明人信息的模糊性不仅使人们在搜索专利时感到困惑,而且也是进行学者研究状况分析的必要条件。例如,在专利搜索引擎中搜索“张磊”的相关专利时,会得到1000多篇出版物,其中有不少于100个发明人实体称为“张磊”,易导致对检索产生困惑。同时,在对发明人专利数量进行准确分析的时候,获得属于这个学者的所有专利也是必要的。在科研绩效评价、社会网络分析等应用场景下,可采用对发明人名称进行消歧的方式提升评价分析的准确度,在专利成果转化、国际人才流动、专利知识图谱等应用场景下,可采用对发明人名称消歧的方式提供更为准确的数据支持。

现有的作者消歧方法中,例如公布号为CN113111178A的现有发明专利文献《无监督的基于表示学习的同名作者消歧方法及装置》包括:对科学文献数据进行预处理;利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量;通过对消歧数据的处理生成局部异质网络,利用metapath2vec方法获取基于局部图结构的论文关系表示向量;针对上述三种表征向量分别生成相似度矩阵并进行加权求和;利用无监督聚类方法进行聚类;对聚类离散点进行簇指派,得到最终消歧结果。由该现有技术的具体实现内容可知,该现有技术指定元路径metapath,并利用metapath2vec方法获取基于局部图结构的论文关系表示向量。

又例如公布号为CN113962293A的现有发明专利文献《一种基于LightGBM分类与表示学习的姓名消歧方法和系统》监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征,通过采样构建正例与负例样本对数据集,作为LightGBM二分类模型的输入,模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法,来捕捉论文的语义信息和论文之间的关系特征。最后,基于监督模型和表示学习模型的输出,利用层次聚类算法对待消歧论文集进行簇划分,实现同名消歧。从该现有的具体实施方式可知,该现有方案利用元路径的关系网络特征捕获论文之间的关系特征。

综上,前述现有技术提供的作者消歧方案中,在异构信息网络上借助元路径捕获专利间的关系信息,这种方式只能浅层次捕获各种元路径及其之间的关系信息。

本发明所要解决的技术问题在于通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。

本发明是采用以下技术方案解决上述技术问题的:利用多视图表示融合进行专利发明人消歧的方法包括:

S1、对专利数据进行预处理,并抽取专利信息,专利信息包括:发明人信息、权利人信息以及分类号信息;

S2、利用预聚类算法,对经过预处理的专利进行预聚类处理,得到预聚类专利,对预聚类专利执行专利融合,以得到融合专利;

S3、利用PatentBERT预训练模型进行语义嵌入,将融合专利的关键信息进行嵌入表示,其中,关键信息包括:标题,摘要信息;

S4、根据融合专利构建局部网络视图及全局网络视图,其中,局部网络视图包括:共同合作者-专利视图、共同分类号-专利视图、共同权利人-专利视图,利用多视图表示学习对所有视图上节点进行嵌入,并利用注意力机制对不少于2个局部网络视图的表示向量进行动态加权,对局部网络视图进行融合,据以获得局部融合节点表示向量,从全局网络视图上获取全局节点表示向量,利用对比损失方式,训练全局节点表示向量和局部融合节点表示向量,以获取最终节点表示向量;

S5、利用层次凝聚聚类对最终节点表示向量进行聚类,得到专利的簇,每一个专利的簇对应一个发明人实体。

本发明利用专利的结构和语义信息结合全局和局部视图进行多视图表示学习,增强消歧算法的泛化能力与鲁棒性,利用预聚类过程提高消歧效率。本发明在多视图学习上为了更好的获取到全局信息加入全局视图模块进行增强嵌入过程。

相较于在异构信息网络上进行嵌入的方式,本发明提供的方法是建立在多视图上,分别捕获单个视图的高阶关系信息,之后为了捕获视图间的联系,我们引入对比学习的思想,将各种元路径构建的全局视图和经过注意力机制融合后的局部融合视图进行对比学习,捕获到最终的专利节点嵌入信息。

在更具体的技术方案中,步骤S1包括:

S11、删除标题及摘要信息中的标点符号、删除介词、截取字段长度;

S12、根据发明人的姓名信息进行相似度匹配,以得到发明人相似度信息,根据发明人相似度信息划分待消歧发明人。

在更具体的技术方案中,步骤S12包括:

S121、利用Jaccard算法计算发明人名称相似度,记作sim_1;

S122、计算发明人名称最小可编辑距离,记作sim_2;

S123、计算发明人名称余弦相似度,记作sim_3;

S124、利用下述逻辑,根据发明人名称相似度、发明人最小可编辑距离、发明人名称余弦相似度确认最终划分指标sim_max:

sim_max=MAX(sim_1,sim_2,sim_3);

S125、在最终划分指标sim_max大于0.95时,判定作者姓名相同,根据相同姓名划分待消歧数据;

在更具体的技术方案中,步骤S2包括:

S21、根据发明人信息,以下述逻辑计算各专利之间的合作者名称重合度:

a=names_i&names_j-1;

S22、依据合作者重合度设置阈值为2,并判断合作者名称重合度是否大于或等于阈值;

S23、若是,则将两篇专利待消歧作者视为同一实体;

S24、若否,则将两篇专利待消歧作者视为非同一实体。

本发明通过预聚类利用论文的强特征信息,例如合作者信息,易于判断两篇论文中的待消歧作者是否为同一个实体,这样可以减少后续步骤中数据处理的时间,提高发明人消歧的效率。

在更具体的技术方案中,步骤S2中的融合操作,还包括:

S21’,对合作者集合求并集;

S22’、对题目信息进行拼接;

S23’、对分类号信息求并集;

S24’、对权利人信息求并集。

在更具体的技术方案中,步骤S3中的语义信息嵌入操作,包括:

S31’、拼接处理标题和摘要信息,以得到拼接信息;

S32’、利用Patentbert预训练模型对拼接信息进行嵌入表示。

在更具体的技术方案中,步骤S4中的网络节点嵌入操作中,利用多层GAT网络,结合语义嵌入表示获得所有视图上节点表示。

本发明在专利异质信息图上构建多个局部视图和一个全局视图,在多个子视图上利用GAT进行表征的,能够捕获对应关联关系的局部结构信息,在全局视图上利用GAT进行表征,能够捕获专利多个关联关系的全局信息,提升了关联信息捕获效果。

在更具体的技术方案中,步骤S4中的局部多视图融合操作包括:

S41、利用视图增强模块增强视图内部节点表示;

S42、利用下述逻辑进行动态加权:

attm=W2·tanh(W1·Pm+b1)+b2

att′m=softmax(attm)

P*=∑matt′m·Pm

式中,P*是融合后的向量,m代表不同视图,attm是每个视图的注意力权重,W2,W1,b1,b2是全连接网络参数;

S43、利用单头注意力机制融合不同视图的节点表示。

在更具体的技术方案中,步骤S4中的模型训练操作包括:

S41’、在全局网络视图得到的节点表示和局部网络视图融合后的节点表示上进行正负采样来实现数据增强;

S42’、计算利用InfoNce算法计算对比损失,更新GAT以及注意力参数。

本发明通过利用全局表示向量和局部融合表示向量获取对比损失来训练GAT和注意力参数,能够对多视图获取的信息进行进一步增强。

在更具体的技术方案中,利用多视图表示融合进行专利发明人消歧的系统包括:

预处理模块,用以对专利数据进行预处理,并抽取专利信息,专利信息包括:发明人信息、权利人信息以及分类号信息;

预聚类及融合模块,用以利用预聚类算法,对经过预处理的专利进行预聚类处理,得到预聚类专利,对预聚类专利执行专利融合,以得到融合专利,预聚类及融合模块与预处理模块连接;

语义嵌入模块,用以利用PatentBERT预训练模型进行语义嵌入,将融合专利的关键信息进行嵌入表示,其中,关键信息包括:标题,摘要信息,语义嵌入模块与预聚类及融合模块连接;

节点表示获取模块,用以根据融合专利构建局部网络视图及全局网络视图,其中,局部网络视图包括:共同合作者-专利视图、共同分类号-专利视图、共同权利人-专利视图,利用多视图表示学习对所有视图上节点进行嵌入,并利用注意力机制对不少于2个局部网络视图的表示向量进行动态加权,对局部网络视图进行融合,据以获得局部融合节点表示向量,从全局网络视图上获取全局节点表示向量,利用对比损失方式,训练全局节点表示向量和局部融合节点表示向量,以获取最终节点表示向量,节点表示获取模块与语义嵌入模块连接;

最终向量聚类模块,用以利用层次凝聚聚类对最终节点表示向量进行聚类,得到专利的簇,每一个专利的簇对应一个发明人实体,所述最终向量聚类模块与所述节点表示获取模块连接。

本发明相比现有技术具有以下优点:本发明利用专利的结构和语义信息结合全局和局部视图进行多视图表示学习,增强消歧算法的泛化能力与鲁棒性,利用预聚类过程提高消歧效率。本发明在多视图学习上为了更好的获取到全局信息加入全局视图模块进行增强嵌入过程。

相较于在异构信息网络上进行嵌入的方式,本发明提供的方法是建立在多视图上,分别捕获单个视图的高阶关系信息,之后为了捕获视图间的联系,我们引入对比学习的思想,将各种元路径构建的全局视图和经过注意力机制融合后的局部融合视图进行对比学习,捕获到最终的专利节点嵌入信息。

本发明通过预聚类利用论文的强特征信息,例如合作者信息,易于判断两篇论文中的待消歧作者是否为同一个实体,这样可以减少后续步骤中数据处理的时间,提高发明人消歧的效率。

本发明在专利异质信息图上构建多个局部视图和一个全局视图,在多个子视图上利用GAT进行表征的,能够捕获对应关联关系的局部结构信息,在全局视图上利用GAT进行表征,能够捕获专利多个关联关系的全局信息,提升了关联信息捕获效果。

本发明通过利用全局表示向量和局部融合表示向量获取对比损失来训练GAT和注意力参数,能够对多视图获取的信息进行进一步增强。

本发明通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。

图1为本发明实施例1的利用多视图表示融合进行专利发明人消歧方法基本步骤示意图;

图2为本发明实施例1的利用多视图表示融合进行专利发明人消歧方法数据流处理示意图。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

在本发明中,语义表征是利用PatentBERT预训练模型对专利的文本信息进行表征。PatentBERT是一个基于超过200万项专利预训练出来的BERT模型,主要用于专利的表征学习。在专利异质信息图上构建多个局部视图和一个全局视图,在多个子视图上利用GAT进行表征的目的是为了捕获对应关联关系的局部结构信息,在全局视图上利用GAT进行表征的目的是为了捕获专利多个关联关系的全局信息,通过利用全局表示向量和局部融合表示向量获取对比损失来训练GAT和注意力参数,目的是对多视图获取的信息进行进一步增强。最后通过层次凝聚聚类算法对融合后的表示向量进行聚类,所形成的每一个簇都代表一个独立的发明人实体。

如图1所示,本发明提供的利用多视图表示融合进行专利发明人消歧的方法,包括以下基本步骤:

S1、对专利数据进行预处理,得到若干结构化文本数据,抽取各结构化文本数据的关键文本信息与关键结构信息,在本实施例中,对专利数据中数据进行清洗和格式化处理;

S2、依据关键文本信息生成专利语义表示向量,在本实施例中,依据强结构信息对专利数据进行预聚类,主要目的是为了通过减少专利节点个数提高后续多视图表示学习的效率;

在本实施例中,所采用的强结构信息主要是两个专利之间共同发明人的数量,通过设置共同发明人数量的阈值,将超过阈值的两篇专利进行融合,不超过阈值的专利不进行操作,此方法依据是专利发明人实体不同的概率会随着共同发明人数量增加呈指数性降低。

在本实施例中,对待消歧的名称张三进行消歧,张三名下有四篇论文:p1,p2,p3,p4,其中:

论文P1的作者包含:张三,李四,王五;

论文P2的作者包含:张三,李四;

论文P3的作者包含:张三,李四,王五,李华;

论文P4的作者包含:张三。

那么:

论文P1和论文P2有一个相同名称的合作者;

论文P1和论文P3有两个相同名称的合作者:李四,王五;

论文P1和论文P4有0个相同名称合作者,不计入张三;

论文P2和论文P3有一个相同名称合作者。

在本实施例中,由于同时存在两个相同名称合作者的几率很低,因此我们可以仅利用合作者信息就可以直接认定P1和P3两篇论文里面的张三是同一个人。

在本实施例中,专利融合采取的具体方式包括:将两篇专利的发明人进行合并去重;将两篇专利的标题进行拼接;将两篇专利的分类号进行合并去重;将两篇专利的权力人进行合并去重;最终形成待消歧的备选集;

在本实施例中,可采用下述公式求取两篇论文合并的概率:

式中,pi指代第i篇论文,pj指代第j篇论文,P(ij)代表两篇论文合并的概率。

在本实施例中,合并的方式包括一下具体步骤:

S21’、利用下述逻辑,对合作者集合求并集:

A=Ai∪Aj

S22’、对题目信息进行拼接;

S23’、对分类号信息求并集;

S24’、对权利人信息求并集。

S3、依据专利关键结构信息对专利数据进行预聚类,并对聚类专利进行融合得到待消歧专利集合;

在本实施例中,利用PatentBERT预训练模型对备选集上所有专利进行语义表征,得到专利的语义表示向量,其目的是为了捕获专利的语义信息;预训练模型的输入则是经过拼接后的专利的文本信息包含题目,摘要文本信息。

S4、针对每一待消歧发明人,依据多个关联关系生成多个局部专利网络视图,其中局部专利网络视图的节点是关联关系相应的专利,边为各专利间的关联关系;利用所有局部专利网络视图构建全局专利网络视图,其中全局专利网络视图的节点是结构化数据相应的论文,边为各专利间的全部关联关系的融合;

在本实施例中,为了捕获专利间的关系信息,因此需要在专利上构建图并对图进行表示学习,局部视图包含:共同分类号-专利视图,其节点代表专利,边则表示为两篇专利是否包含共同分类号,共同分类号的数量则为边的权重;共同发明人-专利视图,其节点代表专利,边则表示两篇专利是否包含共同发明人,共同发明人的数量则为边的权重;共同权力人-专利视图,其节点代表专利,边则表示两篇专利是否包含共同权力人,共同权力人的数量则为边的权重;

在本实施例中,以下述公式进行动态加权:

attm=W2·tanh(W1·Pm+b1)+b2

att′m=softmax(attm)

P*=∑matt′m·Pm

其中P*是融合后的向量m代表不同视图,attm是每个视图的注意力权重,W2,W1,b1,b2是全连接网络参数。

为了更全面的捕获专利间的关系特征,因此构建全局视图,其节点代表专利,边则表示两篇专利是否包含共同发明人或共同权力人或共同分类号,边的权重则是共同发明人、共同权利以及共同分类号之和。

S5、在所有视图上,根据专利节点语义表示向量并依据视图结构信息获取语义和结构融合后的节点表示向量;

在本实施例中,对步骤四中得到的视图利用图注意力神经网络进行编码,同时为了融合专利语义信息,将步骤三中得到的专利语义表示向量,也输入图注意力神经网络中,这样在图上编码得到的专利节点表示向量不仅包含结构信息,还包含语义信息。

S6、将各个局部专利网络视图得到的节点表示向量进行融合获得局部融合节点表示向量;

在本实施例中,根据多视图的一致性和互补性原则,在多个局部视图编码得到的表示向量需要进一步融合,因此引入注意力机制,动态的给多个局部视图的表示向量进行加权,得到多个局部关系融合的专利表示向量,这样的专利表示向量包含多个不同关系的信息。

S7、将全局专利网络视图上获取的全局节点表示向量和局部融合节点表示向量利用对比损失对模型进行训练以获取最终节点表示向量;

在本实施例中,将在全局视图上编码的表示向量和经过步骤六得到的多个局部视图融合的对应节点表示向量应用对比损失进行注意力机制和图神经网络参数更新,直到损失趋于平稳。其中对比损失的目的是为了捕获节点更多的互信息,采样的方法则是正样本对是对应节点在全局视图和局部融合视图的表示向量,负样本对则是非对应节点表示向量。

S8、通过聚类算法,将编码后的专利区分成不同的专利簇,每个专利簇的发明人实际上不同。

在本实施例中,利用层次凝聚聚类将最终训练完成得到的专利表示向量进行聚类,得到专利的簇,每一个簇则是对应一个发明人实体。

如图2所示,在本实施例中,本发明提供的利用多视图表示融合进行专利发明人消歧的方法的数据流处理过程涉及:对专利数据集的数据清洗;对结构化数据的预聚类,以得到待消歧发明人候选集;根据待消歧发明人候选集生成多视图,并获取PatentBERT抽取语义表示向量;利用全局专利网络、共同分类号-专利网络、共同发明人-专利网络、共同权利人-专利网络处理多视图,并结合PatentBERT抽取语义表示向量进行GAT编码以及多视图融合操作,以得到融合局部视图表示向量,并进行对比损失训练以及层次凝聚聚类操作,以获取聚类结果。

在本实施例中,预处理方法包括:标题摘要信息删除标点符号、删除介词、截取字段长度;发明人姓名信息进行相似度匹配,根据得到的相似度划分待消歧发明人;

在本实施例中,相似度匹配以及划分方法包括:利用Jaccard算法计算发明人名称相似度,记作sim_1;计算发明人名称最小可编辑距离,记作sim_2;计算发明人名称余弦相似度,记作sim_3;最终指标sim_max=MAX(sim_1,sim_2,sim_3),若sim_max>0.95则视为作者姓名相同,根据相同姓名划分待消歧数据;

在本实施例中,关键文本信息包括:题目、摘要。

在本实施例中,关键结构信息包括:分类号、合作发明人,权力人。

在本实施例中,依据关键文本信息生成专利语义表示向量的方法包括:将关键文本信息拼接,使用训练好的PatentBERT预训练模型。

在本实施例中,通过以下步骤实现预聚类并完成聚类后的融合:

利用发明人信息,计算各专利之间的合作者名称重合度;

依据合作者重合度设置阈值,阈值高则将两篇专利视为同发明人;

对同发明人专利中同类型信息进行融合,合作者集合求并集、题目信息进行拼接、分类号信息求并集以及权力人求并集。

在本实施例中,专利间的关联关系包括:共同合作者、共同分类号和共同权力人

在本实施例中,局部专利网络视图包括:共同合作者-专利视图,共同分类号-专利视图,共同权力人-专利视图。

在本实施例中,全局专利网络视图包括:(共同合作者+共同分类号+共同权力人)-专利视图。

在本实施例中,获取视图上地语义和结构融合后的节点表示向量地方法包括:使用图注意力网络对图上节点进行嵌入。

在本实施例中,将各个局部专利网络视图得到的节点表示向量进行融合获得局部融合节点表示向量地方法包括:使用注意力机制进行多个表示向量融合。

在本实施例中,通过将全局专利视图得到的表示向量和局部视图得到的融合向量进行正负采样作为训练集且利用对比损失对GAT以及注意力进行训练,得到最终的专利节点表示向量,其中对比损失的正样本对采用全局和局部视图对应专利节点对,负样本对则是非对应专利节点对。

在本实施例中,聚类的方法包括:HAC方法。

本发明利用专利的结构和语义信息结合全局和局部视图进行多视图表示学习,增强消歧算法的泛化能力与鲁棒性,利用预聚类过程提高消歧效率。本发明在多视图学习上为了更好的获取到全局信息加入全局视图模块进行增强嵌入过程,相比现有技术中在异质图上进行表示学习的方式,本发明的表示学习方式时间复杂度更低。

相较于在异构信息网络上进行嵌入的方式,本发明提供的方法是建立在多视图上,分别捕获单个视图的高阶关系信息,之后为了捕获视图间的联系,我们引入对比学习的思想,将各种元路径构建的全局视图和经过注意力机制融合后的局部融合视图进行对比学习,捕获到最终的专利节点嵌入信息。

本发明通过预聚类利用论文的强特征信息,例如合作者信息,易于判断两篇论文中的待消歧作者是否为同一个实体,这样可以减少后续步骤中数据处理的时间,提高发明人消歧的效率。

本发明在专利异质信息图上构建多个局部视图和一个全局视图,在多个子视图上利用GAT进行表征的,能够捕获对应关联关系的局部结构信息,在全局视图上利用GAT进行表征,能够捕获专利多个关联关系的全局信息,提升了关联信息捕获效果。

本发明通过利用全局表示向量和局部融合表示向量获取对比损失来训练GAT和注意力参数,能够对多视图获取的信息进行进一步增强。

本发明通过在局部视图学习嵌入能够捕获更深层次的局部结构信息,同时结合对比学习的思想,在局部结构信息的基础上捕获全局结构信息。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本文发布于:2023-03-13 01:35:02,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68752.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图