G06F16/33 G06F16/35 G06F16/36 G06F40/216 G06F40/295 G06K9/62 G06N3/04 G06N3/08
1.一种基于知识图谱的技术清单生成方法,其特征在于,包括以下步骤:
(1)获取专利数据,将专利数据输入预先构建的知识图谱嵌入神经网络模型中,以得到专利数据的嵌入结果,即专利数据的嵌入向量;
(2)使用Canopy聚类算法对步骤(1)得到的专利数据的嵌入向量进行处理,以得到K个聚类中心点;
(3)以步骤(2)中得到的K个聚类中心点为初始中心点,使用K-means算法对步骤(1)得到的实体嵌入向量进行聚类处理,以得到K个聚类结果作为K个技术领域。
(4)对于步骤(3)中得到的K个技术领域中的每一个技术领域而言,从专利数据库(例如德温特专利数据库)中获取每一个技术领域中的所有专利文本,并使用词频-逆文本频率指数TF-IDF算法对每一个技术领域中的所有专利文本进行处理,以获取该技术领域对应的多个关键技术词。
(5)针对步骤(3)中得到的K个技术领域中的每一个技术领域而言,获取其对应的技术研究热度评价指标和/或技术前沿性评价指标,以及与技术研究热度评价指标和/或技术前沿性评价指标相对应的值,然后根据所有K个技术领域对应的技术研究热度评价指标和/或技术前沿性评价指标相对应的值、并以降序的方式对所有K个技术领域进行排序,最终生成包括技术研究热度评价指标和/或技术前沿性评价指标、排序后的K个技术领域、以及每个技术领域在步骤(4)中对应的关键技术词三者之间的映射关系,从而构成技术清单并输出。
2.根据权利要求1所述的基于知识图谱的技术清单生成方法,其特征在于,知识图谱嵌入神经网络模型是ConvE模型,并且是通过以下步骤构建得到的:
(1-1)从专利数据库获取专利数据集;
(1-2)根据步骤(1-1)得到的专利数据集生成多个三元组,所有三元组构成知识图谱数据集,该知识图谱数据集中的每个知识图谱数据就是一个三元组(em1,rmr,em2),其中em1表示知识图谱数据集中第m个三元组中头实体的嵌入向量、rmr表示知识图谱数据集中第m个三元组中关系的嵌入向量,em2表示知识图谱数据集中第m个三元组中尾实体的嵌入向量,且有m∈[1,知识图谱数据集中的三元组总数]。
(1-3)将步骤(1-2)得到的知识图谱数据集划分为训练集、验证集和测试集,训练集中的所有知识图谱数据中的所有实体构成集合E,训练集中的所有知识图谱数据中的所有关系构成集合R;
(1-4)对步骤(1-3)得到的训练集对应的实体集合E和训练集对应的关系集合R进行随机初始化,以获得其中每一个实体的嵌入向量和每一个关系的嵌入向量;
(1-5)将步骤(1-4)得到的训练集中所有实体的嵌入向量和关系的嵌入向量输入到知识图谱嵌入神经网络模型ConvE中,以得到多个预测分数;
(1-6)将步骤(1-5)得到的所有预测分数输入损失函数中,使得损失函数L最小化,从而得到初步训练好的知识图谱嵌入神经网络模型;
(1-7)根据步骤(1-3)得到的验证集对步骤(1-6)初步训练好的知识图谱嵌入神经网络模型进行验证,直到得到的损失函数L最优为止,从而得到训练好的知识图谱嵌入神经网络模型。
3.根据权利要求1或2所述的基于知识图谱的技术清单生成方法,其特征在于,
步骤(1-2)中的三元组是由头实体-关系-尾实体组成;
实体包括专利名称、发明人、申请单位、IPC分类号、以及国家;
关系包括申请单位-专利名称、专利名称-IPC分类号、发明人-申请单位、发明人-专利名称、以及申请单位-国家;
步骤(1-2)中生成的三元组包括(申请单位-申请-专利名称)、(专利名称-属于-IPC分类号)、(发明人-属于-申请单位)、(发明人-申请-专利名称)、以及(申请单位-属于-国家)。
4.根据权利要求1至3中任意一项所述的基于知识图谱的技术清单生成方法,其特征在于,
步骤(1-4)中嵌入向量的取值范围为1~1024,优选为200;
每一个嵌入向量均满足均值为0的正态分布。
5.根据权利要求1所述的基于知识图谱的技术清单生成方法,其特征在于,步骤(1-5)包括以下子步骤:
(1-5-1)针对训练集中的每一个三元组(ek1,rkr,ek2)而言,通过2Dreshape操作将该三元组中(ek1,rkr,ek2)的头实体的嵌入向量ek1和关系的嵌入向量rkr转换成矩阵并进行拼接,以得到该三元组(ek1,rkr,ek2)对应的拼接矩阵,其中k∈[1,训练集中的三元组总数]。
(1-5-2)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将步骤(1-5-1)得到的该三元组(ek1,rkr,ek2)对应的拼接矩阵输入ConvE模型中带滤波器ω的二维卷积层,以得到该三元组对应的张量。
(1-5-3)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将该三元组对应的张量拉平为一维向量后输入到ConvE模型中参数矩阵为W的全连接层中,以得到该三元组(ek1,rkr,ek2)对应的输出向量。
(1-5-4)对于训练集中的每一个三元组而言,将步骤(1-5-3)得到的该三元组对应的向量与该三元组中的尾实体的嵌入向量ek2进行内积运算,并使用logistic sigmoid函数对内积计算结果进行处理,以得到输出结果作为该三元组(e1,rr,e2)的预测分数。
6.根据权利要求5所述的基于知识图谱的技术清单生成方法,其特征在于,步骤(1-5-4)中的预测分数是采用以下公式计算:
其中ek1、ek2和rkr分别表示第k个三元组中头实体、尾实体和关系的嵌入向量,和分别表示ek1和rkr分别通过步骤(1-5-1)的2D reshape操作后得到的矩阵,*表示卷积操作,f为relu函数,W为全连接层的参数矩阵,σ为logistic sigmoid函数,p(ek1,rkr,ek2)表示训练集中第k个三元组的预测分数。
7.根据权利要求5所述的基于知识图谱的技术清单生成方法,其特征在于,步骤(1-6)中的损失函数L具体为:
其中K表示训练集中所有三元组的数量,tk表示训练集中的第k个三元组中的头实体和尾实体之间是否存在关系,如果二者存在关系,则tk为1,否则为0。
8.根据权利要求1所述的基于知识图谱的技术清单生成方法,其特征在于,步骤(4)具体为,首先是计算第i个技术领域中第j个词条出现的频率tfi,j,其采用如下计算公式,其中j∈[1,第i个技术领域中所有专利文本中词条的总数],i∈[1,K]:
其中ni,j表示第j个词条在第i个技术领域中的专利文本中的出现次数,∑KnK,j表示第j个词条在所有K个技术领域中的专利文本中的出现次数。
然后,计算第i个技术领域中第j个词条的逆向文件频率idfj,其采用以下公式:
其中|D|为步骤(4)中从专利数据库获取的所有K个技术领域中的专利文本的总数量,tij表示第i个技术领域中的第j个词条,di表示第i个技术领域中的专利文本的总数量,|{di|tij∈di}|表示第i个技术领域中包含第j个词条的专利文本的数量。
随后,计算tfi,j×idfj的乘积(其用于评估第i个技术领域中第j个词条对于该第i个技术领域内专利的重要程度)作为第i个技术领域中第j个词条的重要程度;
最后,从得到的第i个技术领域中所有词条的重要程度中,选取最大的Num个重要程度所对应的词条,将这Num个词条作为第i个技术领域的关键技术词,其中Num的取值范围是1到20之间。
9.一种基于知识图谱的技术清单生成系统,其特征在于,包括:
第一模块,用于获取专利数据,将专利数据输入预先构建的知识图谱嵌入神经网络模型中,以得到专利数据的嵌入结果,即专利数据的嵌入向量;
第二模块,用于使用Canopy聚类算法对第二模块得到的专利数据的嵌入向量进行处理,以得到K个聚类中心点;
第三模块,用于以第二模块得到的K个聚类中心点为初始中心点,使用K-means算法对第一模块得到的实体嵌入向量进行聚类处理,以得到K个聚类结果作为K个技术领域。
第四模块,用于对于第三模块得到的K个技术领域中的每一个技术领域而言,从专利数据库中获取每一个技术领域中的所有专利文本,并使用词频-逆文本频率指数TF-IDF算法对每一个技术领域中的所有专利文本进行处理,以获取该技术领域对应的多个关键技术词。
第五模块,用于针对第三模块得到的K个技术领域中的每一个技术领域而言,获取其对应的技术研究热度评价指标和/或技术前沿性评价指标,以及与技术研究热度评价指标和/或技术前沿性评价指标相对应的值,然后根据所有K个技术领域对应的技术研究热度评价指标和/或技术前沿性评价指标相对应的值、并以降序的方式对所有K个技术领域进行排序,最终生成包括技术研究热度评价指标和/或技术前沿性评价指标、排序后的K个技术领域、以及每个技术领域在第四模块中对应的关键技术词三者之间的映射关系,从而构成技术清单并输出。
本发明属于知识图谱技术领域,更具体地,涉及一种基于知识图谱的技术清单生成方法和系统。
技术预见是指前瞻式发现技术性的问题,便于在问题发生之前提前解决,或先行休整方案。技术预见作为各国普遍采用战略管理工具,在科技长期发展战略制定中广泛应用,逐渐成为世界性潮流。将所有技术划分成不同领域开展研讨,从中选择出关健技术,生成技术清单是整个技术预见环节中的关键步骤。
传统的技术清单制定流程主要采用德尔菲法等广泛问卷咨询的方法,依靠专家知识的经验和定性方法对技术进行确定和排序。德尔菲法,也称专家调查法,其本质上是一种反馈匿名函询法,其大致流程是在对所要预测的问题征得专家的意见之后,进行整理、归纳、统计,再匿名反馈给各专家,再次征求意见,再集中,再反馈,直至得到一致的意见。
然而,采用德尔菲法等广泛问卷咨询的技术清单生成方法,均存在一些不可忽略的缺陷:
第一、上述方法涉及专家多、耗时长,需要消耗大量精力,严重依赖专家的知识和经验,缺少定量分析和数据支持。
第二、上述方法在划分技术领域时,一般根据既定的划分标准进行划分,如依据国际专利分类号(International Patent Classification,简称IPC)来划分技术领域进行分析,这种划分方法存在划分标准固化的问题,难以发现产生的新兴技术领域,划分标准的范围和针对性有时也难以满足实际需求,不能实现随着技术发展而变化。
第三、上述方法中对于技术领域的描述一般只有单一固化的领域术语,对于多个技术领域技术融合而产生的新技术领域并不能很好的进行描述,而且对于技术领域的描述不能实现随着技术发展而变化。
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于知识图谱的技术清单生成方法和系统,其目的在于,对专利实体进行聚类,通过利用知识图谱中的结构信息进行领域划分,通过TF-IDF算法获取每种领域的关键技术词,最后结合评价指标制定相应领域技术清单的流程方法,由此解决现有技术清单生成方法存在的涉及专家多、耗时长、需要消耗大量精力、严重依赖专家的知识和经验、缺少定量分析和数据支持的技术问题,以及由于存在划分标准固化的问题,导致难以发现产生的新兴技术领域的技术问题,以及由于划分标准的范围和针对性有时也难以满足实际需求,不能实现随着技术发展而变化的技术问题,以及对于多个技术领域技术融合而产生的新技术领域并不能很好的进行描述,而且对于技术领域的描述不能实现随着技术发展而变化的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于知识图谱的技术清单生成方法,包括以下步骤:
(1)获取专利数据,将专利数据输入预先构建的知识图谱嵌入神经网络模型中,以得到专利数据的嵌入结果,即专利数据的嵌入向量;
(2)使用Canopy聚类算法对步骤(1)得到的专利数据的嵌入向量进行处理,以得到K个聚类中心点;
(3)以步骤(2)中得到的K个聚类中心点为初始中心点,使用K-means算法对步骤(1)得到的实体嵌入向量进行聚类处理,以得到K个聚类结果作为K个技术领域。
(4)对于步骤(3)中得到的K个技术领域中的每一个技术领域而言,从专利数据库(例如德温特专利数据库)中获取每一个技术领域中的所有专利文本,并使用词频-逆文本频率指数TF-IDF算法对每一个技术领域中的所有专利文本进行处理,以获取该技术领域对应的多个关键技术词。
(5)针对步骤(3)中得到的K个技术领域中的每一个技术领域而言,获取其对应的技术研究热度评价指标和/或技术前沿性评价指标,以及与技术研究热度评价指标和/或技术前沿性评价指标相对应的值,然后根据所有K个技术领域对应的技术研究热度评价指标和/或技术前沿性评价指标相对应的值、并以降序的方式对所有K个技术领域进行排序,最终生成包括技术研究热度评价指标和/或技术前沿性评价指标、排序后的K个技术领域、以及每个技术领域在步骤(4)中对应的关键技术词三者之间的映射关系,从而构成技术清单并输出。
优选地,知识图谱嵌入神经网络模型是ConvE模型,并且是通过以下步骤构建得到的:
(1-1)从专利数据库获取专利数据集;
(1-2)根据步骤(1-1)得到的专利数据集生成多个三元组,所有三元组构成知识图谱数据集,该知识图谱数据集中的每个知识图谱数据就是一个三元组(em1,rmr,em2),其中em1表示知识图谱数据集中第m个三元组中头实体的嵌入向量、rmr表示知识图谱数据集中第m个三元组中关系的嵌入向量,em2表示知识图谱数据集中第m个三元组中尾实体的嵌入向量,且有m∈[1,知识图谱数据集中的三元组总数]。
(1-3)将步骤(1-2)得到的知识图谱数据集划分为训练集、验证集和测试集,训练集中的所有知识图谱数据(即三元组)中的所有实体构成集合E,训练集中的所有知识图谱数据(即三元组)中的所有关系构成集合R;
(1-4)对步骤(1-3)得到的训练集对应的实体集合E和训练集对应的关系集合R进行随机初始化,以获得其中每一个实体的嵌入向量和每一个关系的嵌入向量;
(1-5)将步骤(1-4)得到的训练集中所有实体的嵌入向量和关系的嵌入向量输入到知识图谱嵌入神经网络模型ConvE中,以得到多个预测分数;
(1-6)将步骤(1-5)得到的所有预测分数输入损失函数中,使得损失函数L最小化,从而得到初步训练好的知识图谱嵌入神经网络模型;
(1-7)根据步骤(1-3)得到的验证集对步骤(1-6)初步训练好的知识图谱嵌入神经网络模型进行验证,直到得到的损失函数L最优为止,从而得到训练好的知识图谱嵌入神经网络模型;
优选地,步骤(1-2)中的三元组是由头实体-关系-尾实体组成;
实体包括专利名称、发明人、申请单位、IPC分类号、以及国家;
关系包括申请单位-专利名称、专利名称-IPC分类号、发明人-申请单位、发明人-专利名称、以及申请单位-国家;
步骤(1-2)中生成的三元组包括(申请单位-申请-专利名称)、(专利名称-属于-IPC分类号)、(发明人-属于-申请单位)、(发明人-申请-专利名称)、以及(申请单位-属于-国家)。
优选地,步骤(1-4)中嵌入向量的取值范围为1~1024,优选为200;
每一个嵌入向量均满足均值为0的正态分布。
优选地,步骤(1-5)包括以下子步骤:
(1-5-1)针对训练集中的每一个三元组(ek1,rkr,ek2)而言,通过2Dreshape操作将该三元组中(ek1,rkr,ek2)的头实体的嵌入向量ek1和关系的嵌入向量rkr转换成矩阵并进行拼接,以得到该三元组(ek1,rkr,ek2)对应的拼接矩阵,其中k∈[1,训练集中的三元组总数]。
(1-5-2)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将步骤(1-5-1)得到的该三元组(ek1,rkr,ek2)对应的拼接矩阵输入ConvE模型中带滤波器ω的二维卷积层,以得到该三元组对应的张量。
(1-5-3)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将该三元组对应的张量拉平为一维向量后输入到ConvE模型中参数矩阵为W的全连接层中,以得到该三元组(ek1,rkr,ek2)对应的输出向量。
(1-5-4)对于训练集中的每一个三元组而言,将步骤(1-5-3)得到的该三元组对应的向量与该三元组中的尾实体的嵌入向量ek2进行内积运算,并使用logistic sigmoid函数对内积计算结果进行处理,以得到输出结果作为该三元组(e1,rr,e2)的预测分数;
优选地,步骤(1-5-4)中的预测分数是采用以下公式计算:
其中ek1、ekt和rkr分别表示第k个三元组中头实体、尾实体和关系的嵌入向量,和分别表示ek1和rkr分别通过步骤(1-5-1)的2D reshape操作后得到的矩阵,*表示卷积操作,f为relu函数,W为全连接层的参数矩阵,σ为logistic sigmoid函数,p(ek1,rkr,ekt)表示训练集中第k个三元组的预测分数。
优选地,步骤(1-6)中的损失函数L具体为:
其中K表示训练集中所有三元组的数量,tk表示训练集中的第k个三元组中的头实体和尾实体之间是否存在关系,如果二者存在关系,则tk为1,否则为0。
优选地,步骤(4)具体为,首先是计算第i个技术领域中第j个词条出现的频率tfi,j,其采用如下计算公式,其中j∈[1,第i个技术领域中所有专利文本中词条的总数],i∈[1,K]:
其中ni,j表示第j个词条在第i个技术领域中的专利文本中的出现次数,∑KnK,j表示第j个词条在所有K个技术领域中的专利文本中的出现次数。
然后,计算第i个技术领域中第j个词条的逆向文件频率idfj,其采用以下公式:
其中|D|为步骤(4)中从专利数据库获取的所有K个技术领域中的专利文本的总数量,tij表示第i个技术领域中的第j个词条,di表示第i个技术领域中的专利文本的总数量,|{di|tij∈di}|表示第i个技术领域中包含第j个词条的专利文本的数量。
随后,计算tfi,j×idfj的乘积(其用于评估第i个技术领域中第j个词条对于该第i个技术领域内专利的重要程度)作为第i个技术领域中第j个词条的重要程度;
最后,从得到的第i个技术领域中所有词条的重要程度中,选取最大的Num个重要程度所对应的词条,将这Num个词条作为第i个技术领域的关键技术词,其中Num的取值范围是1到20之间。
按照本发明的另一方面,提供了一种基于知识图谱的技术清单生成系统,包括:
第一模块,用于获取专利数据,将专利数据输入预先构建的知识图谱嵌入神经网络模型中,以得到专利数据的嵌入结果,即专利数据的嵌入向量;
第二模块,用于使用Canopy聚类算法对第二模块得到的专利数据的嵌入向量进行处理,以得到K个聚类中心点;
第三模块,用于以第二模块得到的K个聚类中心点为初始中心点,使用K-means算法对第一模块得到的实体嵌入向量进行聚类处理,以得到K个聚类结果作为K个技术领域。
第四模块,用于对于第三模块得到的K个技术领域中的每一个技术领域而言,从专利数据库中获取每一个技术领域中的所有专利文本,并使用词频-逆文本频率指数TF-IDF算法对每一个技术领域中的所有专利文本进行处理,以获取该技术领域对应的多个关键技术词。
第五模块,用于针对第三模块得到的K个技术领域中的每一个技术领域而言,获取其对应的技术研究热度评价指标和/或技术前沿性评价指标,以及与技术研究热度评价指标和/或技术前沿性评价指标相对应的值,然后根据所有K个技术领域对应的技术研究热度评价指标和/或技术前沿性评价指标相对应的值、并以降序的方式对所有K个技术领域进行排序,最终生成包括技术研究热度评价指标和/或技术前沿性评价指标、排序后的K个技术领域、以及每个技术领域在第四模块中对应的关键技术词三者之间的映射关系,从而构成技术清单并输出。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明由于采用了步骤(1-1),其使用了大量专利数据来进行技术清单的生成。因此能够解决现有方法中存在的涉及专家多、耗时长,需要消耗大量精力,严重依赖专家的知识和经验,缺少定量分析和数据支持的缺陷。
2、本发明由于采用了步骤(1)、步骤(2)和步骤(3),其通过Canopy和K-means聚类的方法动态划分技术领域,因此能够解决现有技术领域划分方法中存在的技术领域划分标准固化,难以发现产生的新兴技术领域,划分标准的范围和针对性有时也难以满足实际需求,不能实现随着技术发展而变化的缺陷。
3、本发明由于采用了步骤(4),其通过词频-逆文本频率指数算法获取每一个技术领域的技术关键词,使用技术关键词对技术领域进行描述,因此能够解决现有技术领域的描述方法中对于多个技术领域技术融合而产生的新技术领域并不能很好的进行描述,而且对于技术领域的描述不能实现随着技术发展而变化的缺陷。
图1是本发明基于知识图谱的技术清单生成方法的流程图;
图2是本发明知识图谱数据中实体和关系的示意图;
图3是本发明知识图谱嵌入神经网络模型的示意图。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,提供了一种基于知识图谱的技术清单生成方法,通过对专利数据进行聚类分析,结合国际技术清单数据项与专家领域知识,最终在知识图谱指导下制定相应领域技术清单的方法。
本发明提出了一种基于知识图谱的技术清单生成方法和系统,首先对专利数据构建专利知识图谱,接着对专利实体进行聚类,然后通过TF-IDF算法获取每种领域的关键技术词,最后结合评价指标制定相应领域技术清单的流程方法。
如图1所示。本发明提供了一种基于知识图谱的技术清单生成方法,包括以下步骤:
(1)获取专利数据,将专利数据输入预先构建的知识图谱嵌入神经网络模型中,以得到专利数据的嵌入结果,即专利数据的嵌入向量;
具体而言,本步骤中的专利数据,是从诸如德温特的专利数据库获取到的。
本步骤中的知识图谱嵌入神经网络模型是ConvE模型(如图3所示),它是通过以下步骤构建得到的:
(1-1)从专利数据库获取专利数据集;
具体而言,本步骤是从诸如德温特的专利数据库获取专利数据集,专利数据集中应尽可能包含数量大的专利数量(至少十万条以上);
本步骤的优点在于,使用了大量专利数据,因此能够摆脱对专家知识和经验的严重依赖,节省人力物力的消耗,提供定量分析和数据支持。
(1-2)根据步骤(1-1)得到的专利数据集生成多个三元组,所有三元组构成知识图谱数据集,该知识图谱数据集中的每个知识图谱数据就是一个三元组(em1,rmr,em2),其中em1表示知识图谱数据集中第m个三元组中头实体的嵌入向量、rmr表示知识图谱数据集中第m个三元组中关系的嵌入向量,em2表示知识图谱数据集中第m个三元组中尾实体的嵌入向量,且有m∈[1,知识图谱数据集中的三元组总数]。
具体而言,本步骤中的三元组是由头实体-关系-尾实体组成,其中实体一共有五种,包括专利名称、发明人、申请单位、IPC分类号、国家,关系有申请单位-专利名称、专利名称-IPC分类号、发明人-申请单位、发明人-专利名称、申请单位-国家共五种。知识图谱数据中确定的实体和关系如图2所示。本步骤中生成的三元组包括五种,即(申请单位-申请-专利名称)、(专利名称-属于-IPC分类号)、(发明人-属于-申请单位)、(发明人-申请-专利名称)、(申请单位-属于-国家)。
(1-3)将步骤(1-2)得到的知识图谱数据集划分为训练集、验证集和测试集,训练集中的所有知识图谱数据(即三元组)中的所有实体构成集合E,训练集中的所有知识图谱数据(即三元组)中的所有关系构成集合R;
在本步骤中,划分知识图谱训练集的比例为:训练集90%、验证集5%、测试集5%。
(1-4)对步骤(1-3)得到的训练集对应的实体集合E和训练集对应的关系集合R进行随机初始化,以获得其中每一个实体的嵌入向量和每一个关系的嵌入向量;
具体而言,嵌入向量的大小为d,d的取值范围为1~1024,优选为200,每一个嵌入向量均满足均值为0的正态分布;
(1-5)将步骤(1-4)得到的训练集中所有实体的嵌入向量和关系的嵌入向量输入到知识图谱嵌入神经网络模型ConvE中,以得到多个预测分数;
具体而言,本步骤包括以下子步骤:
(1-5-1)针对训练集中的每一个三元组(ek1,rkr,ek2)而言,通过2Dreshape操作将该三元组中(ek1,rkr,ek2)的头实体的嵌入向量ek1和关系的嵌入向量rkr转换成矩阵并进行拼接,以得到该三元组(ek1,rkr,ek2)对应的拼接矩阵,其中k∈[1,训练集中的三元组总数]。
(1-5-2)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将步骤(1-5-1)得到的该三元组(ek1,rkr,ek2)对应的拼接矩阵输入ConvE模型中带滤波器ω的二维卷积层,以得到该三元组对应的张量。
(1-5-3)对于训练集中的每一个三元组(ek1,rkr,ek2)而言,将该三元组对应的张量拉平为一维向量后输入到ConvE模型中参数矩阵为W的全连接层中,以得到该三元组(ek1,rkr,ekt)对应的输出向量。
(1-5-4)对于训练集中的每一个三元组而言,将步骤(1-5-3)得到的该三元组对应的向量与该三元组中的尾实体的嵌入向量ekt进行内积运算,并使用logistic sigmoid函数对内积计算结果进行处理,以得到输出结果作为该三元组(e1,rr,et)的预测分数;
具体而言,本步骤是采用以下公式:
其中ek1、ek2和rkr分别表示第k个三元组中头实体、尾实体和关系的嵌入向量,和分别表示ek1和rkr分别通过步骤(1-5-1)的2D reshape操作后得到的矩阵,*表示卷积操作,f为relu函数,W为全连接层的参数矩阵,σ为logistic sigmoid函数,p(ek1,rkr,ek2)表示训练集中第k个三元组的预测分数。
(1-6)将步骤(1-5)得到的所有预测分数输入损失函数中,使得损失函数L最小化,从而得到初步训练好的知识图谱嵌入神经网络模型;
其中损失函数L具体为:
其中K表示训练集中所有三元组的数量,tk表示训练集中的第k个三元组中的头实体和尾实体之间是否存在关系(例如,首实体为申请单位,尾实体为专利名称,他们之间就存在关系;如果首实体为申请单位,尾实体为IPC分类号,则他们之间就不存在关系),如果二者存在关系,则tk为1,否则为0。
(1-7)根据步骤(1-3)得到的验证集对步骤(1-6)初步训练好的知识图谱嵌入神经网络模型进行验证,直到得到的损失函数L最优为止,从而得到训练好的知识图谱嵌入神经网络模型;
(2)使用Canopy聚类算法对步骤(1)得到的专利数据的嵌入向量进行处理,以得到K个聚类中心点;(3)以步骤(2)中得到的K个聚类中心点为初始中心点,使用K-means算法对步骤(1)得到的实体嵌入向量进行聚类处理,以得到K个聚类结果作为K个技术领域。
具体而言,本步骤中通过聚类对专利数据进行了分类得到了K个种类的专利数据,相似的专利数据在同一个种类中,将同一种类中的专利数据看作属于同一个技术领域内的专利数据,这样就得到了技术领域的划分,即K个技术领域;
上述步骤(1)到(3)的优点在于,能够解决现有技术领域划分方法中存在的划分标准固化,难以发现产生的新兴技术领域,划分标准的范围和针对性有时也难以满足实际需求,不能实现随着技术发展而变化的问题。
(4)对于步骤(3)中得到的K个技术领域中的每一个技术领域而言,从专利数据库(例如德温特专利数据库)中获取每一个技术领域中的所有专利文本,并使用词频-逆文本频率指数(TermFrequency-Inverse Document Frequency,简称TF-IDF)算法对每一个技术领域中的所有专利文本进行处理,以获取该技术领域对应的多个关键技术词。
具体而言,本步骤中,首先是计算第i个技术领域中第j个词条出现的频率tfi,j(其中j∈[1,第i个技术领域中所有专利文本中词条的总数],i∈[1,K]),其采用如下计算公式:
其中ni,j表示第j个词条在第i个技术领域中的专利文本中的出现次数,∑KnK,j表示第j个词条在所有K个技术领域中的专利文本中的出现次数。
然后,计算第i个技术领域中第j个词条的逆向文件频率idfj,其采用以下公式:
其中|D|为步骤(4)中从专利数据库获取的所有K个技术领域中的专利文本的总数量,tij表示第i个技术领域中的第j个词条,di表示第i个技术领域中的专利文本的总数量,|{di|tij∈di}|表示第i个技术领域中包含第j个词条的专利文本的数量。
随后,计算tfi,j×idfj的乘积(其用于评估第i个技术领域中第j个词条对于该第i个技术领域内专利的重要程度)作为第i个技术领域中第j个词条的重要程度;
最后,从得到的第i个技术领域中所有词条的重要程度中,选取最大的Num个重要程度所对应的词条,将这Num个词条作为第i个技术领域的关键技术词,其中Num的取值范围是1到20之间,优选为10。
本步骤的优点在于。能够解决现有技术领域的描述方法中对于多个技术领域技术融合而产生的新技术领域并不能很好的进行描述,对于技术领域的描述不能实现随着技术发展而变化的问题。
(5)针对步骤(3)中得到的K个技术领域中的每一个技术领域而言,获取其对应的技术研究热度评价指标和/或技术前沿性评价指标,以及与技术研究热度评价指标和/或技术前沿性评价指标相对应的值,然后根据所有K个技术领域对应的技术研究热度评价指标和/或技术前沿性评价指标相对应的值、并以降序的方式对所有K个技术领域进行排序,最终生成包括技术研究热度评价指标和/或技术前沿性评价指标、排序后的K个技术领域、以及每个技术领域在步骤(4)中对应的关键技术词三者之间的映射关系,从而构成技术清单并输出。
具体而言,如下表1所示,某个技术领域的技术研究热度评价指标包括该技术领域中的授权专利总量、美国专利授权总量、当前影响指数(Current Influence Index,简称CII),技术力量(Technical Strength,简称TS)、技术影响力指标(Technical InfluenceIndex,简称TII)、前向引文量、以及科学关联度。
表1
如下表2所述,某个技术领域的技术前沿性评价指标包括该技术领域中的技术成熟度系数、技术衰老系数。发明专利授权率、技术生长率、以及突变(Burst)值。
表2
举例而言,如果希望得到的技术清单是与美国专利授权总量相关,则本步骤中,首先是分别获取K个技术领域中每一个技术领域对应的美国专利授权总量,然后按照美国专利授权总量从大到小的顺序,将K个技术领域进行排序(例如顺序是第K-1个技术领域,第2个技术领域、第4个技术领域、第1个技术领域、第K个技术领域、…、第3个技术领域),随后,建立一个技术清单,其包括三个条目:指标名称(即美国专利授权总量)、排序后的K个技术领域、每个技术领域对应的关键技术词,如下表3所示(假设K=4,Num=2):
表3
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
本文发布于:2023-03-13 05:48:13,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69319.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |