G06F16/38
1.一种文献多层引用网络关联分析方法,其特征在于,包括以下步骤:
(1)获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
(2)对于步骤(1)获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;
(3)对于步骤(2)获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
(4)对于步骤(3)获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。
2.如权利要求1所述的文献多层引用网络关联分析方法,其特征在于,所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
3.如权利要求1所述的文献多层引用网络关联分析方法,其特征在于,文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。
4.如权利要求1所述的文献多层引用网络关联分析方法,其特征在于,所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
5.如权利要求1所述的文献多层引用网络关联分析方法,其特征在于,还包括步骤:
获得文献簇团和专利文献簇团之间的相似性矩阵后,将文献数据采用多层引用网络关联关系可视化的呈现。
6.一种文献多层引用网络关联分析系统,其特征在于,包括:
第一模块,用于获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
第二模块,用于对第一模块获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;
第三模块,用于对第二模块获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
第四模块,用于对第三模块获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。
7.如权利要求6所述的文献多层引用网络关联分析系统,其特征在于,所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
8.如权利要求6所述的文献多层引用网络关联分析系统,其特征在于,文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。
9.如权利要求6所述的文献多层引用网络关联分析系统,其特征在于,所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
10.如权利要求6所述的文献多层引用网络关联分析系统,其特征在于,还包括可视化模块,用于将文献数据根据文献簇团和专利文献簇团之间的相似性矩阵采用多层引用网络关联关系可视化的呈现。
本发明属于文献引用网络分析领域,更具体地,涉及一种多层引用网络关联的可视化分析方法及系统。
近年来,随着科学研究的不断发展,记载研究成果的载体文件数量激增,例如论文文本、专利文本等。由于科学研究一般是基于目前的现有研究或者已知科技成果的,因此论文文本、专利文本之间存在着相互引用关系。
其中论文系统有着相对成熟的引用规定,会在特定的区域以特定的方式表明引用的文献,而专利文本则不同,虽然有可能在特定区域引用文件,同时还会在审查过程中,出现经过人工检索和判断,相关程度非常高的引用文献,十分具有分析价值。目前分别在论文系统和专利系统内部,已经有较为成熟的文献应用关系分析方法。
然而这两个主要的文献系统,他们之间在实质内容方面存在非常强关联关系,然而由于引用文献的不同习惯,并没有直接的关联数据可供分析,造成论文文献和专利文献之间的关联关系数据难以直观获取和分析,不利于信息整合。
针对现有技术的以上缺陷或改进需求,本发明提供了一种文献多层引用网络关联分析方法及系统,其目的在于采用基于自然语言处理的方法,将论文文献和专利文献进行关联分析,其系统内部的引用关系,获得文献之间的关联关系,由此解决目前由于文献系统的相互独立导致的其关联关系无法突破文献类型,不易直观获取和分析,不利于信息整合的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种文献多层引用网络关联分析方法,其特征在于,包括以下步骤:
(1)获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
(2)对于步骤(1)获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;
(3)对于步骤(2)获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
(4)对于步骤(3)获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。
优选地,所述文献多层引用网络关联分析方法,其所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
优选地,所述文献多层引用网络关联分析方法,其文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。
优选地,所述文献多层引用网络关联分析方法,其所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
优选地,所述文献多层引用网络关联分析方法,其还包括步骤:
获得文献簇团和专利文献簇团之间的相似性矩阵后,将文献数据采用多层引用网络关联关系可视化的呈现。
按照本发明的另一个方面,提供了一种文献多层引用网络关联分析系统,其包括:
第一模块,用于获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
第二模块,用于对第一模块获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;
第三模块,用于对第二模块获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
第四模块,用于对第三模块获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。
优选地,所述文献多层引用网络关联分析系统,其所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
优选地,所述文献多层引用网络关联分析系统,其文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。
优选地,所述文献多层引用网络关联分析系统,其所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
优选地,所述文献多层引用网络关联分析系统,其还包括可视化模块,用于将文献数据根据文献簇团和专利文献簇团之间的相似性矩阵采用多层引用网络关联关系可视化的呈现。
总体而言,通过本发明所构思的以上技术方案与现有技术相比能够,取得下列有益效果:
本发明提供的一种多层引用网络关联的可视化分析方法及系统,通过社区检测算法处理论文和专利的引用网络,并划分为多个社区,利用LDA主题模型结合词向量的主题关联方法实现论文和专利的簇团关联,优选方案,利用关联过滤规则剔除无效关联。
优选方案,本发明提供的一种多层引用网络关联的可视化分析方法及系统将多层关联网络可视化呈现,具有良好的可视化效果和适用性,能够应用于各种数据系统。
图1为本发明提供的文献多层引用网络关联分析方法的流程图;
图2为本发明实施例的引用网络聚类示意图;
图3为本发明实施例的引用网络聚类示意图;
图4为本发明实施例的多层关联网络的可视化结果;
图5为本发明实施例的多层关联网络的可视化结果的局部细节;
图6为本发明实施例采用的词向量模型原理示意图,其中图6A为CBOW模型,图6B为skip-gram模型。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
现有的研究仅局限于论文或专利等单一维度数据,并未将论文和专利的引用关系和摘要文本同时联系起来,难以挖掘不同文献的主题之间的联系,同时缺乏一种有效的可视化工具,可以更加直观有效的呈现论文和专利之间的关联信息。
针对以上问题,本发明提出了一种多层引用网络关联的可视化分析方法及系统,通过同时使用不同数据源的引用关系信息和文本信息,将不同数据源的研究主题进行有效关联,并利用可视化工具直观呈现不同数据源之间的联系,同时可以展示如文献作者、文献标题等局部信息,方便用户更加直观有效的了解研究领域不同数据源之间的联系。
本发明提供的文献数据多层引用网络关联关系分析方法,包括以下步骤:
(1)获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
论文文献数据及其引用关系数据,在论文数据库中可方便的获取;专利文献数据及其引用关系数据可在官方的公开数据库中批量获取。
(2)对于步骤(1)获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;优选所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
所述的Louvain算法具体为:将每个文献节点(即专利或论文)分配到对应各个节点的文献簇团中,对于节点分配邻近的文献簇团,若没有模块化增量,则节点所在文献簇团位置不变;若存在模块化增量,则将节点加入到新的文献簇团中。
所述的引用关系中,节点代表论文或者专利,连线代表论文或者专利之间的引用关系。
所述的模块化增量指的是:对于每个节点i,模块化增量可以这样计算:将i从它自己的社区除去,并将其移入它的每个邻居的社区j。其对应的模块化增量ΔQ公式为:
其中,∑in是i正在进入的社区内所有连接的权重的总和,∑tot是所有社区节点连接的权重的总和,ki是i的度,Ki,in是在社区中i和其他节点连接权重的总和,m是在网络中的所有连接的权重的总和。
(3)对于步骤(2)获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
为了减小数据量,文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。LDA主题模型主题个数参数K值取为1。
(4)对于步骤(3)获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。具体包括:
(4-1):根据论文文献簇团的前向主题和后向主题关系、以及专利文献簇团的前向主题和后向主题关系,关联论文文献簇团和专利文献簇团;
所述的前向主题和后向主题关系指:对于特定论文文献簇团的主题T1,计算T1与所有专利文献簇团的主题之间的相似度,其中相似度最大的主题T2,则T2为T1的后向主题;相应的论文文献簇团中与T2主题相似度最大的主题T3为T2的前向主题。
步骤S4.2:利用关联过滤规则剔除无效连接。
所述的关联过滤规则值:主题关联相似度值小于总体均值的关联将会被过滤掉。
所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
文献簇团亦可进行可视化展示,具体为:采用力导引算法进行社区布局,使得簇团内的节点联系更加紧密,簇团与簇团分开的更加明显,增强可视化效果。获得文献簇团和专利文献簇团之间的相似性矩阵后,可采用可视化软件,将文献数据多层引用网络关联关系可视化的呈现。
本发明提供的文献多层引用网络关联分析系统,包括:
第一模块,用于获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
第二模块,用于对第一模块获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;所述文献簇团的节点数量相当;
社区检测算法优选Louvain算法,对论文文献引用关系数据、以及专利文献引用关系数据进行社区划分,得到多个文献簇团,对于簇团内节点数高于一定阈值的大型文献簇团,可单独运用多次Louvain算法,划分为更小的文献簇团,直至所有的文献簇团的节点数量即规模相当。
第三模块,用于对第二模块获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;文献数据优选采用摘要数据,即专利摘要数据以及论文摘要数据。
第四模块,用于对第三模块获取的文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得文献数据多层引用网络关联关系。
所述词向量模型,利用收集的所有论文摘要数据和专利摘要数据作为训练样本进行训练。
以及可视化模块,用于将文献数据根据文献簇团和专利文献簇团之间的相似性矩阵采用多层引用网络关联关系可视化的呈现。
以下为实施例:
(1)获取论文文献数据及其引用关系数据、专利文献数据及其引用关系数据;
使用互联网上公开的论文和专利文献数据集,下载论文/专利的引用关系数据和文本摘要数据,对引用数据进行预处理,构建论文/专利引用网络图。
(2)对于步骤(1)获取的论文文献引用关系数据和专利文献引用关系数据,采用社区检测算法将文献数据进行社区划分获得多个文献簇团;
然后采用社区检测算法Louvain算法,对引用网络进行社区划分,得到多个簇团,对于簇团内节点数高于一定阈值(如1000)的大型簇团,可单独运用多次Louvain算法,划分为更小的文献簇团。
Louvain算法是基于模块性的算法,在一个有权网络中,模块性的定义为:
式中:Q表示Louvain模块化(Modularity),Aij表示节点i与节点j之间的边的权重,ki表示所有连接到节点i的边的权重之和,ci表示当前节点i归属的社区,cj表示当前节点j归属的社区,m表示在网络中的所有链接的权重的总和,其中,当函数δ(u,v)中的u等于v时,函数δ(u,v)的值为1,否则为0。
针对划分好的献簇团,采用力导引算法进行社区布局,使得簇团内的节点联系更加紧密,献簇团与献簇团分开的更加明显,增强可视化效果;基于上述算法处理之后,得到包含簇团信息和节点坐标信息的json文件。
所述的力导向算法的思想是:网络中的每个节点之间都存在库仑斥力,使它们两两相互排斥。同时,有连线的节点之间会产生类似弹簧的胡克引力,使得有连线的两个节点相互吸引。在斥力和引力的不断作用下,节点发生位移,最终达到系统平衡。力导向算法只单独应用于每个处于社区内的节点,这样可使得簇团内的节点连接更加紧密,簇图和簇团之间分开的更加明显。
利用力导引算法进行簇团可视化布局时,我们仅对每个簇团内的所有节点单独应用力导引算法,这样可使得簇团内的节点联系更加紧密,簇团与簇团之间分开的更加明显。调节力导引算法的迭代次数参数,通过选取不同的参数进行实验,可以选择更好的可视化效果图。
将数据按照需要存入数据库中,用于后续展示;即将算法处理结果,以及论文和专利的基本信息、引用关系、节点坐标、文本摘要等信息存入数据库,以备后用。
具体地,创建一个数据库,数据库保存了论文的基本信息,包括论文序号、标题、摘要、引用四个属性,其中引用字段可以用论文的序号进行表示。
从上述数据中提取论文序号和引用两个字段数据构建引用网络,利用Louvain算法和力导引算法得到划分社区后的每个节点信息,用JSON文件进行存储。JSON文件格式如下:
{"node":[{"node_id":0,"name":"XXXX","TI":"XXXX"},{"node_id":1,"name":"XXXX","TI":"XXXX"},{"node_id":2,"name":"XXXX","TI":"XXXX"}],"links":[{"source":0,"target":1,"value":"1"},{"source":1,"target":2,"value":"1"},"coordinates":[{"node":0,"coordinate":[381.60,250.61]},{"node":1,"coordinate":[337.03,241.39]},{"node":2,"coordinate":[266.95,308.13]},"clusters":[{"cluster_id":0,"cluster":[0,1,2]},"edges":[[0,1],[1,2]]}
其中,node字段存储的是节点(论文或者专利)信息,links存储的是引用信息,coordinates存储的是经过louvain算法和力导引算法生成的每个节点的坐标信息,clusters存储的是文献簇团信息。
(3)对于步骤(2)中获取的文献簇团,获取其相应文献数据,并使用LDA主题模型进行主题提取,得到每个文献簇团的主题集合;
利用LDA主题模型处理每一个论文和专利社区包含的所有文本摘要数据,令LDA模型主题个数参数K值取为1,得到每个簇团对应的多个主题词表示的一个主题,存储于excel文件中。
LDA主题模型的思想是:一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
LDA主题模型处理每个簇团包含的所有节点的摘要文本信息,并令LDA参数中的主题个数K为1,α,β分别取1,0.01。每个簇团用一个主题表示,每个主题用20个主题词表示,将得到的主题信息存储于另一个mysql数据库中,包含簇团序号、簇团包含的节点个数、簇团包含的节点序号、簇团主题词四个字段。
(4)对于步骤(3)中文献簇团的主题集合,使用词向量模型计算论文文献簇团和专利文献簇团之间的相似性矩阵,即获得所述文献数据多层引用网络关联关系。
利用收集的所有论文和专利文本摘要数据训练词向量模型,基于已经训练好的词向量模型计算每个论文和专利簇团主题之间的语义相似度,将相似度值以矩阵形式存储于excel文件中,选择每行(论文簇团)和每列(专利簇团)的最大值,并在这些最大值中剔除小于整体相似度均值的无效值。最后基于python语言中的plotly模块处理包含簇团信息和节点坐标的json文件,并基于包含相似度值的excel文件连接论文和专利簇团(连接簇团中度最大的节点),生成html文件,便于后续进行网页版动态展示。具体地:
从第一个数据库中提取所有论文和专利的摘要文本,训练word2vec的Skip-grim模型。利用训练好的模型计算每个论文簇团和专利簇团的主题词列表相似度值,利用前向主题和后向主题关系选择相似度值并加粗,并在加粗的相似度中剔除小于总体均值的相似度值,用矩阵形式表示如下:
主题相似度 论文簇团1 论文簇团2 论文簇团3 专利簇团1 0.56 0.63 0.95 专利簇团2 0.58 0.86 0.75 专利簇团3 0.46 0.57 0.63
所述的主题词列表指:每个主题用的20个主题词可以组成[X,X,X…X,X]的词列表形式,调用python语言gensim包中的n_similarity()方法,得到主题词列表之间的相似度,从而反映了簇团主题之间的相似度。
所述的前向主题和后向主题关系指:在每行中,选择最大的相似度值并加粗,在每列中选择相似度值最大的并加粗。由上表中的相似度值计算得到整体均值为0.666,所以剔除0.58和0.63相似度值,共得到两条有效连接,分别是论文簇团2和专利簇团2,论文簇团3和专利簇团2。
所述的词向量模型Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。词向量的训练方法一般分为两种,分别是CBOW(continuous bag of words)和Skip-Gram(continuousSkip-gram Model)。CBOW是通过中心词的附近词(即上下几个词)来预测本身,其模型如下图6A所示,而Skip-gram与CBOW模型正好相反,该模型是利用附近词来预测中心词。在skip-gram中,会利用周围的词的预测结果状况,使用梯度下降(GradientDecent)来不断的调整中心词的词向量,最终全部的文本遍历完毕以后,也就获得了文本全部词的词向量,如图6B所示,这种屡次的调整相比于CBOW模型用时更长,但训练结果会更加准确,本发明由于划分了文献簇团,因此采用Skip-gram模型效果更好。
基于python的plotly包处理包含簇团信息和节点坐标信息的JSON文件和包含层间簇团连接信息的EXCEL文件,生成HTML文件实现多层关联网络网页动态可视化,我们对可视化效果做了一些改进,具体可以实现如下功能:
1)社区划分后,每个簇团内的节点和连线都用统一的颜表示,簇团节点和连线颜设置可随机选择,也可自行设置;簇团间的连线颜设置为背景,这样更好区分不同的簇团,防止簇团部分或全部重叠。
2)节点大小和线条颜可以根据用户个性化需求进行设置。线条包括网络层内线条和层间连接线条。
3)生成的HTML文件可在浏览器中打开,呈现的多层关联可视化图可以由鼠标控制进行三维旋转、放大、缩小和拖拽。当用户鼠标放置在某个节点上时,可显示该节点的基本信息。如果节点代表论文,可显示论文的标题、作者、论文序号和处于的簇团序号等基本信息,这些信息可以由用户自行添加。
图2是图4的上层,图3是图4的下层,簇团大小和布局一样,只是颜又进行了随机分配,其中一层为论文文献节点,另一层为专利文献节点。
图5展示的是多层关联网络的局部信息。图中的字符串“110.1080/10408398.2018.1559796cluld:29”中前部分“110.1080/10408398.2018.1559796”表示文献的DOI,“cluld:29”表示该节点处于当前网络层簇团数量排名30(从0开始)的簇团内。需要呈现的局部信息可以根据用户个性化需求增加。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
本文发布于:2023-03-13 08:26:45,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/69598.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |