1.本发明涉及一种用于低碳电力
技术研究领域的低碳电力技术
知识图谱构建方法。
背景技术:
2.知识图谱是知识工程的一个分支,以知识工程中的语义网络(semant ic network)为理论基础,是一种用图模型来描述知识和建模世间万物的关联关系的技术方法,在近年来受到了业界和学术界的广泛关注。知识图谱本质上是语义网络的知识库,在实际应用中表现为一张由“节点”和“边”构成的多关系图,其中“节点”表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的“边”,这种由具有属性的实体通过关系链接而成的网状知识库是对物理世界的一种符号表达。通过自然语言处理技术、图计算、知识表示学习等手段,将非线性世界中的知识信息结构化,以便机器计算、存储和查询,起到赋予机器人类认知的效果,是人工智能技术走向认知的必要基础。
3.低碳电力技术知识图谱是反映电力行业的低碳技术及技术间拓扑关系的网状结构图谱,用于为低碳电力领域的科技创新布局与决策提供支撑。知识图谱本质上是一种语义网络的技术库,从实际应用的角度出发,其实可以简单将其理解成多关系图(multi-relational graph)。
4.低碳电力技术涉及电力、交通、建筑、冶金、化工、石化等部门,覆盖可再生能源及新能源开发利用、煤的清洁高效利用、油气资源和煤层气的勘查开发、二氧化碳捕获与埋存等范畴。由于低碳电力技术涉及技术面广,复杂程度高,现在尚不存在一种完备的低碳电力技术知识图谱以供对低碳电力技术进行知识检索和决策支持。
技术实现要素:
5.本发明的目的是为了克服现有技术的不足,提供一种低碳电力技术知识图谱构建方法,能够实现低碳电力知识信息的高效准确的查询展示。
6.实现上述目的的一种技术方案是:一种低碳电力技术知识图谱构建方法,包括如下
步骤:
7.步骤1,知识建模步骤,对低碳电力技术知识图谱的本体库进行构建;
8.步骤2,知识抽取步骤,本体库构建完成后,将本体库中的本体及属性实例化,完成对知识图谱中数据层的填充;
9.步骤3,知识存储步骤,采用图数据库来存储知识图谱;
10.步骤4,可视化显示步骤,采用星空图对搜寻的知识图谱进行展示。
11.进一步的,步骤1,知识建模步骤具体包括如下步骤:
12.步骤1.1,明确本体库的领域及构建的目的,为构建的是一个低碳电力技术领域的本体库,需要完成对低碳电力技术相关知识的抽象,继而构建一个服务于低碳电力技术领域科技创新工作的知识图谱,并借助其提升科技创新管理和决策水平;
13.步骤1.2,抽象出领域内实体的相关概念,确定知识图谱包含以下要素类别:技术
领域、技术方向、研究成果、关键词、研究人员、研究机构及其相关属性;
14.步骤1.3,导入数据形成原始数据表,从中国知网中国学术期刊全文数据库导入2000年迄今的电力低碳技术相关文献,形成原始数据表;
15.步骤1.4,根据原始数据表特点进行多轮数据清洗,剔除存在较多及明显问题的数据,尝试对单位和作者之间的关系进行梳理,形成相对较为规范的数据表;
16.步骤1.5,定义用于代表领域内相关概念的类,结合概念模型和清洗后的数据表建立类,包括技术领域、技术方向、研究人员、关键词、研究机构、期刊名称6个类;
17.步骤1.6,定义实体的属性以及值域,在数据清洗的基础上进一步明确定义实体的属性以及值域,本体中的实体属性分为两类,分别为对象属性和数据属性;对象属性用于描述对象之间的关系,其值域为一个实体对象;数据属性用于描述实体的固有属性,并且具有传递性,即上位实体拥有的数据属性,下位实体也继承该属性,数据属性的值域为一个数值。
18.进一步的,步骤2,知识抽取步骤的具体方法为,将基于经过预处理的结构化数据,从中抽取实体、属性及关系的知识,将数据库中的数据转化为用rdf形式表示的知识,依次构建研究领域实体、构建研究子领域实体,以及构建研究领域与子领域实体关系。
19.进一步的,步骤3,知识存储步骤采用neo4j图数据库建设存储知识图谱,neo4j中包含两种基本的数据类型:节点和边,其中,节点表示知识图谱中的实体,边表示知识图谱中实体间的关系,在neo4j中,本发明的实体类型如下:
20.1)技术环节:低碳电力的所在的电力产业链环节
21.2)技术领域:低碳电力的相关技术领域;
22.3)技术方向:低碳电力的相关技术方向;
23.4)研究成果:论文、专利及其他成果物;
24.5)学者:专家、学者、研究人员;
25.6)关键词:论文的关键词;
26.7)机构:研究单位。
27.进一步的,步骤4,采用星空图对搜寻的知识图谱进行展示时,节点表示电力行业的技术领域,各技术领域通过关键词、作者、研究单位等属性建立连接关系,节点的大小表示技术领域的热度,连接线的粗细表示被引用的次数或者二者之间关系的强弱,关键技术为中心度高的技术节点,行业图谱与公司图谱的节点的中心度表示公司行业的发展水平。
28.本发明的一种低碳电力技术知识图谱构建方法,基于本体库和知识抽取完成了低碳电力技术知识图谱的构建,低碳电力技术知识图谱中的节点类型及关系类型蕴含了本体库的设计思路,图谱中的实体信息和实体间的语义信息展现了抽取后的科技创新领域内的各类实体及关系。构建完成的知识图谱节点和关系类型设计合理,知识准确且全面,可用于科创领域内多种信息检索。本发明提出的低碳电力技术知识图谱构建方法基于结构化数据抽取的知识准确性高,覆盖面广;基于neo4j构建的知识图谱能形象地展示图谱中的实体和实体间关系信息,并且提供了良好的交互方式。
附图说明
29.图1为本发明的知识图谱各实体的关联关系示意图。
具体实施方式
30.为了能更好地对本发明的技术方案进行理解,下面通过具体地实施例进行详细地说明:
31.本发明的一种低碳电力技术知识图谱构建方法,包括如下步骤:
32.步骤1,知识建模步骤,对低碳电力技术知识图谱的本体库进行构建。本体库的质量对于知识图谱极其重要,本体库中定义的术语及关系是否完整和准确直接影响了知识图谱构建的质量。在实际操作中,由于在开始构建知识图谱时,尚不清楚收集数据的范围,也不清楚数据使用方式,通常先把所有的数据收集起来,形成一个庞大的数据集,然后再根据数据内容总结其特点,对数据进行整理、分析、归纳、总结,最后形成数据模型。
33.本体通过描述知识图谱中的概念建立真实世界的抽象模型。本体描述语言用于对领域内的模型进行形式化的、清晰的描述。本发明使用owl作为低碳电力技术知识图谱的本体描述语言。owl即web ontology language,其具有如下优势:
34.1)owl是w3c推荐的语义网技术栈的核心技术之一。基于owl构建的本体库能够获得更多的应用场景。
35.2)owl的表达能力很强。owl本质上是rdfs语言的一个扩展,其添加了额外的预定义词汇,能够准确的描述科创领域的相关实体、实体间关系及属性。
36.3)owl提供快速、灵活的数据建模能力,能够快捷地对本体库进行建模。
37.4)基于owl构建的知识图谱,兼容主流的推理引擎,具备高效的自动推理能力,能对构建后的知识图谱进行更新和扩展。
38.综上所述,owl以其标准化、优秀的表达能力、灵活的数据建模能力以及高效的自动推理能力在众多本体描述语言中脱颖而出,使得基于owl的本体的构建更加便捷,且构建后的本体库实用性更强。
39.步骤1具体包括如下步骤:
40.步骤1.1,明确本体库的领域及构建的目的,为构建的是一个低碳电力技术领域的本体库,需要完成对低碳电力技术相关知识的抽象,继而构建一个服务于低碳电力技术领域科技创新工作的知识图谱,并借助其提升科技创新管理和决策水平。
41.步骤1.2,抽象出领域内实体的相关概念,确定知识图谱包含以下要素类别:技术领域、技术方向、研究成果、关键词、研究人员、研究机构及其相关属性。低碳电力技术知识图谱的知识要素的描述内容见下表。
42.低碳电力技术知识图谱的知识要素及描述表
43.序号名称描述1技术领域包括:名称、成熟度等2技术方向包括:名称、层次结构、成熟度等3研究成果包括:名称、类型、刊物、发表时间等4关键词包括:名称、类型、层次等5研究人员包括:名称、研究方向、所属机构等6研究机构包括:名称、研究方向、层次等
44.其中,技术领域和技术方向呈层次关联关系,研究成果是核心元素,包含发表时间、所属技术领域、相关技术方向、发表作者、所属机构等众多属性,并与其他元素形成不同
的关系。
45.步骤1.3,导入数据形成原始数据表,从中国知网(cnki)中国学术期刊全文数据库导入2000年迄今的电力低碳技术相关文献,形成原始数据表。目前已有针对知网数据库等专门开发的元数据同步工具,提供人工调度和自动调度两种模式的同步方式。kbase是清华同方文献管理服务的专有平台,已定制开发专门的元数据同步工具,直接提取kbase中的元数据到原始元数据库中。
46.步骤1.4,根据原始数据表特点进行多轮数据清洗,剔除存在较多及明显问题的数据,尝试对单位和作者之间的关系进行梳理,形成相对较为规范的数据表。
47.步骤1.5,定义用于代表领域内相关概念的类,结合概念模型和清洗后的数据表建立类,包括技术领域、技术方向、研究人员、关键词、研究机构、期刊名称6个类。
48.步骤1.6,定义实体的属性以及值域,在数据清洗的基础上进一步明确定义实体的属性以及值域,本体中的实体属性分为两类,分别为对象属性(object properties)和数据属性(data properties);对象属性用于描述对象之间的关系,其值域为一个实体对象;数据属性用于描述实体的固有属性,并且具有传递性,即上位实体拥有的数据属性,下位实体也继承该属性,数据属性的值域为一个数值。
49.对于本发明,其实体属性最终如下表:
50.知识图谱中“研究”实体的属性值
[0051][0052]
至此,完成了知识图谱的本体库构建。
[0053]
步骤2,知识抽取步骤,本体库构建完成后,将本体库中的本体及属性实例化,完成对知识图谱中数据层的填充。具体方法为,将基于经过预处理的结构化数据,从中抽取实体、属性及关系的知识,将数据库中的数据转化为用rdf形式表示的知识,依次构建研究领域实体、构建研究子领域实体,以及构建研究领域与子领域实体关系。
[0054]
步骤3,知识存储步骤,采用图数据库来存储知识图谱。在知识图谱中,知识是大量的复杂、低结构化、高连接关系的数据。当这些知识被频繁地查询和更新时,关系数据库会在每次处理时产生大量的表连接,从而导致性能问题。由于图数据库独特的数据存取方式,使其在这种使用场景下比关系型数据库的性能高出几千倍以上。因此,相比于关系数据库,图数据库在处理这种知识类的数据上具有优势。此外,基于关系数据库的知识存储通过实
体和关系映射来达到知识获取的目的,但是其缺点在于每次进行知识访问需要进行两次翻译,当知识的查询和检索操作比较频繁时,其效率上的劣势也会凸显。并且,rdf的知识表示形式与基于sparql的知识查询也会带来一些使用上的不便。因此,对基于关系数据库的知识存储方式进行改进,利用图数据库来存储知识图谱。
[0055]
具体的,采用neo4j图数据库建设存储知识图谱。neo4j是目前使用率最高的图数据库,拥有活跃的社区,系统查询效率高,并且免费、开源。neo4j图数据库基于java实现,兼容acid特性,支持其他编程语言,如ruby和python等。neo4j是一个基于图存储的nosql数据库。它具有图数据库的优良特性,能够完美地对知识图谱领域内的实体和关系进行映射,且对于高连接关系的数据具有良好性能。目前,市面上基于图存储的数据库众多,质量和性能参差不齐。文献显示,neo4j在查询和存储等方面的性能均优于其他数据库,在业界具有广泛的应用。本项目选用neo4j作为存储知识图谱的数据库。
[0056]
neo4j中包含两种基本的数据类型:节点和边,其中,节点表示知识图谱中的实体,边表示知识图谱中实体间的关系,在neo4j中,本发明的实体类型如下:
[0057]
1)技术环节:低碳电力的所在的电力产业链环节
[0058]
2)技术领域:低碳电力的相关技术领域;
[0059]
3)技术方向:低碳电力的相关技术方向;
[0060]
4)研究成果:论文、专利及其他成果物;
[0061]
5)学者:专家、学者、研究人员;
[0062]
6)关键词:论文的关键词;
[0063]
7)机构:研究单位。
[0064]
各实体间的关联关系如图1所示。
[0065]
图数据支持以类似sql的标准语句对图数据库进行检索。以查询“输配电工程、电力网及电力系统”的研究领域的论文及关键词为例,提交的查询语句如下:
[0066]
match m=(d:domain)
‑‑
》(sd:sub_domain)
‑‑
》(a:article)
‑‑
》(k:keyword)where d.domainname="输配电工程、电力网及电力系统"return m;
[0067]
步骤4,可视化显示步骤,采用星空图对搜寻的知识图谱进行展示。
[0068]
1)节点表示电力行业的技术领域,比如电气测量技术及仪表、高压电技术、输配电技术、能源互联网等;
[0069]
2)各技术领域通过关键词、作者、研究单位等属性建立连接关系;
[0070]
3)节点的大小表示技术领域的热度,比如文章数量、研究者的数量或者被引用的次数;
[0071]
4)连接线的粗细表示被引用的次数或者二者之间关系的强弱;
[0072]
5)关键技术为中心度高的技术节点;
[0073]
6)行业图谱与公司图谱的节点的中心度表示公司行业的发展水平。
[0074]
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
技术特征:
1.一种低碳电力技术知识图谱构建方法,其特征在于,包括如下步骤:步骤1,知识建模步骤,对低碳电力技术知识图谱的本体库进行构建;步骤2,知识抽取步骤,本体库构建完成后,将本体库中的本体及属性实例化,完成对知识图谱中数据层的填充;步骤3,知识存储步骤,采用图数据库来存储知识图谱;步骤4,可视化显示步骤,采用星空图对搜寻的知识图谱进行展示。2.根据权利要求1所述的一种低碳电力技术知识图谱构建方法,其特征在于,步骤1,知识建模步骤具体包括如下步骤:步骤1.1,明确本体库的领域及构建的目的,为构建的是一个低碳电力技术领域的本体库,需要完成对低碳电力技术相关知识的抽象,继而构建一个服务于低碳电力技术领域科技创新工作的知识图谱,并借助其提升科技创新管理和决策水平;步骤1.2,抽象出领域内实体的相关概念,确定知识图谱包含以下要素类别:技术领域、技术方向、研究成果、关键词、研究人员、研究机构及其相关属性;步骤1.3,导入数据形成原始数据表,从中国知网中国学术期刊全文数据库导入2000年迄今的电力低碳技术相关文献,形成原始数据表;步骤1.4,根据原始数据表特点进行多轮数据清洗,剔除存在较多及明显问题的数据,尝试对单位和作者之间的关系进行梳理,形成相对较为规范的数据表;步骤1.5,定义用于代表领域内相关概念的类,结合概念模型和清洗后的数据表建立类,包括技术领域、技术方向、研究人员、关键词、研究机构、期刊名称6个类;步骤1.6,定义实体的属性以及值域,在数据清洗的基础上进一步明确定义实体的属性以及值域,本体中的实体属性分为两类,分别为对象属性和数据属性;对象属性用于描述对象之间的关系,其值域为一个实体对象;数据属性用于描述实体的固有属性,并且具有传递性,即上位实体拥有的数据属性,下位实体也继承该属性,数据属性的值域为一个数值。3.根据权利要求1所述的一种低碳电力技术知识图谱构建方法,其特征在于,步骤2,知识抽取步骤的具体方法为,将基于经过预处理的结构化数据,从中抽取实体、属性及关系的知识,将数据库中的数据转化为用rdf形式表示的知识,依次构建研究领域实体、构建研究子领域实体,以及构建研究领域与子领域实体关系。4.根据权利要求1所述的一种低碳电力技术知识图谱构建方法,其特征在于,步骤3,知识存储步骤采用neo4j图数据库建设存储知识图谱,neo4j中包含两种基本的数据类型:节点和边,其中,节点表示知识图谱中的实体,边表示知识图谱中实体间的关系,在neo4j中,本发明的实体类型如下:1)技术环节:低碳电力的所在的电力产业链环节2)技术领域:低碳电力的相关技术领域;3)技术方向:低碳电力的相关技术方向;4)研究成果:论文、专利及其他成果物;5)学者:专家、学者、研究人员;6)关键词:论文的关键词;7)机构:研究单位。5.根据权利要求1所述的一种低碳电力技术知识图谱构建方法,其特征在于,步骤4,采
用星空图对搜寻的知识图谱进行展示时,节点表示电力行业的技术领域,各技术领域通过关键词、作者、研究单位等属性建立连接关系,节点的大小表示技术领域的热度,连接线的粗细表示被引用的次数或者二者之间关系的强弱,关键技术为中心度高的技术节点,行业图谱与公司图谱的节点的中心度表示公司行业的发展水平。
技术总结
本发明公开了一种低碳电力技术知识图谱构建方法,包括如下步骤:步骤1,知识建模步骤,对低碳电力技术知识图谱的本体库进行构建;步骤2,知识抽取步骤,本体库构建完成后,将本体库中的本体及属性实例化,完成对知识图谱中数据层的填充;步骤3,知识存储步骤,采用图数据库来存储知识图谱;步骤4,可视化显示步骤,采用星空图对搜寻的知识图谱进行展示。本发明能够实现低碳电力知识信息的高效准确的查询展示。示。示。
技术研发人员:
刘恋 王琛 李文清 赵三珊 王娜 程凡 华珉 高军 李世 陆启宇 张琪祁
受保护的技术使用者:
上海久湛信息科技有限公司
技术研发日:
2022.11.04
技术公布日:
2023/2/23