第39卷第2期注為科修VoL39No.2 2021年4月JIANGXI SCIENCE Apr.2021 doi:10.13990/j.imnl001-3679.2021.02.031
郑薇薇,黄刚
(天一阁博物院,315010,浙江,宁波)
摘要:以天一阁主范钦这一历史人物为主题,提出范钦生平知识图谱模型,对范钦生平知识图谱所涵盖的人物、事件、作#、组织机构、地理文化等多个本体进行了分类、概念定义及关系定义。然后基于该数据模型,采用自顶向下与自底向上相结合的方式构建了范钦生平知识图谱,最后基于构建成果开发了范钦生平主题知识展览系统。研究成果是天一阁藏书文化面向全国观众传播、展示的一次探索,也为博物馆、图书馆等进行文化遗产领域知识图谱构建提供了一种参考。 关键词:知识图谱;模型构建;本体模型;范钦生平;数字展览
中图分类号:TP391文献标识码:A文章编号:1001-3679(2021)02-366-08
Construction and Application of Knowledge Graph of Fanqin's Life
ZHENG Weiwei,HUANG Gang
(Tianyige Museum,315010,Ningbo,Zhejiang,PRC)
Ab&ract:Taking the historical figure of Fanqin,master of Tiaiyige,as the theme,this reseerch proposes a knowledge graph model of FanqinS life,which offers classification,definition and analysis of the characters,eunts,works,orgdnizdtions,geogaphical culture and etc.in Fdnqin's life.
Based on the model,this research has constricted the knowledge graph of Fanqins life by combining both top-down and bottom-up approach^,and has find y developed a knowledge exhi0ition s—-tem of Fanqins life.The reseerch is a new exploration of the dissemination and exhibition of Tiany-ioe book collection culture to the national audiences.It also provides a referencc for museums and li-braies to construct knowledge graphs in tOe field of cultural hOTtage.
Key words:knowledge graph;model conslruction;ontoloay model;life of Fanqin;digital exhibition
0引言
知识图谱是一种基于图的数据结构,由节点 (point)和边(Edge)组成,每个节点表示一个"实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。实体指的是现实世界中的事物,比 如人物、地名、机构、书籍等;关系则用来表达不同实体之间的某种联系。知识图谱不仅可以将互联网中的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。其发展得益于多个研究领域的成果,是知识库、自然语言处理、语义网技术、机器学习、数据挖掘等众多知识领域交叉融合的产物⑴e
文化遗产是人类在社会历史发展过程中创造的具有历史、艺术、科学等价值的文化财富,深入研究和挖掘文化遗产,有利于阐发文化精髓,保护与传承文化遗产,推动中外文化交流互鉴⑵e在
收稿日期:2020-12-29;修订日期:2021-01-19
作者简介:郑薇薇(1977—),女,副研究馆员,从事智慧博物馆研究和建设工作基金项目:浙江省文物保护科技项目。
第2期郑薇薇等:范钦生平知识图谱构建与应用-367-
文化遗产领域,知识图谱目前在国内外已经得到了广泛的应用,国内典型的知识图谱应用案例如上海图书馆的中国家谱知识服务平台、盛宣怀档案知识库等;国外自2010年起,大英博物馆、美国弗利尔美术馆、荷兰国立博物馆等众多大量的国际博物馆均已开展知识图谱相关的项目研究与应用,比如大英博物馆关联开放数据项目⑶、俄罗斯文化遗迹云平台⑷、荷兰国立博物馆知识图谱项目⑸、Europe
ana等,其中Europ e ana是由欧盟各国的图书馆、档案馆和博物馆联合建设的大型数字博物馆,2012年10月,European'数据集的2000万条文字、图像、视频和声音的元数据被转换为关联数据,并可以从data,europeana.eu获得,这些数据给欧洲的文物、文化遗产提供了新的共同接口,构建了文化资源不同概念之间的关联关系的语义知识本体模型⑷。
藏书是一种重要的社会文化现象,藏书活动是在大的社会文化背景下进行的,它受到当时社会文化的制约,同时也影响着当时社会文化的发展。范钦是宁波天一阁藏书楼的创始人,天一阁的藏书在范钦手里得到很大的发展,并代代相传⑺,因此范钦生平研究对于天一阁博物院的历史文化研究与文化价值传播而言具有重要意义。与范钦相关的古籍、历史资料、文物、著作及相关研究文献内容虽然庞大,但是缺乏有效的关联,无法形成具有较强知识性和传播性等互联网展览特征的数据。随着人文大数据的发展,文化遗产数据经历了数字化、结构化、语义化的发展,逐步探索文化遗产中蕴含知识点间更深层次的语义关系⑵o因此,为了更好地展示、保护和研究天一阁藏书文化遗产,天一阁博物院利用知识图谱构建技术将范钦相关资料进行数据挖掘、建立关联关系,构建了范钦生平知识图谱,并在此基础上借助互联网相关技术搭建范钦生平主题知识展览系统,面向全社会观众开放。本文重点阐述了范钦生平知识图谱模型构建、知识图谱构建流程以及范钦主题知识展览系统的设计,就知识图谱如何与该系统进行有效结合,从而实现更好的知识应用进行了探讨。
1范钦生平知识图谱构建
范钦生平知识图谱是文化遗产领域的主题知识图谱,领域知识图谱的构建方法包含了自顶向下、自底向上以及混合的模式。其中,自顶向下的模式是指通过人工整理出领域知识图谱的实体及关系模型进行数据的抽取与知识图谱的构建;自底向上的模式以各类机器学习方法为主,实现自动化的构建岡e—方面,文化遗产领域较为垂直、专业;另一方面,天一阁博物院作为国家公共文化机构,对知识的权威性有着较高要求。因此,为了兼顾专业性与经济性需求,本文采用自顶向下与自底向上相结合的模式进行知识图谱构建。首先,按照自顶向下的模式,由领域专家提出范钦生平知识图谱模型,建立相关实体词表与RDF模型;然后,依据自底向上的模式,采用实体与关系抽取、知识融合、知识存储等流程对半结构化与非结构化的资料进行知识实体的半自动化构建。具体构建流程如图1。
图1范钦生平知识图谱构建流程
1.1知识图谱模型构建
范钦生平知识图谱模型主要建立对范钦生平主题知识图谱数据的描述和交换的数据模型,用来支持范钦主题知识展览系统的数字资源库建设,在系统中描述、保存、管理和使用范钦生平相关数据,并支持基于知识图谱的知识表示和应用。数据模型将覆盖与范钦一生相关的重要人物与事件及范钦本人著作相关内容,包括本体的概念模型、本体关系模型以及知识表示模型e其中本体的概念模型包括知识图谱数据的分类和元数据规范;本体关系模型对本体概念之间的关联关系进行了定义与描述;知识表示模型则从应用出发,定义了知识图谱数据的RDF交换规范。
1.1.1本体的概念模型范钦作为天一阁主,一生喜爱藏书,他不仅是一位藏书家,同时还是明代的一名官员,并且有着丰富的著述,为了便于观众更加全面地了解范钦,从人物特征、时代背景、人物主要成就等多个方面出发,由相关文化领域专家来对范钦生平知识图谱进行本体的概念分类,将知识图谱的本体概念划分为人物、地理文化、事件、作品、文物、机构、政治制度、学术研究8个大类以及对应的16个二级分类
。
-368 -
江西科学2021年第39卷
图2 范钦生平知识本体概念分类
在本体概念完成分类后,对概念进行建模,制 定本体概念对应实体著录的元数据规范。以人物 的概念模型为例,其包含朝代、名称、流派、身份、 生卒年月等属性,与人物、研究文献、生平活动等
其他概念均有关联关系e
图3人物概念模型示例
表1元数据定义及分类
文化领域的知识图谱项目绝大多数基于各种
不同的知识图谱元数据模型,国外相关规范包括
DuDublin Core 元数据(都柏林核心元数据,简称 DC )、CDWA ( Categoaes for the Description of Works of Aa ,艺术品描述类目)、VRA Core ( The
Core Categoaes for Visual Resources VRA 视觉资
料核心类目)、EDM ( Europeana Data Model ,欧洲
数据模型)、CIDOC CRM ( Conceptual Reference
Model ,概念参考模型)、EAD ( Encoding Archivvl Description ,编码文档描述)等。应用较多的为
CIDOC - CRM ⑼模型和Europeana 推出的EDM
模型a ,其中CIDOC - CRM 模型提供了一个通 用并且可扩展的语义框架,以促进对文化遗产信
息的共享共识,该框架可以映射任何文化遗产信 息,并且利用其提供的定义和形式结构可以描述
文化遗产中使用的隐含和显性概念和关系⑷e
本文在综合比较国内外的一些元数据规范的基础 上,本体概念模型的元数据规范主要参考CIDOC -CRM 、CDWA 、《文物馆藏品信息指标体系规
范》,并参考都柏林核心元数据规范定义中对每 个元素的定义方式进行了完善。根据本体概念的
分类,概念对应实体的元数据定义如表1 e 1.1.2本体关系模型本体关系模型是基于本
体概念分类,对概念之间的关系进行定义与描述e 如定义人物(%)与人物(y )之间的关联关系X- >y
序号概念分类
对应实体实体元数据
1
人物
范钦及其亲属、师生、同僚、友人等人人物实例属性包括姓名、基本描述、出生及去世时间、出物
生及去世地点、身份、人物简介、人物生平等e
地理文化人物活动、作品创作及事件发生等相关 地点e
23
事件范钦生平的里程碑事件,以及所处时代 的大事件e
4
作品
范钦创作的文学、史学、美术、学术作品 等e 5
文物与范钦相关的器物、手稿、建筑、遗迹等 文物和文物保护单位e 6
机构与范钦生活时代相关的各个政府与社 会机构e
范钦生活时代的政治制度,如官职、任 官制度e
对范钦及其文学作品相关的学术研究e
7
政治制度8
真空超导学术研究
地点实例属性包括地名(城市名、河流名、山名等)、地 址、坐标、行政级别、分类等e
事件实例属性包括名称、事件简介、起因、经过、结局的 时间及地点、影响事件的相关人物等e
作品实例属性包括名称、基本描述、内容、创作时间及地
点、题材等e
文物实例属性包括名称、基本描述、年代、尺寸、用途、文
物类型、文物等级等e
小型变速箱机构实例属性包括机构名称、创建及消亡时间、地点、类 别、用途等e
官职实例的属性包括名称、官职的品级、官职的职责等e
任官制度实例属性包括名称,选拔标准等e
学术研究实例属性包括名称、类型、作者、内容摘要、出 版机构等
e
第2期郑薇薇等:范钦生平知识图谱构建与应用-369-
分为:父子关系、母子关系、同僚关系、同乡关系等;
定义人物(%)与事件(y)之间的关联关系x->y
为:发起、主导、参与、影响关系等。本文构建的本
体关系模型允许2个实体或概念之间有多个关
系,同时关系之间支持多个继承层级,例如人物
蓄电池恒温箱
(%)与人物(y)之间的血缘关系为第一级,而父子
关系则为第二级,但是在建立关联关系时需要明
无线投票系统确定义为最下层级的关系,便于进行知识推理。
表2本体关系模型示例
序实体(%)实体(y)关系关系
号概念类型概念类型(%->y)分类
1人物人物父子、母子…血缘关系
2人物人物同僚、同乡…社会关系
3人物事件发起、主导、
参与、影响…
/压电陶瓷超声换能器
1.1.3知识表示模型知识表示模型是在本体的概念模型和关系模型基础上进行扩展,采用RDF进行描述,用于知识应用不同场景中更为复杂的关联关系。以人物生平活动的展览为例,将人物生平活动这一事件的实例与事件概念以及时间、地点、人物等实例之间分别建立建立has note、has type、has time-span、took place、is associated with等表达关系。
图4人物生平活动知识表示模型示例
1.2知识图谱构建流程
1.2.1数据获取范钦生平知识图谱模型对数据的分类和定义明确了数据建设的内容,核心数据是范钦生平的事件及相关联的人物、地点等数据以及范钦的个人成就相关的作品、研究文献。根据数据建设内容,选择将天一阁博物院现有与范钦生平相关的馆藏文献、研究出版物、中国历代人物传记资料库(CBDB)、百度百科、等资料作为知识图谱构建的数据来源e数据源中CBDB数据、百度百科、等百科数据是半结构化数据,馆藏文献、范钦生平研究出版物的电子文档等属于非结构化数据e
对于半结构化数据源,通过编写爬虫程序,有针对性地从CBDB数据库提取范钦所处明清时期内的所有相关人物、地点、机构、事件、关系等信息,同时将爬取的实体文本映射到知识图谱本体概念中,形成实体词表(包括实体名称、关系名称及其同义词与关联的核心词汇),然后再以词表为基础对百科
类互联网网页进行结构化文本资源提取e实体词表同时也为非结构化实体数据识别与抽取提供了支撑;对于非结构化数据,则将部分纸质文档提前进行扫描、文本识别及基础的著录工作,为知识抽取做准备e
1.2.2知识抽取知识抽取是对知识实体与关系进行抽取e对于结构化数据或者半结构化数据而言,直接通过本体进行数据映射和知识融合即可完成抽取,但是对于非结构化数据而言,则需要基于文本的实体发现与关系抽取来实现e目前,基于深度学习的知识抽取技术超过了传统的基于特征和核函数的方法e但是,由于文化遗产领域还缺少足够的标注语料,深度学习在文化遗产领域的知识提取优势不明显e因此,本文利用依存句法分析结合文化遗产领域知识,来实现实体发现和关系抽取,采用开源工具HanLP作为依存句法分析工具,抽取出三元组e在数据获取过程中,通过对半结构化数据抽取获取建立了实体词表,已经抽取了大量的实体,再通过实体发现进行了补充完善e
实体关系的抽取是知识图谱构建的关键环节,在自然语言处理领域,关系通常主要指代文本中实体之间的联系,如语法关系、语义关系等e可以直观地将关系抽取任务分成3个关键的模块,即为命名实体识别和触发词识别2个预处理模块以及关系抽取模块⑴\本文首先依据数据获取所建立的实体词表为基础,迭代进行命名实体识别,从而获得更多的实体信息;其次,依据本体关系的描述、关系的同义词及关键词进行触发词的分类和识别,判断抽取的关系是正类还是负类;最后,抽取和存储实体关系e以范钦生平的一处文本描述为例:“明嘉靖二十年,袁州为严嵩故乡,其子严世蕃欲夺袁州宣化公宇(
宣化坊),范钦不许,世蕃怒,欲斥之e”根据该文本进行实体关系的抽取结果如表3e
范钦生平中,最为重要的实体是其生平事件,因此事件的关系抽取是实体关系抽取过程的核心e事件是一种描述特定人、物、
事在特定时间和
-370-江西科学2021年第39卷
表3实体类型及关系
命名实体实体触发抽取实体
识别类型词及关系
严嵩、严世蕃人物之子,其子,子X严嵩,父子,严世蕃y
明、嘉靖时间明代、明朝、
明、嘉靖、年
X明嘉靖二十
年y拉丝钢板
袁州地点故乡,出生于,
生于,祖籍
X严嵩,岀生
地,袁州y
怒、反目、仇、X严世蕃,与y
严世蕃,范钦人物憎、恨、势同水
火…发生矛盾,范钦y
特定地点相互作用的客观事实,由一个或者多个角参与的一个或者多个动作组成的事情或者状态的改变e根据已有研究来看,对文本进行序列标注的基于特征提取的方法较为可取e基于特征的方法是根据实体类型、词性、词与词之间的位置、实体前后的词与词性等特征,通过不断迭代与聚合,将具有相同特征的实体组(通常为2个非同类实体)视为同一类型,然后进行实体关系挖掘⑴打如杨雪蓉等采用等基于核心词和实体推理的事件关系识别方法⑴],李卫疆等基于多特征自注意力BLSTM的中文实体关系抽取〔⑷等。
图5是根据特征提取方法,对事件“范钦被郭讯诬陷下诏狱”的依存分析结果,原始文本为“嘉靖十五年,范钦在工部分管内外庙宫,发现郭勋贪污公款,与同事俞咨伯等共同揭发,反遭诬陷,下诏狱句子中“发现”“揭发”“反遭”“诬陷”“诏狱”等核心词基本描述了事件的发生经过和结果e其中范钦、俞咨伯等人名以及嘉靖十五年这一时间也被正确地识别出来e那么通过本文第1章的知识图谱模型中的关系定义,以及提取到的实体词表等建立核心关键词词表,就能够得到以下三元组的事件关系:
X[人物]范钦,[关系]参与,[事件]范钦被诬下诏狱y;
X[人物]俞咨伯,[关系]参与,[事件]范钦被诬下诏狱y;
X[人物]郭勋,[关系]参与,[事件]范钦被诬下诏狱y;
X:事件]范钦发现郭勋贪污公款,:关系]因果,[事件]范钦被诬下诏狱y。
图5事件的依存分析示例
1.2.3知识融合知识融合「切是将从网络大数据公开的碎片化数据中获取的多源异构、语义多样、动态演化的知识,通过冲突检测和一致性检查,对知识进行正确性判断,去粗取精,将验证正确的知识通过对齐关联、合并计算有机地组织成知识图谱e知识融合一般包括实体对齐、实体消歧、关系融合等操作e范钦生平主题知识图谱具有较强的领域性,所以知识融合的主要工作以实体对齐与关系的融合为主e由于数据源来自于多个百科网站以及文献、资料等,提取到的实体信息可能存在差异和重复,实体对齐主要判断从这些数据源提取到的两个或多个实体是否为同一主体,将有相同命名的实体进行对比,包括名称、属性、与其他实体的关系以及标注的知识标签等e 以范钦本人为例,范钦字“尧卿”,号东明,在不同资料当中可能出现“天一阁主”“范东明”等多种称呼,判断2个实体是否为同一人物实体,可以通过姓氏与字号的组合来做对比,同时基于出生时间,以及其人物关系中是否存在重合的部
分来做基本的自动判断;而对于计算机无法判断的疑似重复实体,再结合人工检验来做辅助判断e而关系融合的关键在于确定两个实体是否表达同一种关系,是否是包含关系等E,通过关系的推理配置来进行推理e
1.2.4知识存储通过上述的处理流程,将数据源加工为结构化的三元组数据后,为了便于图数据库的查询、检索应用,知识图谱数据通常采用图数据库进行存储,图数据库基于图数据结构,能够通过链接和键存储实体及其关系,因此支持语义存储e目前常用的图数据库有Neo4j、GraphDB、InfiniteGraph、HugeGraph等。由于Neo4j的用户生态更加完整,也是目前最为主流的图数据库,选