G06F17/30
1.一种基于图模型的中文集成实体链接方法,其特征是:
对于给定的文本,首先识别出其中的实体指称项,获取候选实体。然后将实 体指称项及其候选实体视为图节点,实体间的相关性表示边构造实体指称图。最 后在实体指示图应用出入度算法,实现对文本中多个歧义实体的消歧。
2.根据权利要求1所述的方法,其特征在于:
本发明在计算实体相关性时,不完全依赖于知识库固有的知识规模大小。在 知识库不能满足链接所需的知识要求时,通过增量证据挖掘到实体的互动百科页 面寻证据,以便最全面地计算实体相关性。
3.根据权利要求1所述的方法,其特征在于,还包含:
本发明在寻最优可能相关实体指称项时,并不是粗糙地将文本中所有实体 指称项均看做是可能相关的,而是采用依存分析树进行依存路径分析。当两个实 体指称项的依存路径大小在设定值范围内时才看做是最优可能相关的实体指称 项,在进一步判断它们的候选实体在现实世界中是否存在关系,这样可以大大提 高消岐的效率。
4.根据权利要求1所述的方法,其特征在于,还包括:
本发明在对文本中多个歧义实体进行同时消歧时,采用在实体指示图上应用 出入度算法,并根据候选实体的出入度和与先验概率对候选实体进行重要性排 序,选择重要性最大的候选实体作为目标链接对象。该方法简单、有效。
本发明涉及自然语言处理(NLP)领域,具体涉及到实体链接、知识库 扩展、信息抽取、问答系统以及搜索引擎优化。
传统的中文实体链接方法通过比较实体指称项与候选实体的上下文相 似度,然后选取相似度最大的候选作为链接的目标对象。然而这种方法存在缺陷, 首先,它并没有利用文本中实体间的语义相关性,而这种相关性恰恰可以在很大 程度上提高消岐的准确性;其次,传统的中文实体链接方法一次只能对一个歧义 实体进行消歧,效率较低而且相似度比较的方法对于短文本的实体链接并不能取 得很好的效果。
现有的集成实体链接方法在构建实体指示图计算相关度时,将文本中所 有实体指称项均看做是可能相关的,然后在判断它们的候选实体在现实世界中是 否真实地存在关系。该方法是不合理的,因为一个实体指称项在一般情况下只与 文本中的少数实体指称项可能相关。如果将文本中的所有实体指称项均视为可能 相关,在构建实体指示图时会耗费很多不必要的计算时间,增加了计算的成本代 价。
现有的中文知识库较少,而且知识库所包含的实体知识不完整,并不能 很好的满足实体链接的要求。因此,由于受到知识库知识量的限制,实体链接的 整体效果将会受到很大的影响。
本发明提供了一种基于图模型的中文集成实体链接方法。通过寻求最优 的可能相关实体和增量证据挖掘构建实体指示图,对文本中多个歧义实体进行消 歧。用以解决现有实体链接方法中知识库知识不足、构建实体指示图效率低的缺 陷,提供一种更加有效的实体链接方法。
本发明提供一种基于图模型的中文集成实体链接方法,包括:
对于给定的文本,首先识别出其中的实体指称项,获取候选实体。然后 将实体指称项及其候选实体视为图节点,实体间的相关性表示边构造实体指称 图。最后在实体指示图应用出入度算法,实现对文本中多个歧义实体的消歧。
本发明提供一种基于图模型的中文集成实体链接方法,还包括:
在构建实体指示图计算实体相关性时,若当前知识库的知识不能满足实 体链接所需的知识要求(在知识库中不到实体间的关系),则通过增量证据挖掘 到实体的互动百科网页去寻证据。
为了减少构建实体指示图所耗费的时间代价,利用依存路径分析寻最 优可能相关实体指称项。当两个实体指称项的依存路径大小在设定值范围内时才 认为它们可能相关,进一步判断它们的候选实体在现实世界中是否存在关系。
为了能够对文本中的多个实体同时进行消歧,本发明在实体指示图上应 用出入度算法,并根据候选实体的出入度和先验概率对候选实体进行重要性排 序,选择重要性最大的候选实体作为目标链接对象。
与现有技术相比,本发明的有益效果是主要有以下几点:
1.本发明能够同时对文本中的多个实体进行消歧,而且准确率比现有技 术要好。
2.本发明构建实体指示图的效率更高,构建的实体指示图更准确。
为了更清楚地说明本发明,下面将对本发明所需使用的附图作一简单地 介绍:
图1为集成实体链接的流程图
图2为候选实体生成的示意图
图3为实体指示图构造的示意图
图4为集成实体消歧的示意图
本发明的核心思想是:利用实体在知识库中的关系构建实体指示图,将 文本中的实体以及他们的候选实体看做是图的节点,节点之间的边表示它们的语 义相关性。若它们在知识库中不存在关系时,通过增量证据挖掘到实体对应的百 科页面寻证据构建实体指示图。最后在实体指示图上应用出入度算法,由此实 现对同一文本中多个歧义实体的集成链接。
为了使本发明的目的,方法和有点更加清楚,下面结合附图对本发明做 进一步的详细说明。
图1为本发明集成实体链接方法的流程图,如图1所示,基于图模型的 中文集成实体链接的方法主要由候选实体生成、实体指示图构造、集成实体消歧 三部分组成。具体的实施方案如下:
100、候选实体生成
候选实体生成是整个方法的最为基本的一步,如图2所示,其主要包含 实体识别和候选实体的生成两部分。对于步骤201实体识别,本发明借助中科院 的分词工具ICTCLAS的词性标注(nr表人名,ns表地名,nt表机构名,nz表其 他专用名词)进行实体识别。由于中文语言具有一定的特殊性,为了保证实体识 别的准确性和全面性,在利用ICTCLAS词性标注的同时,针对一些专有名词以及 比较难识别的实体名创建一个名字字典。
针对步骤203候选实体的产生,本文采用lucene对知识库进行索引, 比较输入文本中实体指称项与知识库中实体的索引是否相同,如果相同,则将这 些实体当做是文本中实体指称项的候选实体(注:建立知识库时,为每个实体都 建立了索引且同一歧义实体的所有候选实体的索引相同)。
101、实体指示图构造
将实体指称项以及它们的候选实体看做是实体指示图的节点,实体间的 关系表示边。实体指示图是一个有向图,如图3所示,其构造主要包括先验概率 (上下文相似度)和实体相关度的计算以及增量证据挖掘。
候选实体的先验概率给定了输入文本中实体指称项指向该候选实体的 概率大小,对减少图节点的数目,加快实体链接的速度具有重要作用。将实体指 称项的输入文本与其候选实体百科页面的余弦相似度作为候选实体的先验概率, 先验概率小于设定值的候选实体将会被从候选实体集合中删除。
步骤301相关度的计算是图模型的核心,是实体指示图中边建立的依据。 本发明的相关度计算方案如下:
1)利用依存分析树对输入文本进行解析,对每一个实体指称项,根据 依存路径寻其文本中与其最优可能相关的实体指称项,当两实体指称项间的依 存路径大小在设定值范围内时本发明则认为它们可能相关。
2)对于最有可能相关的实体指称项,得到它们的候选实体集合,针对 所有的候选实体节点,首先判断两个实体节点在知识库中是否存在直接关系,若 存在直接关系,则在两个节点之间加一条有向边,方向由关系的起点指向关系的 终点。若两个实体节点在知识库中不存在直接关系,则判断它们在知识库是否存 在间接关系,即两个实体节点是否均与第三个节点有关系,若存在间接关系,则 在两个节点之间加两条方向相反的有向边。
3)若上述条件均不成立或某些实体在知识库中不存在候选实体时,则 通过步骤303增量证据挖掘到实体的百科页面去寻这些节点之间是否存在语 义相关性。如果一个实体节点的百科页面直接包含了另一个实体节点,说明这两 个实体节点之间是相关的,则在这两个实体节点之间加一条有向边,方向由前者 指向后者。若一个实体节点的百科页面没有直接包含另一个实体节点,则判断两 个实体节点的百科页面是否包含一个或者多个相同的第三方实体(当然,该第三 方节点不能是“大众”节点,比如中国在好多实体页面都出现的,但这些实体之 间并不存在什么关系,采用基于规则的方法过滤掉这些链接),若是,则在两个 实体节点间加两条方向相反的有向边。注意同一实体指称项的候选实体之间不加 任何有向边。
102、集成实体消岐
如图4所示,集成实体消歧的核心是步骤401候选实体出入度计算。根 据步骤304输出的实体指示图,计算每个歧义实体的候选实体的出入度之和,然 后根据候选实体的出入度和与先验概率对候选实体进行重要性排序,选择重要性 最大的候选实体节点作为最终的链接对象。
本文发布于:2023-03-31 00:53:29,感谢您对本站的认可!
本文链接:https://patent.en369.cn/patent/3/83071.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |