一种知识图谱问答模型的训练方法、对话生成方法及装置与流程

阅读: 评论:0



1.本技术涉及自然语言理解技术领域,尤其涉及一种知识图谱问答模型的训练方法、对话生成方法及装置。


背景技术:



2.知识图谱问答又称kbqa,指利用各种技术和数据对用户提出的自然语言问题直接给出问题答案。kbqa主要通过提取问题中的实体,通过在知识库中查询该实体可以得到以该实体节点为中心的知识库子图,对问句和召回的子图进行编码,排序并返回相似度最高的路径作为答案。其中最重要的过程是输入用户问题与候选路径,输出各个候选路径的排序分数。针对不同的kbqa场景(这里的场景取决于问句中的意图)可对排序结果进行结果选取、阈值选取或者路径桥接等后处理操作,从而获取问题答案。
3.现有技术中,针对不同的kbqa场景,对模型进行训练时通过随机采样的方式从一系列候选路径中选出负样本,并使用正负样本一起训练迭代模型。然而通过随机采样得到的训练样本,其困难程度的随机性较高,随机采样到困难度高的样本概率较低,导致训练出的模型泛化能力较差。


技术实现要素:



4.有鉴于此,本技术提供了一种优化知识图谱问答模型训练样本的方法、对话生成方法及装置,以解决现有技术中对训练样本进行随机采样造成的模型泛化能力差的问题。
5.第一方面,本技术实施例提供了一种知识图谱问答模型的训练方法,所述方法包括:
6.获取正样本图谱路径数据和负样本图谱路径数据。
7.优选地,所述正样本图谱路径数据和负样本图谱路径数据是通过图谱问答标注数据获得的。
8.优选地,所述获取正样本图谱路径数据和负样本图谱路径数据包括:
9.获得至少一条图谱路径数据并确定所述图谱路径数据对应的问题类型。
10.当所述图谱路径数据数量为一条时,所述图谱路径数据中包含该路径连接到的问题类型数据,根据所述问题类型数据确定所述图谱路径数据对应的问题类型。
11.当所述图谱路径数据数量大于一条时,所述图谱路径数据中包含该路径连接到的问题特征节点数据,将所述获得的至少两条图谱路径数据的问题特征节点数据组合起来,确定问题类型。
12.将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据;根据所述正样本图谱路径数据确定负样本图谱路径数据。
13.针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,其中,所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度。
14.优选地,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度包括:
15.通过预训练的相似度度量模型得到所述负样本图谱路径数据与所述正样本图谱路径数据的相似度;
16.根据所述相似度得到所述负样本图谱路径数据的困难度。
17.其中,所述相似度与所述困难度呈负相关关系,即相似度越高表示困难度越低,相似度越低则困难度越高。
18.优选地,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度包括:
19.通过深度学习文本相似度模型对所述负样本图谱路径数据与所述负样本图谱路径数据的相似度进行度量,获得所述负样本图谱路径数据的困难度。
20.选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。
21.优选地,所述选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型,包括:
22.选取初始困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第一训练样本,进行知识图谱问答模型的训练;所述初始困难度是预先设定的;
23.重复执行选取目标困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第二训练样本,训练知识图谱问答模型,直到达到预设条件,得到训练完成的知识图谱问答模型;所述目标困难度根据上一次训练时设置的目标困难度进行确定。
24.第二方面,本技术实施例提供了一种知识图谱问答的对话生成方法,所述方法包括:
25.将给定问题输入知识图谱问答模型。
26.获取与所述给定问题相关的图谱路径数据。
27.将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果,其中,所述相似度与所述排序位次呈正相关关系或负相关关系。
28.知识图谱问答模型输出所述排序位次结果中达到排序位次阈值的图谱路径数据,其中,所述知识图谱问答模型是根据权利要求1-6任意一项所述的方法训练得到的。
29.第三方面,本技术实施例提供了一种知识图谱问答模型的训练装置,所述装置包括:
30.图谱路径数据获取模块,用于获取正样本图谱路径数据和负样本图谱路径数据。
31.困难度度量模块,用于针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,其中,所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度。
32.模型训练模块,用于选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。
33.第四方面,本技术实施例提供了一种知识图谱问答的对话生成装置,所述对话生成装置包括:
34.问题输入模块,用于将给定问题输入知识图谱问答模型。
35.图谱路径数据获取模块,用于获取与所述给定问题相关的图谱路径数据。
36.相似度排序模块,用于将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果。
37.输出模块,用于输出所述排序位次结果中达到排序位次阈值的图谱路径数据。
38.第五方面,本技术实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的知识图谱问答模型的训练方法,或者第二方面所述的知识图谱问答的对话生成方法。
39.第六方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的知识图谱问答模型的训练方法,或者第二方面所述的知识图谱问答的对话生成方法。
40.相较于现有技术,本技术具有如下有益效果:
41.本技术在训练前对于获取到的负样本进行困难度度量,将困难度作为量化数据,实现了对训练样本的区分,并且在训练中可以动态选取不同困难度的训练样本对于知识问答图谱模型进行迭代训练,由于可以通过困难度区分样本并对其进行有目的性的选取,从而使选取的样本困难程度更高,提高了训练出的知识图谱问答模型的泛化能力。
附图说明
42.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术实施例提供的知识图谱问答模型训练方法的一种方法流程图;
44.图2为本技术场景实施例的知识图谱问答模型的训练方法流程图;
45.图3为一种知识图谱问答的对话生成方法流程图;
46.图4为本技术实施例提供的知识图谱问答模型的训练装置的结构示意图;
47.图5为本技术实施例提供的一种知识图谱问答的对话生成装置。
具体实施方式
48.现有技术中,针对不同的kbqa场景,选择训练样本时,通过随机采样的方式从一系列候选路径中随机选出负样本,并与正样本混合组成模型训练样本进行模型迭代训练。
49.然而经研究:通过随机采样得到的训练样本,可能随机采样得到的都是简单样本或简单样本较多,所以其样本困难程度的随机性较高,随机采样到困难度高的样本概率较低,导致训练出的模型泛化能力较差。
50.基于此,本技术通过在训练前对于获取到的负样本进行困难度度量,将困难度作为量化数据,实现了对训练样本的区分,并且在训练中可以动态选取不同困难度的训练样本对于知识问答图谱模型进行迭代训练,得到训练完成的知识图谱问答模型;由于可以通过困难度区分样本并对其进行有目的性的选取,从而使选取的样本困难程度更高,提高了训练出的知识图谱问答模型的泛化能力。
51.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
52.参见图1,图1为本技术实施例提供的知识图谱问答模型训练方法的一种方法流程图,包括:
53.s101:获取正样本图谱路径数据和负样本图谱路径数据。
54.正样本指的是与所述问题类型相关的样本;负样本指的是与所述问题类型不相关的样本,例如,给定问题类型为一种水果,若样本与水果相关则为正样本,若样本与蔬菜有关则为负样本。
55.图谱路径数据指的是知识图谱中各样本的存储路径信息数据,在调用正样本或负样本时可以通过所述图谱路径进行样本数据的调取。
56.在一种可能的实现方式中,所述正样本图谱路径数据和负样本图谱路径数据是通过图谱问答标注数据获得的。
57.其中,图谱问答标注数据指的是在每个样本信息中标注有其所属问题类别信息,例如,一数据为a,其标注信息为b,那么当关于b的问题输入到知识图谱问答模型中时,则会获取到标注为b的数据a。
58.在一种可能的实现方式中,所述获取正样本图谱路径数据和负样本图谱路径数据包括:
59.获得至少一条图谱路径数据并确定所述图谱路径数据对应的问题类型。
60.当所述图谱路径数据数量为一条时,所述图谱路径数据中包含该路径连接到的问题类型数据,根据所述问题类型数据确定所述图谱路径数据对应的问题类型。
61.当所述图谱路径数据数量大于一条时,所述图谱路径数据中包含该路径连接到的问题特征节点数据,将所述获得的至少两条图谱路径数据的问题特征节点数据组合起来,确定问题类型。
62.将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据;根据所述正样本图谱路径数据确定负样本图谱路径数据。
63.s102:针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度。
64.所述困难度度量指的是计算困难度并给出困难度的值。
65.在本技术实施例中,困难度度量是一种量化数据,困难度高低代表了所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度的高低,本技术通过困难度度量的方式得到所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度,并以此为基准进行训练样本的选取,由于引入所述困难度数据,使得训练样本的选取更有目的性,可以通过设置选取较高困难度的训练样本,达到提高模型泛化性的目的。
66.在一种可能的实现方式中,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度包括:
67.通过预训练的相似度度量模型得到所述负样本图谱路径数据与所述正样本图谱路径数据的相似度;
68.根据所述相似度得到所述负样本图谱路径数据的困难度。
69.其中,所述相似度与所述困难度呈负相关关系,即相似度越高表示困难度越低,相似度越低则困难度越高。
70.所述预训练的相似度度量模型是通过对比负样本图谱路径数据与正样本图谱路径数据包含的信息以确定相似度高低的。
71.在一种可能的实现方式中,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度包括:
72.通过深度学习文本相似度模型对所述负样本图谱路径数据与所述负样本图谱路径数据的相似度进行度量,获得所述负样本图谱路径数据的困难度。
73.所述深度学习文本相似度模型指的是使用深度学习的方法训练出的能够对比文本相似度的模型。
74.s103:选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。
75.此步骤也称为迭代过程,指的是重复反馈过程的活动,在此步骤中,所述负样本图谱路径数据的困难度可以视为一个反馈,通过多次选取不同困难度负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本进行模型迭代训练,在训练过程中,模型根据问题类型,从所述训练样本中到正样本图谱路径数据,以此视为一次训练完成;经过多轮训练,最终得到训练完成的知识图谱问答模型。
76.在一种可能的实现方式中,所述选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型,包括:
77.选取初始困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第一训练样本,进行知识图谱问答模型的训练;
78.重复执行选取目标困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第二训练样本,训练知识图谱问答模型,直到达到预设条件,得到训练完成的知识图谱问答模型。
79.所述初始困难度是随机设定的,可以将初始困难度设置最高困难度,也可以将初始困难度设置的较低,然后每次训练选取的样本困难度逐渐增加。
80.所述目标困难度根据上一次训练时设置的目标困难度进行确定,例如上一次训练时设置的目标困难度为0.1,那么接下来训练的目标困难度可以设置为0.2等,具体值可根据需要进行设定,也可以设置一个随时间衰减或上升的函数来进行所述目标困难度的取值。
81.在一种可能的实现方式中,所述预设条件包括:
82.训练轮次,即当训练轮次数达到预设值时停止训练;
83.目标困难度阈值,即当训练样本困难度达到所述目标困难度阈值时停止训练。
84.本技术实施例先获取正样本图谱路径数据和负样本图谱路径数据,并预先对所述负样本图谱路径数据进行困难度度量,然后训练过程中动态选取不同困难度的训练样本进行模型训练,得到训练完成的知识图谱问答模型,通过设置每次训练样本的困难度,可以使训练样本的选择更有目的性,若设置每次训练样本困难度都较高,则训练出的知识图谱问答模型更贴近生活场景,泛化程度更高。
85.上面介绍了本技术实施例提供的知识图谱问答模型的训练方法,下面结合具体的应用场景,对该知识图谱问答模型的训练方法做示例性的说明。
86.参见图2,图2为本技术场景实施例的知识图谱问答模型的训练方法流程图,所述训练方法包括:
87.s201:获得一条图谱路径数据,确定所述图谱路径数据对应的问题类型。
88.其中,所述图谱路径数据中包含该路径连接到的问题节点与对应解,所以可以通过所述问题节点确定所述图谱路径数据对应的问题类型。
89.s202:将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据,并根据所述正样本图谱路径数据确定负样本图谱路径数据。
90.此步骤中,由于所述图谱路径数据中包含问题类型对应的解,所以将所述图谱路径数据确定为正样本图谱路径数据,图谱中其余路径数据均为负样本图谱路径数据。
91.s203:针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度。
92.所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度。
93.s204:获取递增函数,并使用所述递增函数,在每次训练中选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。
94.所述递增函数指的是一种随着训练次数增加,负样本困难度逐渐增加的函数,当然也可以使用递减函数,或设置一个目标困难度阈值即每次都选取困难度达到所述目标困难度阈值的训练样本对模型进行训练。
95.在一种可能的实现方式中,所述递增函数是根据模型训练的需要进行预先设置并由模型最终获取得到的。
96.本场景实施例通过预先获取至少一条图谱路径数据并确定所述图谱路径数据所归属的问题类型,将所述获取到的一条或多条图谱路径数据确定为针对于所述问题类型的正样本图谱路径数据,进而确定负样本图谱路径数据,再通过困难度度量获得各个负样本图谱路径数据的困难度数据,最后通过递增函数在每次训练过程前实现对训练样本困难度进行目的性选取,多次训练后,完成了模型的训练;由于提高了困难度选择的目的性,所以训练出的模型泛化程度更高,本场景实施例可以应用到具体生活场景中。
97.本技术实施例还提供了一种知识图谱问答的对话生成方法,参见图3,所述使用方法具体包括:
98.s301:将给定问题输入知识图谱问答模型。
99.知识图谱问答指的是利用各种技术和数据对设备输入的自然语言问题直接给出问题答案,多见于在线智能回复功能,一般过程为设备输入一给定问题,通过所述知识图谱问答模型将问题归类,并调用相似度最高的图谱路径数据作为答案进行输出。
100.例如,设备输入水果问题,则所述知识图谱问答模型确定问题类型为水果,然后在图谱路径数据中到包含水果的路径数据,将其作为所述水果问题的答案进行输出。
101.在一种可能的实现方式中,所述将给定问题输入知识图谱问答模型可以由设备输入,也可以由其他主体输入。
102.所述知识图谱问答模型是根据上述知识图谱问答模型的训练方法训练得到的。
103.此步骤的作用是使知识图谱问答模型接收到给定问题的信息,以便对所述给定问题进行解答。
104.s302:获取与所述给定问题相关的图谱路径数据。
105.在一种可能的实现方式中,与所述给定问题相关的图谱路径数据是通过图谱路径数据的标注数据获取的。
106.在一种可能的实现方式中,与所述给定问题相关的图谱路径数据包括:
107.正样本图谱路径数据与负样本图谱路径数据,也可以只包括正样本图谱路径数据。
108.s303:将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果。
109.在一种可能的实现方式中,将所述图谱路径数据根据与所述给定问题的相似度进行排序是通过快速排序算法实现的。
110.所述快速排序算法是根据所述相似度的高低进行排序的。
111.在一种可能的实现方式中,所述相似度与所述排序位次呈正相关关系或负相关关系。例如,呈正相关关系时,相似度越高则排序位次越高,相似度越低则排序位次越低;呈负相关关系时,相似度越低则排序位次越高,相似度越高则排序位次越低。
112.s304:知识图谱问答模型输出所述排序位次结果中达到排序位次阈值的图谱路径数据。
113.在一种可能的实现方式中,所述排序位次阈值根据所述相似度与所述排序位次间的关系确定。
114.例如,若所述相似度与所述排序位次间呈正相关关系,则所述排序位次阈值可以设置为最高位次;若所述相似度与所述排序位次间呈负相关关系,则所述排序位次阈值可以设置为最低位次。
115.本技术实施例将所述图谱路径数据根据与所述给定问题的相似度进行排序,并输出所述排序位次结果中达到排序位次阈值的图谱路径数据,由于排序位次体现了相似度的高低,所以本技术实施例实现了利用所述知识图谱问答模型的训练方法训练出的模型输出相似度最高的图谱路径数据。
116.以上为本技术实施例提供的知识图谱问答模型的训练方法的一些具体实现方式,基于此,本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
117.参见图4所示的知识图谱问答模型的训练装置的结构示意图,所述装置包括:
118.图谱路径数据获取模块401,用于获取正样本图谱路径数据和负样本图谱路径数据;
119.困难度度量模块402,用于针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,其中,所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度;
120.模型训练模块403,用于选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。
121.在一种可能的实现方式中,所述图谱路径数据获取模块401包括:
122.第一图谱路径数据获取子单元,用于获取正样本图谱路径数据;
123.第二图谱路径数据获取子单元,用于获取负样本图谱路径数据。
124.在一种可能的实现方式中,所述正样本图谱路径数据和负样本图谱路径数据通过图谱问答标注数据获得。
125.在一种可能的实现方式中,所述正样本图谱路径数据和负样本图谱路径数据通过以下步骤获得:
126.获得一条图谱路径数据,确定所述图谱路径数据对应的问题类型。
127.将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据,并根据所述正样本图谱路径数据获取负样本图谱路径数据
128.其中,所述图谱路径数据中包含该路径连接到的问题节点与对应解,所以可以通过所述问题节点确定所述图谱路径数据对应的问题类型。
129.还可以获得至少两条图谱路径数据,则确定所述图谱路径数据对应的问题类型包括:
130.图谱路径数据中包含该路径连接到的特征节点数据,将所述获得的至少两条图谱路径数据的特征节点数据组合起来,确定至少两条所述获得的图谱路径数据的问题类型。
131.将所述图谱路径数据确定为正样本图谱路径数据,并根据所述正样本图谱路径数据获取负样本图谱路径数据。
132.在一种可能的实现方式中,所述困难度度量模块402包括:
133.相似度度量单元,用于对所述负样本图谱路径数据进行相似度度量,其中,相似度度量使用预训练的相似度度量模型进行,所述相似度与所述困难度呈负相关关系;
134.困难度数据获取单元,用于由相似度度量结果,根据相似度与所述困难度之间的负相关关系得到负样本图谱路径数据的困难度数据。
135.所述预训练的相似度度量模型也可以使用深度学习文本相似度模型替代,通过深度学习的方法分析所述负样本图谱路径数据与所述正样本图谱路径数据的文本相似度获取相似度数据。
136.在一种可能的实现方式中,所述模型训练模块403包括:
137.训练样本选取单元,用于选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本;
138.模型训练单元,用于训练生成知识图谱问答模型。
139.本技术实施例先获取正样本图谱路径数据和负样本图谱路径数据,并预先对所述负样本图谱路径数据进行困难度度量,然后训练过程中动态选取不同困难度的训练样本进行模型训练,通过设置每次训练样本的困难度,可以使训练样本的选择更有目的性,若设置每次训练样本困难度都较高,则训练出的知识图谱问答模型更贴近生活场景,泛化程度更高。
140.本技术实施例还提供了一种知识图谱问答的对话生成装置,参见图5,所述装置具体包括:
141.问题输入模块501,用于将给定问题输入知识图谱问答模型;
142.图谱路径数据获取模块502,用于获取与所述给定问题相关的图谱路径数据;
143.相似度排序模块503,用于将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果;
144.输出模块504,用于输出所述排序位次结果中达到排序位次阈值的图谱路径数据。
145.在一种可能的实现方式中,所述用于将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果包括:
146.所述相似度与所述排序位次呈正相关关系或负相关关系。
147.在一种可能的实现方式中,所述排序位次结果中达到排序位次阈值的图谱路径数据是通过知识图谱问答模型输出的,其中所述知识图谱问答模型是根据前述知识图谱问答模型的训练方法训练得到的。
148.本技术实施例将所述图谱路径数据根据与所述给定问题的相似度进行排序,并输出所述排序位次结果中达到排序位次阈值的图谱路径数据,由于排序位次体现了相似度的高低,所以本技术实施例实现了利用所述知识图谱问答模型的训练方法训练出的模型输出相似度最高的图谱路径数据。
149.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例提供的方案。
150.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的知识图谱问答模型的训练方法,或者本技术任一实施例所述的知识图谱问答的对话生成方法。
151.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的知识图谱问答模型的训练方法,或者本技术任一实施例所述的知识图谱问答的对话生成方法。
152.本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
153.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,rom)/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
154.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
155.以上所述仅是本技术示例性的实施方式,并非用于限定本技术的保护范围。

技术特征:


1.一种知识图谱问答模型的训练方法,其特征在于,所述方法包括:获取正样本图谱路径数据和负样本图谱路径数据;针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,其中,所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度;选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。2.根据权利要求1所述的方法,其特征在于,所述正样本图谱路径数据和负样本图谱路径数据是通过图谱问答标注数据获得的。3.根据权利要求1所述的方法,其特征在于,所述正样本图谱路径数据和负样本图谱路径数据是通过如下步骤获得的:获得至少一条图谱路径数据;确定所述图谱路径数据对应的问题类型;将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据;根据所述正样本图谱路径数据确定负样本图谱路径数据。4.根据权利要求1所述的方法,其特征在于,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,包括:通过预训练的相似度度量模型得到所述负样本图谱路径数据与所述正样本图谱路径数据的相似度;根据所述相似度得到所述负样本图谱路径数据的困难度,其中,所述相似度与所述困难度呈负相关关系。5.根据权利要求1所述的方法,其特征在于,所述针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,包括:通过深度学习文本相似度模型对所述负样本图谱路径数据与所述负样本图谱路径数据的相似度进行度量,获得所述负样本图谱路径数据的困难度。6.根据权利要求1所述的方法,其特征在于,所述选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型,包括:选取初始困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第一训练样本,进行知识图谱问答模型的训练;所述初始困难度是预先设定的;重复执行选取目标困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第二训练样本,训练知识图谱问答模型,直到达到预设条件,得到训练完成的知识图谱问答模型;所述目标困难度根据上一次训练时设置的目标困难度进行确定。7.一种知识图谱问答的对话生成方法,其特征在于,所述方法包括:将给定问题输入知识图谱问答模型;获取与所述给定问题相关的图谱路径数据;将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果,其中,所述相似度与所述排序位次呈正相关关系或负相关关系;知识图谱问答模型输出所述排序位次结果中达到排序位次阈值的图谱路径数据,其中,所述知识图谱问答模型是根据权利要求1-6任意一项所述的方法训练得到的。
8.一种知识图谱问答模型的训练装置,其特征在于,所述装置包括:图谱路径数据获取模块,用于获取正样本图谱路径数据和负样本图谱路径数据;困难度度量模块,用于针对所述负样本图谱路径数据进行困难度度量,获得所述负样本图谱路径数据的困难度,其中,所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度;模型训练模块,用于选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本,训练生成知识图谱问答模型。9.一种知识图谱问答的对话生成装置,其特征在于,所述装置包括问题输入模块,用于将给定问题输入知识图谱问答模型;图谱路径数据获取模块,用于获取与所述给定问题相关的图谱路径数据;相似度排序模块,用于将所述图谱路径数据根据与所述给定问题的相似度进行排序,得到排序位次结果;输出模块,用于输出所述排序位次结果中达到排序位次阈值的图谱路径数据。10.一种知识图谱问答模型的训练设备,其特征在于,所述设备包括:存储器,用于保存所述知识图谱问答模型的训练程序或代码;处理器,用于执行所述知识图谱问答模型的训练程序或代码,以实现权利要求1-6任意一项所述的知识图谱问答模型的训练方法,或者权利要求7所述的知识图谱问答的对话生成方法。

技术总结


本申请提供了一种知识图谱问答模型的训练方法及装置,通过获取正样本图谱路径数据和负样本图谱路径数据,并在训练前对于获取到的负样本图谱路径数据进行困难度度量,将得到的困难度数据作为量化数据,实现了对训练样本的区分,并且在训练中可以动态选取不同困难度的训练样本对于知识问答图谱模型进行迭代训练,由于可以通过困难度区分样本并对其进行目的性选取,从而使选取的样本困难程度更高,提高了训练出的知识图谱问答模型的泛化能力。了训练出的知识图谱问答模型的泛化能力。了训练出的知识图谱问答模型的泛化能力。


技术研发人员:

张学晨

受保护的技术使用者:

太保科技有限公司

技术研发日:

2022.09.15

技术公布日:

2022/12/9

本文发布于:2022-12-16 13:48:28,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/35065.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图谱   所述   样本   路径
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图