基于双通道语义增强的多轮对话回复生成方法及终端设备

阅读: 评论:0



1.本发明属于人工智能技术领域,具体涉及基于双通道语义增强的多轮对话回复生成方法及终端设备。


背景技术:



2.随着万物互联和人机交互的兴起,对话系统作为一种应用广泛的沟通媒介,已经垂直深入到智能客服、ai音箱、智慧座舱等诸多场景。同时由于其能够提升信息服务体验和辅助语音指令交互的巨大优势,对话系统拥有着巨大的研究价值和应用价值,其中以多轮对话系统最为突出。多轮对话回复生成,是一种关注连续对话、复杂语义交互的生成式对话,能够根据用户与智能体在某段时间内的交互文本,对用户进行有意义、多样化的流畅回复,近些年来逐步被各国研究人员调研并关注。
3.如今的智能对话系统大多是基于端到端的深度神经网络技术研发的,随着应用场景的普及,对话系统的回复却不能与时俱进,形式较为单一,内容缺少场景价值。其中,连续交互的多轮对话系统研究虽然通过引入常识或固定句式来获得响应质量的提升,但主要挑战却是对上下文进行有效性建模,获得准确语义表示。
4.现有技术中的多轮对话回复生成,在进行语义信息抽取的过程中,由于模型结构和会话历史长序列结构的限制,难以获取准确的查询信息,容易引入语义噪声干扰生成回复,导致生成非理想的响应且鲁棒性较差。


技术实现要素:



5.本发明提供了一种基于双通道语义增强的多轮对话回复生成方法及终端设备,解决了现有技术中多轮对话回复方法存在的回复质量差、且鲁棒性差的技术问题。
6.本发明内容的第一方面公开了一种基于双通道语义增强的多轮对话回复生成方法,包括:
7.获取对话文本的初始词向量
8.获取所述初始词向量的顺序语义表示,包括获取所述初始词向量的话语级句子语义向量,根据所述话语级句子语义向量确定所述初始词向量的对话级句子语义向量,将所述对话级句子语义向量记为顺序语义表示;
9.获取所述初始词向量在图域上的图域语义表示;
10.根据所述顺序语义表示和所述图域语义表示,对所述对话文本进行语义增强,得到增强后的语义表示;
11.根据所述增强后的语义表示,生成回复文本。
12.优选地,获取所述初始词向量的话语级句子语义向量,具体包括:
13.将所述初始词向量依次输入句子层编码器和字词注意力模块,得到话语级句子语义向量;
14.根据所述话语级句子语义向量确定所述初始词向量的对话级句子语义向量,具体
包括:
15.将所述话语级句子语义向量依次输入上下文编码器和句子注意力模块,得到对话级句子语义向量;
16.所述句子层编码器和所述上下文编码器均为双向门控神经网络;
17.所述字词注意力模块和所述句子注意力模块中使用的机制均为注意力机制。
18.优选地,获取所述初始词向量在图域上的图域语义表示,具体包括:
19.获取所述初始词向量的主题关键词,根据所述主题关键词确定异构认知图的节点,所述节点包括“主题-句子簇”节点、对话查询节点、普通节点(不包含主题的对话句子簇);
20.根据所述异构认知图的节点,确定所述异构认知图的边及每条边的权重,所述权重根据所述初始词向量对应的对话文本中句子间主题重合程度确定;
21.利用图神经网络学习所述异构认知图中所述节点的向量表示,获得所述初始词向量在图域上的图域语义表示。
22.优选地,根据所述顺序语义表示和所述图域语义表示,对所述对话文本进行语义增强,具体包括:
23.根据第一公式对所述对话文本进行语义增强,所述第一公式为:
[0024][0025]
式中,c
final
为所述增强后的语义表示,为所述顺序语义表示,为所述图域语义表示,δ为所述顺序语义表示中的语义数量,(1-δ)为所述图域语义表示中的语义数量。
[0026]
优选地,根据所述增强后的语义表示,生成回复文本,具体包括:
[0027]
将所述增强后的语义表示输入至单向门控神经网络中,获取生成回复文本中每个词的隐藏状态;
[0028]
根据所述隐藏状态,确定每个词的生成概率,根据所述生成概率确定回复文本。
[0029]
优选地,将所述增强后的语义表示输入至单向门控神经网络中,获取生成回复文本中每个词的隐藏状态,具体包括:
[0030]
根据第二公式生成回复文本中每个词的隐藏状态,所述第二公式为:
[0031][0032]
式中,yi为训练阶段生成回复文本中的第i个词,y
i-1
为训练阶段生成回复文本中的第i-1个词,为yi的隐藏状态,gru(
·
)表示将其中的参数输入至门控神经网络中,为y
i-1
的隐藏状态,c
final
为所述增强后的语义表示。
[0033]
优选地,根据所述隐藏状态,确定每个词的生成概率,具体包括:
[0034]
根据第三公式确定每个词的生成概率,所述第三公式为:
[0035]
[0036]
式中,为预测阶段生成回复文本中的第i个词,为的生成概率,和别为预测阶段主题关键词词表和回复文本词表中第i个词的生成概率。
[0037]
优选地,所述根据第四公式确定,所述第四公式为:
[0038][0039]
式中,η(
·
)是非线性函数tanh,v为回复文本词表,k为主题关键词词表,为训练阶段生成回复文本中第i个词yi的隐藏状态,y
i-1
为训练阶段生成回复文本中第i-1个词,c
final
为所述增强后的语义表示,vocab表示变量i。
[0040]
优选地,所述根据第五公式确定,所述第五公式为:
[0041][0042]
式中,η(
·
)是非线性函数tanh,v为回复文本词表,k为主题关键词词表,为训练阶段生成回复文本中第i个词yi的隐藏状态,y
i-1
为训练阶段生成回复文本中第i-1个词,c
final
为所述增强后的语义表示,vocab表示变量i。
[0043]
本发明内容的第二方面公开了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0044]
本发明相对于现有技术,具有如下有益效果:
[0045]
本发明是一种顺序和图域双通道协同语义建模及推理的方法,旨在融合不同结构建模中的语义优势,获得跨度更大的信息关联和语义推理。详细来讲,一方面本发明构建对话级异构认知图,图节点是主题语义和句子簇语义的整合,图中边是句子间主题重合的程度,然后利用双门控图神经网络进行深度学习,获得对话上下文在图域上的语义表示;另一方面,在保留的顺序通道中嵌入分层注意力机制获得了对话上下文的顺序语义表示。最后协调两个语义表示的信息贡献进行预测。本发明模型在基准模型上表现优异,而且缓解了长距离的语义依赖问题。
[0046]
本发明有助于推动多轮对话生成的进一步发展,帮助系统更好理解上下文的高层语义信息,也能够从重构的异构认知图结构中重获新的认知,帮助生成多样化,有价值的信息,且鲁棒性佳,提升了用户使用信息服务的满意度和效率。
附图说明
[0047]
图1为本发明实施例的基于双通道语义增强的多轮对话回复生成方法的概要流程
图;
[0048]
图2为本发明实施例的基于双通道语义增强的多轮对话回复生成方法的详细流程图;
[0049]
图3为本发明图神经网路的结构示意图;
[0050]
图4为本发明实施例节点语义表示编码示意图;
[0051]
图5为本发明具体实施例的语义特征的聚合策略;
[0052]
图6为本发明具体实施例的sgdc模型和基线模型在不同上下文长度的测试样本上的性能图。图6中的(a)为数据集dailydialog的ppl值,(b)为数据集mutual的ppl值,(c)为数据集dailydialog的dist-2值,(d)为数据集mutual的dist-2值,(e)为数据集dailydialog的ea值,(f)为数据集mutual的ea值。
具体实施方式
[0053]
下文将结合附图以及具体实施案例对本发明的技术方案做更进一步的详细说明。应当了解,下列实施例仅为示例性地说明和解释本发明,而不应被解释为对本发明保护范围的限制。凡基于本发明上述内容所实现的技术均涵盖在本发明旨在保护的范围内。
[0054]
多轮对话回复生成从实质来看就是一个根据序列预测序列的问题。本发明对多轮对话回复生成建模进行任务化,其归属于自然语言文本生成任务。一个多轮对话序列diag包含m》2轮话语,m∈(1,m]代表第m轮次,对话序列可以用diag={u1,......u
m-1
,um}来表示,其中对话历史(dialogue history)话语序列(u1,......u
m-2
)代表着整个对话上下文的语境信息,对话查询(dialogue query)话语u
m-1
代表着当前的对话进展状态,um是本发明多轮对话回复生成任务要生成的目标话语(target response)。
[0055]
如今的智能对话系统大多是基于端到端的深度神经网络技术研发的,随着应用场景的普及,对话系统的回复却不能与时俱进,形式较为单一,内容缺少场景价值。其中,连续交互的多轮对话系统研究虽然通过引入常识或固定句式来获得响应质量的提升,但主要挑战却是对上下文进行有效性建模,获得准确语义表示。当前最常用的分层编码器解码器框架忽略了这样一个事实,即对话是在连贯的过程中产生的,任两句话语之间在语义上相关且相互补充或者削减。当单独编码每一句话语时而不考虑它们的内在关系时,层次模型可能无法捕捉上下文中的话语连贯性并最终产生非理想的响应。因此基于层次模型的编码器解码器框架仍然在对话历史的上下文语义建模上需要甄别不同语句的贡献程度并进行区别编码。
[0056]
在多轮对话回复生成中,主题信息是根据对话历史提取到的高级语义特征,模型通过整合主题语义提高响应回复信息量和切题度法。但已有研究仅仅是引入或者选择主题来缓解语义稀疏性,主题的向量表示时未考虑和主题所在的特定对话上下文进行语义交互,这种无上下文语境的方式可能会由于自然语言的固有多义性而导致不准确的主题表示和话语句子表示,进而损害响应生成的效果。
[0057]
多轮对话文本输入的向量表示学习从无序的词袋结构逐步稳定到序列结构,语义建模方式也从机器学习方法进展到以循环神经网络和注意力机制为代表的深度学习方法,但囿于序列结构的神经网络学习模式,语义建模仍难以较好解决长距离依赖问题。随着图神经网络在各种各样的nlp子任务中的广泛应用,多轮对话回复生成的任务也急需打破非
欧式空间的桎梏,深入探索自身输入存在的图结构,并依此来建模上下文语境辅助现状下的序列结构建模。
[0058]
本发明的第一方面提供了一种基于双通道语义增强的多轮对话回复生成方法,如图1和图2所示,包括:
[0059]
步骤1、获取对话文本的初始词向量。
[0060]
步骤2、获取初始词向量的顺序语义表示,包括获取初始词向量的话语级句子语义向量,根据话语级句子语义向量确定初始词向量的对话级句子语义向量,将对话级句子语义向量记为顺序语义表示。
[0061]
本步骤的主要目的是通过顺序通道的语义分析,建模对话文本在时序发展上的语境,并形成顺序通道中对话上下文的语义向量表示。为了减少多轮对话流转过程中重要语义的丢失,本步骤在分层架构的编码器中添加了分层注意力聚焦不同粒度的重要语义。分层架构编码器包括句子层编码器和上下文编码器,分层注意力包括字词注意力和句子注意力。
[0062]
步骤2具体包括:
[0063]
步骤21、将初始词向量依次输入句子层编码器和字词注意力模块,得到话语级句子语义向量。其中句子层编码器为双向门控神经网络,字词注意力模块使用的机制为注意力机制。
[0064]
句子层编码器和字词注意力是基于对话上下文的初始化词向量表示来进行话语级的句子语义向量学习的,如公式(1):
[0065][0066]
式中,以ui的话语级句子语义向量学习为例,为双向门控神经网络(bidirectional gatedrecurrentunit,),numi为句子ui的词汇总数,为双向门控神经网络在学习词汇x
j,i
时的相邻隐藏状态输出,w
j,i
为句子ui第j个位置上词汇x
j,i
的初始向量,为句子ui第j个位置上词汇x
j,i
最新的向量表示,也代表双向门控神经网络在学习词汇x
j,i
后的隐藏状态输出。
[0067]
和普通的分层架构的编码器不同的是,本发明没有将最后一个隐藏状态作为句子ui的语义向量,而是使用解码步骤中的s
t-1
和隐藏状态序列进行相似度计算,确定附加在每个隐藏状态上的各自权重{α
1,i

2,i
...α
j,i
},从而加权求和得到ui的语义向量如公式(2)和公式(3)所示:
[0068][0069]
[0070]
式中,η(
·
)代表着relu函数,relu函数能够节省计算,缓解过拟合和梯度消失问题。至此,本发明可以获得话语级的句子语义向量序列
[0071]
步骤22、将话语级句子语义向量依次输入上下文编码器和句子注意力模块,得到对话级句子语义向量,其中上下文编码器为双向门控神经网络,句子注意力模块使用的机制为注意力机制。
[0072]
上下文编码器和句子注意力是基于话语级的句子语义向量来进行对话级的句子语义向量学习的。和上述计算类似:
[0073][0074][0075]
其中,η(
·
)代表着relu函数,为双向门控神经网络(bidirectionalgatedrecurrentunit,),为双向门控神经网络在学习词汇x
t,i
时的相邻隐藏状态输出,β
i,t
为句子ui第t个位置上词汇x
t,i
的权重,为句子ui第t个位置上词汇x
t,i
最新的向量表示,也代表双向门控神经网络在学习词汇x
t,i
后的隐藏状态输出,是上下文编码器获得的输出层的隐藏状态向量,是经过句子注意力加权计算后获得的对话级的句子语义向量表示。是计算了解码状态和上下文编码器的每个隐藏状态的关联权重后加权聚合得到的,能够基于文本的实时申请状况来调整整个对话上下文的最终语义表示。本发明一般将称作称作为对话级句子语义向量,这个对话上下文的最终语义向量代表着顺序通道中经过复杂语义交互学习后的语境,是解码器的重要参照及输入。
[0076]
步骤3、获取初始词向量在图域上的图域语义表示。
[0077]
本发明的主要目的是通过图域通道的显隐式语义分析,建模对话文本跨越时序后的中长距离语义关联,并学习图域通道中对话上下文的语义向量表示。首先,根据对话上下文中的显隐式关系进行图构建,然后设计了新式的图神经网络来学习节点的向量表示,最后通过池化计算来获得最终的语义向量表示。为了减少多轮对话流转过程中重要语义的丢失,本发明在传统的图神经网络层设计了双门控的过滤机制,双门控的机制可以减少节点信息更新时的语义噪声。
[0078]
和最简单的全连接神经网络(mlp)相比,图神经网络技术是在图域结构上进行节点信息更新,计算时除了权重矩阵,还多了一个邻接矩阵a用于聚合计算,如图3所示。在研究中,常见的图神经网络有三大类别,分别是:
[0079]
图卷积神经网络(graph convolution networks,gcn)
[0080]
图卷积神经网络(gcn)分为基于谱域的gcn和基于空间的gcn,后者在gcn的应用中最为广泛,因此本发明着重介绍基于空间的gcn(后面简称gcn)。类似于传统cnn对欧式数据的卷积计算,gcn是根据图域数据中的节点关系来进行卷积的,将中心节点的表示与其邻居的表示进行沿着边进行聚合,以更新中心节点的向量表示,可以适应不同位置和结构,也可以在节点计算时共享权重。节点之间的信息传递计算:
[0081][0082]
其中mk(
·
)和uk(
·
)是具有可学习参数的函数,一般使用全连接神经网络(mlp)。代表v节点在第k层的节点向量,u∈nv代表v节点的邻居节点集合。
[0083]
图注意力网络(graph attention networks,gat)
[0084]
图注意力网络(gat)支持放大邻居节点最重要部分的影响。它在聚合过程中使用注意力机制确定邻域节点的权重,控制多个邻居节点表示向量输入中心节点的语义信息,并生成面向重要目标的随机行走表示。节点之间的信息传递计算:
[0085][0086]
其中wk(
·
)和uk(
·
)是具有可学习参数的函数,一般使用全连接神经网络(mlp)。α(
·
)是一个可以自适应控制邻居节点对v节点语义信息贡献的注意力函数。
[0087]
图时空网络(graph spatial-temporal networks,gstn)
[0088]
图时空网络(gstn)在时空相关性上表现优异,例如交通网络的节点预测等应用场景。gstn可以预测未来的节点值或者标签,以及预测时空图标签,在构建上遵循基于rnn和基于cnn的两种方法。以基于rnn的方法为例,添加图卷积单元可以捕获时空依赖性,节点更新计算为:
[0089][0090]
其中,gconv(
·
)是图卷积单元,av是中心节点在第k层的邻接矩阵,代表着邻居节点和中心节点的关联;rnn(
·
)是经典的循环神经网络计算,详细介绍:
[0091]ht
=σ(u
·
x
t
+w
·ht-1
)
ꢀꢀ
(9)
[0092]
基于此上述步骤3具体包括:
[0093]
步骤31、获取初始词向量的主题关键词,根据主题关键词确定异构认知图的节点,节点包括主题节点、非主题节点和查询节点。
[0094]
本发明通过提取主题关键字将分割后的对话内容进行显隐式连接,构建异构认知图。首先,将整个对话上下文{u1,u2...u
m-1
,um}切分为三部分{u,q,r},分别是对话历史句子{u1,u2...u
m-2
}、对话查询句子{u
m-1
}和回复文本{um},其中对话历史句子距离回复文本较远,代表对话的全局历史信息,对话查询句子紧邻回复文本,代表着对话的短期意图信息,均属粗粒度的语义信息。此外,与长文本分析不同,对话上下文中经常有内容与整个对话流的方向无关,例如“是的,我懂”,因此,本发明提取主题关键字来更好理解对话语境。主题关键字是特殊的命名实体,是分布于整个对话上下文的重要实体,极具辨识度,代表细粒度的
语义信息,可以用来建模对话的语义流动关联。
[0095]
本发明使用词频-逆文档频次算法(term frequency-inverse document frequency,tf-idf算法)进行主题关键词提取,主题关键词是对话文本中能够代表对话语境的高频词汇。
[0096]
步骤32、根据异构认知图的节点,确定异构认知图的边及每条边的权重,权重根据初始词向量对应的对话文本中句子间主题重合程度确定。
[0097]
步骤31和步骤32的实现算法如表1所示。
[0098]
表1异构认知图构建算法
[0099][0100]
算法1展开阐述了由对话文本构建异构认知图的过程。异构认知图的建立是为了支持基于图域通道的认知推理,具体来讲可以利用对话查询,对话历史和主题关键词中的协作信息,执行多跳推理来获得更强的语义交互。其中,本发明使用stanford corenlp(https://stanfordnlp.github.io/corenlp)来进行分词和词性标注等数据处理,但不足以代表对话句子语义,于是使用tf-idf算法进行主题关键词提取,主题关键词是对话文本中能够代表对话语境的高频词汇。
[0101]
在本发明得到主题关键词集合k之后,本发明通过主题关键词在对话句子中的状况来构建图节点。包含某主题k的句子集合和该主题k组成异构认知图中的第一类重要节点,称作vk。可以注意到,某个句子可能包含若干主题关键词,这说明当前句子具有丰富的语义信息,能够和其他类似的句子建立信息交互的连接渠道。当有句子不包含主题关键词时,本发明认为当前句子对于整个对话的语义作用较小,会归纳到特殊的节点v
empty
中。同时,对话查询句子由于最邻接回复文本,因此本发明认为语义作用最为重要,将其归结到另一特殊节点vq。
[0102]
在建立图中节点之间连接时,根据显隐式的关系从上述三类节点{vk,v
empty
,vq}构建边集合e={e
i,j
}。vk为“主题-句子簇”节点、v
empty
为普通节点(不包含主题的对话句子簇),vq为对话查询节点。这里注意,本发明将异构节点特征考虑到后续的节点表示中,边的建立只需要考虑连接的权重。在算法13-17步中,本发明可以看到当节点vi和节点vj共享句子时,本发明添加一条边e
i,j
,共同拥有的句子数越多,两个节点之间的关系越紧密,权重越大。此外,由于两类特殊节点的关联,本发明直接连接两个特殊节点,构建特殊边e
q,e
,这会从查询句子的启发中学到语义噪声中的重要有关信息。
[0103]
步骤33、利用图神经网络学习异构认知图中节点的向量表示,获得初始词向量在图域上的图域语义表示。
[0104]
节点语义表示编码
[0105]
异构认知图上的推理是基于图节点表示的更新和学习的,图节点的初始表示可以给后续图神经网络学习带来正确的引领。以图4为例,本发明计算三种节点的初始向量表示:
[0106]

对于节点v
empty
,本发明对属于节点v
empty
的句子的初始语义向量进行平均池化来获取节点向量ve,当节点v
empty
没有句子集合时,本发明将所有对话历史句子进行平均池化:
[0107][0108]

对于节点vq,本发明直接将对话查询句子的初始向量表示作为节点向量vq:
[0109][0110]

对于节点vk,本发明对属于该节点的主题向量和句子向量进行级联操作,并通过单层全连接网络进行维度转变,以k1主题所在节点为例:
[0111][0112]
在获得三类节点的初始化向量表示后,为了方便后续图神经网络计算,本发明将各节点向量表示{vq,ve,vk}称作{v1,v2...vm},其中m=k+2。
[0113]
节点信息的传递与更新
[0114]
图节点间的消息传递是通过两个步骤实现:信息聚合和信息组合,这个过程可以进行多次(通常称为层或跳)。信息聚合是为了汇聚同层邻接节点的语义交互信息;信息组合是为了将同一节点在不同层的信息进行更新组合。
[0115]
信息聚合关注某一节点如何收集邻接节点的语义信息,本发明关注到当对话持续若干轮后,某一节点的邻接节点数量较多且并不是都能给中心节点带来等价值的语义信息,有些甚至会带来语义噪声。因此,本发明区别于普通的图神经网络,在l层的节点更新时选用gru单元来过滤邻接节点簇的信息内容,缓解语义噪声。具体来讲,门控机制中的重置门r
t
会控制从邻居节点vj到vi的信息流:
[0116][0117]
其中r为所有类型边的集合,为边缘类型为r的节点vi的邻居簇,为某一邻接节点vj在第l层中的节点表示。|
·
|表示邻接节点簇的大小。gru单元定义了聚合邻接信息的转换过程。相邻节点表示的转换,可以通过多层感知机(mlp)实现。表示节点vi在第l层的聚合信息,出于图域结构连接复杂、节点多的考虑,本发明又增加了一个残差连接,避免梯度消失的同时保留自身重要语义:
[0118][0119]
其中,fs是通过多层感知机(mlp)实现的。
[0120]
信息组合侧重将不同层的同一节点表示进行更新组合,获得多跳认知后的信息内容。但已有研究表明,图神经网络在层间推理极易出现平滑问题,平滑问题会导致相似的节点表示,从而丧失信息的辨别能力。为了解决这个问题,本发明会从不同源点控制节点vi从l层到l+1层的信息流大小,这个是在信息组合中添加了一个gate权重:
[0121][0122][0123]
其中,sigmoid(
·
)是通过量化同一节点不同信息源对层间信息更新的贡献程度,来确定权重具体来讲,是决定了信息组合时来自原始节点表示和更新节点表示中的信息数量,类似于灵活的残差机制。η(
·
)为非线性激活函数leaky relu,

表示逐元素乘法,fs、fg均采用单层mlp实现。经过多层消息传递后,所有节点都将拥有它们最终更新后的节点表示。
[0124]
步骤4、根据顺序语义表示和图域语义表示,对对话文本进行语义增强,得到增强后的语义表示。
[0125]
顺序通道经过分层注意力和编码器的递进建模,能够获得在序列对话数据上的语义表示图域通道通过本发明构建的异构认知图和设计的双门控gnn,能够在图上进行对话意图和语义的多跳推理,建立中远距离的多个语义关联表示两个通道的语义结果相辅相成,通过信息协同可以达到整个对话语境的高级语义认知。
[0126]
在图域通道中,通过多跳推理获得了每个节点的语义表示,这个语义表示是在层间汇聚了长距离的信息传递,本发明得到后,为了解码器中方便和顺序通道语
义进行协同,使用权重得分scorei进行诸节点的语义信息管理:
[0127][0128][0129]
其中,是未进入双通道的对话查询句子语义表示,代表最初的对话意图,对生成的回复有着很好的引导作用,所以本发明用来计算节点信息的信息管理权重;numl是语义节点的总数量。
[0130]
在双通道的信息协同模块中,本发明同样使用一个gate机制来控制两个通道语义信息对生成回复解码流程的影响:
[0131][0132][0133]
其中,δ是序列通道输送到解码器的语义数量,1-δ代表图域通道输送到解码器的语义数量。两部分语义通过相加,组合成最终的语义增强后的语义表示c
final
。c
final
是学习了序列语义发展和图域语义关联后的集成语义,在信息集成上侧重了对话查询句子的对话方向,能够辅助解码器精准的解码生成新的词汇。
[0134]
步骤5、根据增强后的语义表示,生成回复文本,具体包括:
[0135]
步骤51、将增强后的语义表示输入至单向门控神经网络中,获取生成回复文本中每个词的隐藏状态。
[0136]
解码器模块部分,本发明使用单向的gru进行解码生成最新隐状态进行整个解码层语义向量的更新,从而获得隐藏状态来获得解码词表的概率分布:
[0137][0138]
其中,是在生成回复文本的第i个词yi时的解码层隐藏状态,c
final
是双通道信息协同之后的语义表示,代表着对话思路清晰后的语义启发,y
i-1
在训练时是本发明回复文本的第i-1个词的向量表示,在预测时用预测文本的第i-1个词的向量表示代替,可以保证回复文本的一致性。
[0139]
步骤52、根据隐藏状态,确定每个词的生成概率,根据生成概率确定回复文本。
[0140]
在解码生成文本时,本发明认为生成回复趋向从主题关键词中进行延伸回复,因此区别于之前的编码器增加了一个主题偏置概率,强制约束该模型会考虑主题发展,相应的生成概率计算为:
[0141][0142]
其中,k和v分别代表主题关键词词表和回复文本词表。相应的,pv和pk的概率值均
由softmax均一化得到:
[0143][0144][0145]
其中,η(
·
)是非线性函数tanh。在训练的过程中,本发明定义θ为可训练的参数,将训练文本划分批次进行训练,通过优化基于负对数似然的交叉熵损失函数来获得最好的模型效果,学习参数也就是梯度反向传导、更新下降的过程,其中:
[0146][0147]
本发明首次提出基于主题增强对话历史理解的细粒度信息交互方法的神经网络模型。本发明的模型一方面利用主题语义和各语句进行细粒度的语义交互,得到对话历史句子们的增强语义表示;另一方面利用对话查询句子引导主题矩阵融合,得到对话意图语义表示。两方面的操作旨在使用主题语义去增强对上下文的理解,从而突破过去无差别使用话题信息的弊端;
[0148]
本发明首次打破对话历史上下文内容的序列结构建模固守思维,提出基于顺序和图域双通道的协同语义建模及推理方法的模型。借鉴推荐系统中的“双塔”模型,我们的双通道模型能够站在图域视角对整个对话上下文进行理解和训练,同时双通道协同语义建模能够做到语义价值的最大化,拓宽了多轮对话系统的研究思路。
[0149]
本发明的基于双通道语义增强的多轮对话回复生成方法可应用在电子商务平台的智能客服系统、仿生ai机器人的语音交互模块、门户网站的新式检索等场景上。此外,也可将其嵌入到军事信息服务中,做到智能筹划分析战况文本和辅助指挥决策等场景中,提升信息服务的效率和交互体验。
[0150]
本发明的方法提升了多轮对话生成回复的流畅性、多样性和合理性、提升生成式对话的鲁棒性,优化了文本语义建模的能力效果。
[0151]
下面,将以更为具体的实施例详述本技术。
[0152]
实验准备:
[0153]
1、研究问题
[0154]
在本发明提出的顺序和图域双通道的协同语义建模及推理模型(sequential and graph dual-channel collaborative,sgdc)中,本实施例提出了以下三个研究问题来指导后续试验:
[0155]
rq1:本技术的sgdc模型在流畅性、相关性和多样性上的表现是否比其他基线模型优异?
[0156]
rq2:整个对话上下文的长度(轮次数)对我们的sgdc模型在多轮对话回复生成上的性能有什么影响?
[0157]
rq3:在模型解码预测回复文本时,顺序和图域双通道的协同方式对我们的sgdc模
型整体性能有影响?
[0158]
2、数据集
[0159]
本实施例选择了dailydialog数据集和mutual数据集进行实验。
[0160]
dailydialog数据集是经过领域内的学者从日常生活中收集来的,共计13118番对话,涵盖教育、旅行、天气和购物等多种话题,能够反映我们人类之间的绝大部分沟通交流。dailydialog语义结构更加规范正式、更具主题价值,并且发言者数量合理,对话轮次不冗余,更具研究和应用价值。
[0161]
mutual数据集是一个高质量的手动注释多轮对话推理数据集,共包含8,860个基于中国学生英语听力理解考试的手动注释对话。与以前对话基准数据集相比,mutual更具推理挑战性。上述两个数据集的情况如表2所述。
[0162]
表2数据集信息
[0163] dailydialogmutual对话数量131188860对话的平均轮数7.94.73句子中的平均词数14.619.57
[0164]
3、实验对照基准模型
[0165]
本实施例选用五种相关的多轮对话生成模型作为基线算法模型和本技术的算法模型进行整体性能的比较,并探讨分析实验效果。基线算法模型的简介如下所述:
[0166]
s2s-att:最流行的编码器-解码器框架,编码器将输入序列编码成中间状态,再利用解码器进行解码生成,编码器和解码器均采用门控神经网络gru,同时在每个时间步的解码器输入添加了attention机制,确保每次预测的词都是与输入文本最相关的。
[0167]
hred:第一个用于响应生成的分层上下文建模方法,它使用话语级gru对每一句进行编码,使用对话级gru将话语向量转换到对话级的向量表示中。相比于普通的s2s框架来说,考虑了“词汇-话语-对话”的三级语义递进,能够帮助每一层级上的信息聚合和传播,从而实现多轮对话历史建模。
[0168]
thred:是在多轮对话生成领域首个引入主题感知的模型,展开来讲,thred是在hred模型的基础上引入主题感知,利用主题-上下文的联合注意力机制进行指导回复的解码。
[0169]
recosa:利用self-attention机制来关联与回复文本最密切相关的对话上下文,是transformer和hred的改良混合模型,在词级别和话语级编码器中均嵌有注意力机制来进行分层建模,目前在多轮对话生成领域中是最先进的性能。
[0170]
此外,为探索双通道语义的协同方式对模型性能的影响,我们根据常见的语义特征聚合技术,构建了三种基线模型,简要介绍如下:
[0171]-avg:采用了均值聚合策略的双通道模型,关注背景语义;
[0172]-max:采用了最大值聚合策略的双通道模型,关注前景语义;
[0173]-concat:采用了均值聚合策略的双通道模型,关注全局语义。
[0174]
语义特征的聚合策略是在若干个语义向量聚合时或者将语义矩阵转化为固定长度向量表示时采用的重要策略,如图5所示,语义特征发生聚合时,能够降低信息冗余、汇聚焦点语义以及防止训练过拟合,这类似卷积神经网络中的池化层的作用。常用的聚合策略
know”的无意义回复,是闲聊型对话系统的必要要求。切题相关性是指回复是否具有现实意义,符合对话场景的话题顺承或者转折,是回复生成任务评判的重要方向。
[0189]
具体实施来讲,为了更好评估基线算法和本技术研究工作的优劣,根据文献(补全)采用困惑度ppl、dist-1和dist-2以及基于embedding的句子相关性指标分别评价生成回复的流畅程度、多样性以及相关性。
[0190]
ppl:根据参考文献,我们使用语言模型困惑度perplexity(ppl)来评估生成文本的流畅程度,ppl值越低,代表生成的回复文本概率越高,词汇排列和搭配越合理,越易理解流畅。其公式为:
[0191][0192]
distinct:本文使用了自动化评估指标distinct-1和distinct-2来评估生成文本的内容多样性。distinct-n的分数值越高,代表着n元组在句子中占有的比例就越高,代表生成的文本富含更多的内容,回复的效果越好。公式计算如下:
[0193][0194]
embedding:区别于ngram方式计算预测和真实之间的重合或者共现程度,基于embedding的评估方式将文本转义到低维语义表征,进而通过文本相似度来衡量相关程度。本实施例使用了greedy matching(gm)、embedding average(ea)和vector extrema(ve)来进行评估。三个评估指标值越大,代表预测文本和真实文本的语义相关性越紧密,回复越切题。
[0195]
greedy matching(gm),嵌入贪婪值度量利用贪婪搜索使得尽量生成与真实文本中关键词相似的词汇或语义,更加细粒度地考虑了单词级的对齐,对长文本评估更加准确,公式计算如下:
[0196][0197][0198]
embedding average(ea),嵌入平均值度量广泛用于测量文本相似性。使用余弦相似度来衡量预测和真实文本的语义向量,其中语义向量是通过平均其组成单词的向量表示来计算短语含义的方法,公式计算如下:
[0199][0200]
vector extrema(ve),嵌入极值度量在计算文本向量时使用词向量各个维度的极值,并如上使用余弦相似度进行衡量比较,其中值得注意的是此种评估指标关注信息极值,即话题信息,因此可以用于衡量切题相关性,公式计算如下:
[0201][0202]
参数设置及实施环境
[0203]
为了公平计较基线算法和本发明算法模型,本发明实施例均采用了adam优化器和pytorch框架,并在训练期间,词嵌入向量均采用随机初始化和模型更新,维度为512维,所有循环神经网络(gru和bigru)单元的输入和输出隐藏维度也是512维,模型学习速率设置为0.0001进行梯度裁剪,每一次迭代参与训练的样本数(批大小)设置为64,并均在nvidia titan rtx gpu的工作站上进行优化训练和验证预测。
[0204]
此外,本实施例的模型中的主题是通过tf-idf进行提取出来的。为了加速训练过程,防止前期训练过程中由于模型误差较大而导致的错误累积,引入teacher forcing机制,将解码器的输入强制修改为目标token,从而减少模型中的错误传递,保证参数可以正常更新。
[0205]
本次工作的软硬件实施配置如下表3所示:
[0206]
表3软硬件实施配置
[0207][0208]
实验结果分析与讨论:
[0209]
1、与基线模型相比的整体性能
[0210]
为了探索rq1问题,本实施例将sgdc模型与dialoguernn框架的基线模型在mutual和dailydialog两个数据集上进行性能比对,流畅性、相关性和多样性的评估结果如表4所示。其中,表现最好的基线模型指标值增加了下划线,最好的评估指标值被加粗。
[0211]
表4 sgdc模型与dialoguernn框架的基线模型的性能比对
[0212][0213][0214]
从表4的实验结果可以看出:
[0215]
1显然,本实施例双通道语义建模的sgdc模型在两个数据集上的绝多数评估优于其他基线模型。两个数据集上显著胜出的模型性能说明了顺序和图域双通道语义协同建模方式的有效性,能够获得dialoguernn框架挖掘不到的语义关联和推理效果。
[0216]
2在相关性维度评估上,我们发现了有趣的现象:以mutual数据集为例,sgdc模型在相关性上评估的三个指标均获较高得分,与最好的基线模型相比,ve和ea得分高出约2%,gm得分高出3.5%,与其他所有基线模型相比,ve、ea和gm得分均高出5%。类似的,在dailydialog数据集上也是如此,但提升没有mutual数据集幅度大。为了解释这种相关性上的能力差距,理解这些模型和数据集的本质很重要,mutual数据集是标注更为严谨的侧重多轮对话推理的数据集,sgdc模型是从不同结构视角挖掘语义联系,顺序通道可以捕获一般的递进语义,图域通道能够在多轮对话中通过边的连接跨越距离壁垒得到长距离的信息依赖,这种双通道的协同建模优势显然优于dialoguernn框架的其他基线模型。
[0217]
3本实施例的得分显著高于recosa,这也许因为本发明的图域通道是基于“主题-句子簇”节点的关系构建的,异构图上语义推理比recosa仅仅关注问答对应的先验机制更为有效,这也说明了本发明的模型可以准确的感知对话的话题方向,因此可以得到与真实回复文本更为紧密的相似度得分,保持在话题上的对话轨迹。
[0218]
4令人惊讶的是,在多样性dist-1和dist-2得分上,本发明的模型和其他基准模型差距不大,这或许是因为本发明语义建模过于追求语义联系,也使用了主题偏置概率,因此丧失了一定的文本多样性,这是对话生成模型难以均衡的一点,不过从场景应用来看,折损可控的多样性可以换来更为紧密相关的回复也是值得的。
[0219]
对话上下文长度对性能的影响
[0220]
为了探索rq2问题,本实施例分析了sgdc模型和基线模型在不同上下文长度的测
试样本上的性能,也就是多轮对话的轮次数量不一样。本实施例将抽样测试集依据对话上下文长度人工分为三组,分别是短篇对话(对话轮次少于5)、中篇对话(对话轮次在6轮到10轮之间)和长篇对话(对话轮次大于10轮)。采用部分客观评估指标评测各模型性能,并且绘制结果如图6。图中每个模型中的三个柱状图由左至右分别指代短篇、中篇和长篇。
[0221]
从实验结果可以看出:
[0222]
1无论是sgdc模型还是基线模型,随着对话篇幅的增加,困惑度得分都出现了不同程度的单调上升,这说明对话篇幅越长,对话的语义建模越复杂,信息关联越难以捕获,并且模型容易受到无关语义噪声影响,导致预测能力下降。
[0223]
2本发明的sgdc模型无论在短篇、中篇还是长篇对话测试集中表现都是优于基线模型的,这证明了本发明模型的鲁棒性。此外,相较于最好的基准模型,sgdc在长篇对话中提升幅度最大,这可以看出sgdc的图域通道的确发挥了捕获长距离语义依赖的作用,在长篇对话语义建模中发挥着独有的能力优势。
[0224]
双通道语义的协同方式对性能的影响
[0225]
为了探索rq3问题,本实施例改变sgdc模型中双通道信息协同的方式,设计了三种变体模型,来探索两个通道语义信息最佳的聚合策略,三个变体模型分别为:
[0226]
·
sgdc
avg
:sgdc
avg
模型选择的是平均化聚合策略,这种协同方式假设在两个通道的语义信息是平等的,因此对于两个语义向量通过平均池化来获得整个上下文的语义表示;
[0227]
·
sgdc
max
:sgdc
max
模型侧重选择最重要的语义特征,采用的是最大化聚合策略,这种协同方式是假设语义向量表示中最大值能反映重要语义,因此对于两个语义向量通过最大池化来获得整个上下文的语义表示;
[0228]
·
sgdc
concat
:sgdc
concat
模型认为两个通道的语义信息是同等重要的,并且不能有任何折损,因此通过语义向量直接组合的方式得到整个上下文的语义表示;
[0229]
表5协同方式对性能影响的结果
[0230][0231]
为了方便比较,我们将上述实验使用的模型称为sgdc
gate
,在表5中记录了sgdc
gate
及其三种变体在mutual和dailydialog两个数据集上的生成效果,其中本实施例选择的是语义相关性的评估指标(gm\ea\ve),可以通过表5中的评估指标差异发现:
[0232]

sgdc
gate
在语义相关性的三个指标上都明显地优于sgdc
avg
和sgdc
max
。这说明双通道的语义信息都有各自的独特性和重要性,只有通过gate机制到最佳聚合策略才能保证语义信息聚合的效益最大化,而sgdc
avg
的平均化聚合策略会可能会导致各自丢失掉重要的语义,sgdc
max
的最大化聚合策略过于聚焦重要语义,属于局部相关,难以捕获语义关联平衡从而丧失回复文本的整体语义相关性。
[0233]

sgdc
gate
在ea和ve的评估上与sgdc
concat
差别不大,但在gm上明显优于sgdc
concat
。这种令人好奇的现象可以从评估指标的具体细节来解释,ea和ve分别衡量预测文本和真实文本词嵌入相似度的平均水平以及极值水平,sgdc
gate
通过gate机制到了聚合的平衡点,sgdc
concat
则照单全收,图域通道的语义增强本身就捕获了长距离依赖,因此两者分别是精准求解和暴力求解的殊途同归,在预测文本的平均水平和极值水平上并未太大差异。而gm值是不仅考虑了词嵌入的相似度,还考量单词之间的对齐,所以属于更加细粒度的评估项,这时gate机制的优势就体现出来,sgdc
gate
能比sgdc
concat
过滤更为细粒度的语义噪声。
[0234]
本发明借鉴图神经网络技术的丰富研究思路,提出了基于顺序和图域双通道的协同语义建模及推理方法,并设计了基于图上节点的双门控图神经网络。并且,本发明的模型在开放域数据集和对话推理数据集上均进行了实验验证,实验结果表明了双通道的协同语义建模及推理方法在各项评估项上的优势,同时随着对话轮次的增加,本发明的模型依然具备很好的鲁棒性。
[0235]
本发明从内容特征的剖析再利用和结构特征的双通道增强入手,提出的模型方案具有比较好的实际应用价值:
[0236]
(1)生成式对话方法只考虑了序列结构的递进语义,忽略了远距离的上下文强关联交互。如何有效全面利用上下文信息,本发明采用了最直接的办法,也就是打破序列结构,借鉴人类对话时反复思考的思维方式,利用上下文信息设计一个可以认知推理的异构图,这种“破而后立”的思路可以拓展研究的有效性。
[0237]
(2)在图神经网络更新节点表示的信息传递过程中,本发明设计了双门控gnn,通过信息聚合的gru单元和信息组合的gate机制进行信息传递的过滤筛选。这种设计可以有效过滤语义噪声,抓住关键语义信息,是在对话生成领域的一次尝试。
[0238]
本发明的第二方面提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0239]
本发明提出了顺序和图域双通道协同语义建模及推理的方法,旨在融合不同结构建模中的语义优势,获得跨度更大的信息关联和语义推理。详细来讲,一方面本发明构建对话级异构认知图,图节点是主题语义和句子簇语义的整合,图中边是句子间主题重合的程度,然后利用双门控图神经网络进行深度学习,获得对话上下文在图域上的语义表示;另一方面,在保留的顺序通道中嵌入分层注意力机制获得了对话上下文的顺序语义表示。最后协调两个语义表示的信息贡献进行预测。本发明模型在基准模型上表现优异,而且缓解了长距离的语义依赖问题。
[0240]
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围的情况下,都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

技术特征:


1.一种基于双通道语义增强的多轮对话回复生成方法,其特征是,包括:获取对话文本的初始词向量;获取所述初始词向量的顺序语义表示,包括获取所述初始词向量的话语级句子语义向量,根据所述话语级句子语义向量确定所述初始词向量的对话级句子语义向量,将所述对话级句子语义向量记为顺序语义表示;获取所述初始词向量在图域上的图域语义表示;根据所述顺序语义表示和所述图域语义表示,对所述对话文本进行语义增强,得到增强后的语义表示;根据所述增强后的语义表示,生成回复文本。2.如权利要求1所述的方法,其特征是,获取所述初始词向量的话语级句子语义向量,具体包括:将所述初始词向量依次输入句子层编码器和字词注意力模块,得到话语级句子语义向量;根据所述话语级句子语义向量确定所述初始词向量的对话级句子语义向量,具体包括:将所述话语级句子语义向量依次输入上下文编码器和句子注意力模块,得到对话级句子语义向量;所述句子层编码器和所述上下文编码器均为双向门控神经网络;所述字词注意力模块和所述句子注意力模块中使用的机制均为注意力机制。3.如权利要求1所述的方法,其特征是,获取所述初始词向量在图域上的图域语义表示,具体包括:获取所述初始词向量的主题关键词,根据所述主题关键词确定异构认知图的节点,所述节点包括主题-句子簇节点、对话查询节点和普通节点;根据所述异构认知图的节点,确定所述异构认知图的边及每条边的权重,所述权重根据所述初始词向量对应的对话文本中句子间主题重合程度确定;利用图神经网络学习所述异构认知图中所述节点的向量表示,获得所述初始词向量在图域上的图域语义表示。4.如权利要求1所述的方法,其特征是,根据所述顺序语义表示和所述图域语义表示,对所述对话文本进行语义增强,具体包括:根据第一公式对所述对话文本进行语义增强,所述第一公式为:式中,c
final
为所述增强后的语义表示,为所述顺序语义表示,为所述图域语义表示,δ为所述顺序语义表示中的语义数量,(1-δ)为所述图域语义表示中的语义数量。5.如权利要求1-4任一项所述的方法,其特征是,根据所述增强后的语义表示,生成回复文本,具体包括:将所述增强后的语义表示输入至单向门控神经网络中,获取生成回复文本中每个词的隐藏状态;
根据所述隐藏状态,确定每个词的生成概率,根据所述生成概率确定回复文本。6.如权利要求5所述的方法,其特征是,将所述增强后的语义表示输入至单向门控神经网络中,获取生成回复文本中每个词的隐藏状态,具体包括:根据第二公式生成回复文本中每个词的隐藏状态,所述第二公式为:式中,y
i
为训练阶段生成回复文本中的第i个词,y
i-1
为训练阶段生成回复文本中的第i-1个词,为y
i
的隐藏状态,gru(
·
)表示将其中的参数输入至门控神经网络中,为y
i-1
的隐藏状态,c
final
为所述增强后的语义表示。7.如权利要求5所述的方法,其特征是,根据所述隐藏状态,确定每个词的生成概率,具体包括:根据第三公式确定每个词的生成概率,所述第三公式为:式中,为预测阶段生成回复文本中的第i个词,为的生成概率,和分别为预测阶段主题关键词词表和回复文本词表中第i个词的生成概率。8.如权利要求7所述的方法,其特征是,所述根据第四公式确定,所述第四公式为:式中,η(
·
)是非线性函数tanh,v为回复文本词表,k为主题关键词词表,为训练阶段生成回复文本中第i个词y
i
的隐藏状态,y
i-1
为训练阶段生成回复文本中第i-1个词,c
final
为所述增强后的语义表示,vocab表示变量i。9.如权利要求7所述的方法,其特征是,所述根据第五公式确定,所述第五公式为:式中,η(
·
)是非线性函数tanh,v为回复文本词表,k为主题关键词词表,为训练阶段生成回复文本中第i个词y
i
的隐藏状态,y
i-1
为训练阶段生成回复文本中第i-1个词,c
final
为所述增强后的语义表示,vocab表示变量i。10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征是,所述处理器执行所述计算机程序时实现如权利要求1至9任
一项所述方法的步骤。

技术总结


本发明公开了一种基于双通道语义增强的多轮对话回复生成方法及终端设备,方法包括获取对话文本的初始词向量;获取初始词向量的顺序语义表示,包括获取初始词向量的话语级句子语义向量,根据话语级句子语义向量确定初始词向量的对话级句子语义向量,将对话级句子语义向量记为顺序语义表示;获取初始词向量在图域上的图域语义表示;根据顺序语义表示和图域语义表示,对对话文本进行语义增强,得到增强后的语义表示;根据增强后的语义表示,生成回复文本。本发明旨在融合不同结构建模中的语义优势,获得跨度更大的信息关联和语义推理。本发明模型在基准模型上表现优异,而且缓解了长距离的语义依赖问题。离的语义依赖问题。离的语义依赖问题。


技术研发人员:

蔡飞 张伟康 刘诗贤 陈洪辉 毛彦颖 刘登峰 王思远 李佩宏

受保护的技术使用者:

中国人民解放军国防科技大学

技术研发日:

2022.09.16

技术公布日:

2022/12/19

本文发布于:2022-12-20 22:25:06,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/39868.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语义   向量   所述   节点
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图