一种多音字消歧方法、装置、存储介质及设备与流程

阅读：评论：0

1.本技术涉及自然语言处理技术领域，尤其涉及一种多音字消歧方法、装置、存储介质及设备。

背景技术：

2.随着人工智能技术的不断突破和各种智能终端设备的日益普及，人机语音交互在人们日常工作、生活中出现的频率越来越高，能够为人们带来极大的便利，而语音合成(text to speech,tts)正是人机语音交互框架的重要组成，用于将文本转换为语音。在中文tts系统中，字音转换是必不可少的一环，用于将中文字符序列转换为拼音序列。虽然大多数汉字只有一个发音，但部分汉字对应多个发音，即，存在多音字。它们在不同的上下文中会对应不同的发音，如果选择了不准确的发音，将对语义和用户体验产生较大影响。因此，如何根据上下文预测多音字的发音，实现多音字消歧，已成为中文tts系统的一项重要任务。
3.目前，在进行多音字消歧时，通常采用预训练bert和全连接层的模型结构，将多音字消歧任务视为分类任务，根据收集的多音字数据来微调模型，然后将待区分的多音字文本输入训练好的模型预测对应的发音，但这种消歧方式仅是简单的从语义表征直接预测发音分类，会存在语义空间与发音空间不匹配的问题，导致消歧结果不够准确，即，同一个发音类别可能对应了不同的语义，进而也导致最终语音合成的效果较差。

技术实现要素：

4.本技术实施例的主要目的在于提供一种多音字消歧方法、装置、存储介质及设备，能够在进行多音字消歧时，有效提高消歧结果的准确率，进而提高语音合成的效果。
5.本技术实施例提供了一种多音字消歧方法，包括：
6.获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；
7.判断所述目标分词是否包含在预先构建的无歧义词典中；
8.若是，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音；
9.若否，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。
10.一种可能的实现方式中，无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的；所述判断所述目标分词是否包含在预先构建的无歧义词典中，包括：
11.利用预设的查词典的方式，查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。
12.一种可能的实现方式中，所述多音字消歧模型的构建方式如下：
13.根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征；
14.获取包含训练多音字的训练文本，并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练，生成所述多音字消歧模型。
15.一种可能的实现方式中，所述目标损失函数为交叉熵损失函数。
16.一种可能的实现方式中，所述方法还包括：
17.获取包含验证多音字的验证文本；
18.将所述验证文本输入至所述多音字消歧模型，预测得到所述验证文本中验证多音字的验证发音；
19.当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时，将所述验证文本重新作为所述训练文本，对所述多音字消歧模型进行更新。
20.一种可能的实现方式中，所述将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音，包括：
21.将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征；
22.将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音。
23.一种可能的实现方式中，所述将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征，包括：
24.将所述目标文本输入至所述多音字消歧模型的bert层和两层全连接层进行编码，得到所述目标文本中目标多音字的语义表征。
25.一种可能的实现方式中，所述将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音，包括：
26.计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度；
27.将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果；
28.根据所述计算结果，确定所述目标文本中目标多音字的发音概率分布，并根据所述发音概率分布，确定所述目标文本中目标多音字的发音。
29.本技术实施例还提供了一种多音字消歧装置，包括：
30.第一获取单元，用于获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；
31.判断单元，用于判断所述目标分词是否包含在预先构建的无歧义词典中；
32.作为单元，用于若判断出所述目标分词是包含在预先构建的无歧义词典中的，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包
含的目标分词中目标多音字的发音；
33.第一预测单元，用于若判断出所述目标分词是不包含在预先构建的无歧义词典中的，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。
34.一种可能的实现方式中，所述无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的；所述判断单元具体用于：
35.利用预设的查词典的方式，查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。
36.一种可能的实现方式中，所述装置还包括：
37.提取单元，用于根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征；
38.训练单元，用于获取包含训练多音字的训练文本，并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练，生成所述多音字消歧模型。
39.一种可能的实现方式中，所述目标损失函数为交叉熵损失函数。
40.一种可能的实现方式中，所述装置还包括：
41.第二获取单元，用于获取包含验证多音字的验证文本；
42.第二预测单元，用于将所述验证文本输入至所述多音字消歧模型，预测得到所述验证文本中验证多音字的验证发音；
43.更新单元，用于当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时，将所述验证文本重新作为所述训练文本，对所述多音字消歧模型进行更新。
44.一种可能的实现方式中，所述第一预测单元包括：
45.输入子单元，用于将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征；
46.匹配子单元，用于将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音。
47.一种可能的实现方式中，所述输入子单元具体用于：
48.将所述目标文本输入至所述多音字消歧模型的bert层和两层全连接层进行编码，得到所述目标文本中目标多音字的语义表征。
49.一种可能的实现方式中，所述匹配子单元包括：
50.计算子单元，用于计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度；
51.求和子单元，用于将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果；
52.确定子单元，用于根据所述计算结果，确定所述目标文本中目标多音字的发音概率分布，并根据所述发音概率分布，确定所述目标文本中目标多音字的发音。
53.本技术实施例还提供了一种多音字消歧设备，包括：处理器、存储器、系统总线；
54.所述处理器以及所述存储器通过所述系统总线相连；
55.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述多音字消歧方法中的任意一种实现方式。
56.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述多音字消歧方法中的任意一种实现方式。
57.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述多音字消歧方法中的任意一种实现方式。
58.本技术实施例提供的一种多音字消歧方法、装置、存储介质及设备，首先获取包含目标多音字的目标文本，并对目标文本进行分词处理，得到目标文本中包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本包含的目标分词中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音；其中，多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。可见，由于本技术是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，有效提升了模型的多音字消歧效果，并利用部分多音字在分词中的发音无歧义的特性，构建了无歧义词典，从而在进行多音字消歧过程中，能够结合该多音字消歧模型、分词信息和无歧义词典，更为准确的确定出多音字的发音，进而能够提高语音合成的效果。
附图说明
59.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
60.图1为本技术实施例提供的一种多音字消歧方法的流程示意图；
61.图2为本技术实施例提供的多音字消歧模型的结构示意图；
62.图3为本技术实施例提供的将目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算的示意图；
63.图4为本技术实施例提供的多音字消歧的整体过程示意图；
64.图5为本技术实施例提供的一种多音字消歧装置的组成示意图。
具体实施方式
65.近年来，语音合成已被广泛应用于智能助手、音箱、车载、小说阅读等场景。在中文tts系统中，字音转换是必不可少的一环，用于将中文字符序列转换为拼音序列。虽然大多数汉字只有一个发音，但部分汉字对应多个发音，即，存在多音字。它们在不同的上下文中会对应不同的发音，如果选择了不准确的发音，将对语义和用户体验产生较大影响。因此，如何根据上下文预测多音字的发音，实现多音字消歧，已成为中文tts系统的一项重要任务。
66.传统的多音字消歧方法大致可以分为两类：一类是基于规则的方法，主要依赖字典的先验知识以及语言专家设计的规则。在基于规则的多音字消歧系统中，精心设计的字典和人工规则是必不可少的。在推理阶段，将输入的句子分割成单词，然后在字典中到相应的发音。但字典并不能涵盖所有多音字情况，专家会根据分词和词性标注等特征设计复杂的规则，以处理未登录词的情况。然而随着规则数目的增加，某一个多音字的上下文环境可能被多条规则所匹配，这就产生了规则冲突，这是基于规则的方法难以解决的问题之一。
67.而另一类常用的多音字消歧义方法则是基于数据驱动的方法，把多音字消歧问题视为机器学习中的分类问题，首先收集包含多音字的语料库并标注多音字的正确读音，然后分别对每个多音字抽取字词、词性等上下文信息，通过机器学习的方法完成多音字消歧。早期受限于数据量和计算能力，研究者采用支持向量机(svm)、似然比等传统机器学习模型建模，相比纯规则模型取得一定提升。近年来随着基于神经网络的深度学习方法在各领域的成功应用，采用循环神经网络(rnn)对多音字消歧任务建模，将其视为分类任务，将文本和额外的词性信息输入blstm预测多音字的发音类别，取得不错的效果。但这一阶段的方法由于语义表征能力受限，不能从语义层面解决多音字问题。
68.为解决传统的基于规则或数据驱动的多音字消歧方法产生的问题，目前在进行多音字消歧时，更多的是采用预训练bert和全连接层的模型结构，将多音字消歧任务视为分类任务，根据收集的多音字数据来微调模型，然后将待区分的多音字文本输入训练好的模型预测对应的发音，具体可以包括两个步骤：第一步是构建基于bert的多音字消歧模型。首先，收集大量包含多音字的文本，人工标注文本中多音字的读音作为训练集，如“我很高兴参加这次音乐[yue4]会”。然后利用海量文本预训练好的语音模型bert(采用开源预训练模型或者自行训练)结合几层简单的全连接层在多音字训练集上微调，将多音字消歧任务视为分类任务，利用交叉熵损失函数训练模型。第二步是将待区分的多音字文本输入训练好的模型，预测对应多音字的发音类别，进而确定多音字的发音。
[0069]
但这种消歧方式仅是简单的从语义表征直接预测发音分类，会存在语义空间与发音空间不匹配的问题，导致消歧结果不够准确，即，同一个发音类别可能对应了不同的语义，进而也导致最终语音合成的效果较差。
[0070]
为解决上述缺陷，提高多音字消歧效果，本技术提供了一种多音字消歧方法，首先获取包含目标多音字的目标文本，并对目标文本进行分词处理，得到目标文本中包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本包含的目标分词中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音；其中，多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。可见，由于本技术是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，有效提升了模型的多音字消歧效果，并利用部分多音字在分词中的发音无歧义的特性，构建了无歧义词典，从而在进行多音字消歧过程中，能够结合该多音字消歧模型、分词信息和无歧义词典，更为准确的确定出多音字的发音，进而能够提高语音合成的效果。
[0071]
为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是
本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0072]
第一实施例
[0073]
参见图1，为本实施例提供的一种多音字消歧方法的流程示意图，该方法包括以下步骤：
[0074]
s101：获取包含目标多音字的目标文本，并对目标文本进行分词处理，得到目标文本中包含所述目标多音字的目标分词。
[0075]
在本实施例中，将需要进行发音消歧的多音字定义为目标多音字，并将其所在的文本定义为目标文本。需要说明的是，并且，本实施例不限制目标文本的来源和获取方式，比如，目标文本可以是从网络平台获取到的新闻文本数据等；本实施例也不限制目标文本的长度，比如，目标文本可以是句子文本、也可以是篇章级文本；本实施例也不限制目标文本的领域，比如，目标文本可以是属于科技领域或医学领域等。
[0076]
可以理解的是，在获取到包含目标多音字的目标文本后，为了能够提高对于目标多音字的消歧效果，进一步可以利用现有或未来出现的分词方法(如开源的ltp分词工具等)，对目标文本进行分词处理，以提取出目标文本中包含目标多音字的目标分词，用以执行后续步骤s102。
[0077]
s102：判断目标分词是否包含在预先构建的无歧义词典中。
[0078]
在本实施例中，通过步骤s101获取到包含目标多音字的目标文本，并确定出目标文本中包含目标多音字的目标分词后，为了能够有效提高对于目标多音字的消歧准确率，进一步可以判断目标分词是否包含在预先构建的无歧义词典中，若是，则继续执行后续步骤s103；若否，则继续执行后续步骤s104，以预测得到目标多音字的发音结果。
[0079]
其中，需要说明的是，汉语的多音字数目众多，《现代汉语词典》共收录了1036个多音字(即歧义词)，如汉字“行”的发音包括了“xing2”和“hang2”等。但其中也有很多多音字是存在于没有发音歧义的多字词中的，从而可以利用这部分多音字在分词中的发音无歧义的特性，构建无歧义词典，即可以将包含这部分多音字的常用词条及其对应的发音存储在系统词典中，构成无歧义词典。这样，通过查词典的方式，即可确定出一部分多音字的读音。
[0080]
并且，可以理解的是，本技术构建的无歧义词典中的分词词条均不是歧义词，所谓的歧义词即多音词，如“同行”表示一起走的意思时的发音为“tong2xing2”，表示从事相同职业时的发音为“tong2 hang2”，这种词是不会存储在无歧义词典中的，无歧义词典中分词词条和发音是一一对应，如“银行”的发音一定为“yin2 hang2”,所以分词正确即可根据无歧义词典确定出准确发音。另外，为提高多音字的消歧准确率，本技术构建的无歧义词典也尽可能覆盖更多的词条，从而保证查词典分词时的词条命中率。所以在构建无歧义词典时，可以先从现代汉语词典等常用词典中筛选含多音字、无发音歧义词条，再滤除其中的歧义词，如“同行”、“教会”、“分子”等，进一步利用字典中没有发音歧义的多音字所在的分词词条及其对应发音构建出无歧义词典。
[0081]
在此基础上，一种可选的实现方式是，可以利用预设的查词典的方式，可以为但不限于哈希值计算的方式，查询出目标分词是否与无歧义词典中的一条分词词条一致，若是，则继续执行后续步骤s103；若否，则继续执行后续步骤s104。
[0082]
s103：若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目
标文本包含的目标分词中目标多音字的发音。
[0083]
在本实施例中，若通过步骤s102判断出目标分词是包含在预先构建的无歧义词典中的，即若查询出目标分词与无歧义词典中的一条分词词条是一致的，则可以将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本包含的目标分词中目标多音字的发音，从而提高了对于目标多音字消歧结果的准确率，进而提高后后续对于目标文本进行语音合成的效果。
[0084]
s104：若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音；其中，多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。
[0085]
在本实施例中，若通过步骤s102判断出目标分词是不包含在预先构建的无歧义词典中的，即若未查询出目标分词与无歧义词典中的任意一条分词词条是一致的，则为了能够有效提高对于目标多音字的消歧准确率，进一步可以将目标文本输入预先构建的多音字消歧模型，从而预测得到目标文本中目标多音字的发音结果。
[0086]
具体来讲，一种可选的实现方式是，在判断出目标分词是不包含在预先构建的无歧义词典中后，进一步的，首先可以将目标文本输入至预先构建的多音字消歧模型，以通过模型提取出目标文本中目标多音字的语义表征(向量)。然后，可以将目标文本中目标多音字的语义表征(向量)与字典中目标多音字对应的每个发音中每条释义的语义表征(向量)进行匹配计算，并根据计算结果预测得到目标文本中目标多音字的发音。
[0087]
其中，需要说明的是，为了能够提高对于目标多音字的消歧准确率，本技术预先利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练，构建了多音字消歧模型，并且对多音字消歧模型的具体网络组成结构不做限定，可根据实际情况进行选取设定。一种优选的实现方式是，如图2所示，该预先构建的多音字消歧模型包括了语义编码器(具体组成结构不做限定，可以采用bert层加两层全连接层构成)、语义匹配层、字典条目存储层和输出层。这样，利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系构建了多音字消歧模型后，可以有效提升了模型的多音字消歧效果，再将目标文本至该多音字消歧模型进行发音消歧处理时，可以有效提高消歧结果的准确率，进而提高后续的语音合成效果。
[0088]
在此基础上，一种可选的实现方式是，当预先构建的多音字消歧模型包括了语义编码器(采用bert层加两层全连接层构成)、语义匹配层、字典条目存储层和输出层时，本步骤s104中“将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音”的具体实现过程可以包括下述步骤s1041-s1044：
[0089]
步骤s1041：将目标文本输入至多音字消歧模型的bert层和两层全连接层进行编码，得到目标文本中目标多音字的语义表征。
[0090]
在本实现方式中，多音字消歧模型的语义编码器是采用bert层和两层全连接层构成，这样，在判断出目标分词不包含在预先构建的无歧义词典中后，进一步可以将目标文本输入多音字消歧模型的bert层和两层全连接层进行语义编码，以得到目标文本中目标多音字(此处将其定义为ci)的语义表征(此处将其定义为zi)，用以执行后续步骤s1042。
[0091]
举例说明：如图2所示，假设目标文本为“听乐队”，将其输入多音字消歧模型的语义编码器(即bert层和两层全连接层)进行语义编码后，可以得到目标多音字c
i“乐”的语义
表征向量zi，以通过后续步骤s1042-s1044确定出“乐”的发音。
[0092]
步骤s1042：计算目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度。
[0093]
需要说明的是，为了能够有效提高对于目标多音字的消歧准确率，本技术引入了字典中多音字语义与发音的对应关系作为先验知识，利用现有或未来出现的特征提取方法，如预训练的bert语言模型，提取出字典中各个多音字对应的每个发音中每条释义的语义表征，并将其存储在多音字消歧模型中。如图2所示，以多音字“乐”为例，字典中对于“乐”存储有4个发音，分别为“le4”、“yue4”、“yao4”、“lao4”，对于发音“le4”来说，如图2所示，其包含了4条释义，分别为“欢喜，快活；快乐，乐不可支，其乐无穷”、“使人快乐的事情；取乐，逗乐”、“对某事甘心情愿；乐此不疲，乐善好施”、“笑；这事太可乐了”；对于发音“yue4”来说，如图2所示，其包含了2条释义，分别为“声音，和谐成调的；音乐，声乐，乐歌”、“姓。”；对于发音“yao4”来说，如图2所示，其包含了1条释义“喜好、欣赏；知者乐水，仁者乐山”；对于发音“lao4”来说，如图2所示，其包含了1条释义“地名用字；河北省乐亭、山东省乐陵”。
[0094]
并且，为便于描述，本技术利用符号c来表示字典中多音字的集合，且c＝{c1,c2,
…
,cn}，其中，n表示字典中多音字的个数；第i个多音字ci对应的发音集合为pi＝{p
i,1
,p
i,2
,
…
,p
i,m
}，其中，m表示第i个多音字ci的发音种类数，如ci为“乐”时，则m为4，m和n均为大于0的正整数。且对于第i个多音字ci的第j个发音p
i,j
来说，其对应的释义集合为e
i,j
＝{e
i,j,1
,e
i,j,2
,
…
,e
i,j,u
}，其中，u表示第i个多音字ci的第j个发音p
i,j
的释义条数，如第i个多音字c
i“乐”的第j个发音p
i,j
为“le4”时，则u为4。其中，可以理解的是，每个多音字的每个发音的释义可以包括但不限于解释定义、常见词组搭配、用例等。且对于第i个多音字ci的第j个发音p
i,j
的第k条释义e
i,j,k
来说，其对应的语义表征(序列或向量)可以定义为s
i,j,k
＝{s
i,j,k,1
,s
i,j,k,2
,
…
,s
i,j,k,l
}，其中，l表示第k条释义e
i,j,k
的token长度(即第k条释义e
i,j,k
的句子长度)，如第i个多音字c
i“乐”的第2个发音p
i,2“yue4”第2条释义e
i,j,2“姓。”的token长度l为2。
[0095]
在此基础上，将提取出的表征释义集合e
i,j
＝{e
i,j,1
,e
i,j,2
,
…
,e
i,j,u
}中的第k条释义e
i,j,k
的上下文语义信息的语义表征s
i,j,k
＝{s
i,j,k,1
,s
i,j,k,2
,
…
,s
i,j,k,l
}，作为为先验词典知识存储在多音字消歧模型的语音空间后，进一步的，可以将其中每一语义表征与通过步骤s1041得到的目标文本中目标多音字ci的语义表征zi进行相似度计算，得到字典中目标多音字ci对应的每个发音中每条释义对应的相似度，并将其定义为a
i,j,k
，用以执行后续步骤s1043。具体计算公式如下：
[0096][0097]
其中，d表示语义表征s
i,j,k,l
的维度。
[0098]
举例说明：如图3所示，仍假设目标文本为“听乐队”，在得到目标多音字c
i“乐”的语义表征向量zi后，可以利用上述公式(1)计算出zi与字典中“乐”对应的四个发音“le4”、“yue4”、“yao4”、“lao4”中每条释义的语义表征之间的相似度a
i,j,k
。
[0099]
步骤s1043：将字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果。
[0100]
在本实现方式中，通过s1042得到字典中目标多音字ci对应的每个发音中每条释
义对应的相似度a
i,j,k
后，如图3所示，进一步可以将字典中目标多音字对应的每个发音中每条释义对应的相似度a
i,j,k
进行求和计算，得到计算结果，并将其定义为w
i,j
，作为对应发音p
i,j
的权重，用以执行后续步骤s1044。具体计算公式如下：
[0101][0102]
其中，a
i,j,k
(k＝1,2,
…
,u)表示发音p
i,j
下的任一条释义对应的相似度。
[0103]
举例说明：如图3所示，仍假设目标文本为“听乐队”，在得到目标多音字c
i“乐”的语义表征向量zi，并利用上述公式(1)计算出zi与字典中“乐”对应的四个发音“le4”、“yue4”、“yao4”、“lao4”中每条释义的语义表征之间的相似度a
i,j,k
后，可以进一步利用上述公式(2)将字典中目标多音字对应的每个发音中每条释义对应的相似度a
i,j,k
进行求和计算，得到计算结果w
i,1
、w
i,2
、w
i,3
、w
i,4
。
[0104]
步骤s1044：根据计算结果，确定目标文本中目标多音字的发音概率分布，并根据发音概率分布，确定目标文本中目标多音字的发音。
[0105]
在本实现方式中，通过步骤s1043将字典中目标多音字对应的每个发音中每条释义对应的相似度a
i,j,k
进行求和计算，得到计算结果w
i,j
后，进一步可以将计算结果w
i,j
经过softmax激活函数预测得到每个发音的概率值，并将其定义为prob
i,j
，以通过模型输出层输出一个表征目标多音字对应发音的分类概率分布(即一组向量)，该向量分布中每一维度的值可以为区间[0,1]中的一个数值，且每一维度的值分别代表了该目标多音字为各个预设发音分类类型的概率值。此时，可将其中最大概率值对应的发音类别作为识别出的该目标多音字对应的发音结果。其中，需要说明的是，由于多音字集合中多音字发音种类最多为5类，因此，预设发音分类类型为五分类，对于发音种类不足五类的多音字，将其对应概率可以设置为0。
[0106]
其中，prob
i,j
的具体计算公式如下：
[0107][0108]
举例说明：基于上述举例，仍假设目标文本为“听乐队”，在得到目标多音字“乐”的语义表征向量zi，并利用上述公式(1)计算出zi与字典中“乐”对应的四个发音“le4”、“yue4”、“yao4”、“lao4”中每条释义的语义表征之间的相似度a
i,j,k
，以及利用上述公式(2)将字典中目标多音字对应的每个发音中每条释义对应的相似度a
i,j,k
进行求和计算，得到计算结果w
i,1
、w
i,2
、w
i,3
、w
i,4
后，进一步可以利用上述公式(3)将计算结果w
i,1
、w
i,2
、w
i,3
、w
i,4
经过softmax激活函数进行预测，并通过模型的输出层输出预测向量为[0.02,0.96,0.01,0.01,0]，可见，第二维度的值0.96最高，因此，该维度对应的发音类别即为目标多音字“乐”对应的发音结果，即目标多音字“乐”的发音为“yue4”。
[0109]
这样，在进行多音字消歧时，如图4所示，首先可以利用现有或未来出现的分词工具(如开源的ltp分词工具)将输入的目标文本进行分词，得到目标分词，然后查询目标分词是否包含在无歧义词典中，若在无歧义词典中查询到该目标分词，则根据词典中标注的拼音输出其发音；否则将目标文本输入到预先训练好的多音字消歧模型，预测其发音分类。
[0110]
接下来，本实施例将对多音字消歧模型的构建过程进行介绍，其中，一种可选的实
现方式是，多音字消歧模型的构建过程具体可以包括以下步骤a1-a2：
[0111]
步骤a1：根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征。
[0112]
在本实现方式是中，为构建多音字消歧模型，需要预先进行大量的准备工作，首先需要根据字典中多音字语义和发音的对应关系，提取出字典中各个多音字对应的每个发音中每条释义的语义表征，并将其以字典条目的形式存储在初始多音字消歧模型的语义空间中，用以执行后续步骤a2。
[0113]
步骤a2：获取包含训练多音字的训练文本，并根据训练文本、语义表征和目标损失函数对初始多音字消歧模型进行训练，生成多音字消歧模型。
[0114]
在本实施例中，为了构建多音字消歧模型，不仅需要提取并存储字典中各个多音字对应的每个发音中每条释义的语义表征，还需要收集大量各个领域(如科技领域、医学领域等)的包含多音字的文本数据，作为训练文本，并通过人工标注出训练文本中多音字的正确发音，如“我很高兴参加这次音乐[yue4]会”等。
[0115]
其中，初始多音字消歧模型可以包括但不限于语义编码器(具体组成结构不做限定，可以采用bert层加两层全连接层构成)、语义匹配层、字典条目存储层和输出层。
[0116]
这样，在获取到训练文本后，进一步首先可以将训练文本输入初始多音字消歧模型的语义编码器，得到样本多音字的语义表征，再将样本多音字的语义表征输入初始多音字消歧模型的语义匹配层，与字典条目存储层存储的字典中样本多音字对应的每个发音中每条释义的语义表征进行匹配计算，得到训练文本中样本多音字的发音概率分布，并通过输出层进行输出，以根据该发音概率分布预测出样本多音字的发音。再利用目标损失函数对初始多音字消歧模型进行训练。其中，一种优选的实现方式是，目标损失函数可以采用交叉熵损失函数。
[0117]
在训练过程中，可以根据目标损失函数的函数值的变化，对初始多音字消歧模型的模型参数进行不断更新，直至目标损失函数的函数值满足要求，比如均达到最小值且变化幅度很小(基本不变)，或者达到预设最大迭代次数(如100次)，则停止模型参数的更新，完成多音字消歧模型的训练，得到训练好的多音字消歧模型。
[0118]
在此基础上，在根据训练文本、字典中各个多音字对应的每个发音中每条释义的语义表征、目标损失函数训练生成多音字消歧模型后，进一步的，还可以利用验证文本对生成的多音字消歧模型进行验证。具体验证过程可以包括下述步骤b1-b3：
[0119]
步骤b1：获取包含验证多音字的验证文本。
[0120]
在本实施例中，为了实现对多音字消歧模型进行验证，首先需要获取包含验证多音字的验证文本，用以执行后续步骤b2，其中，验证文本指的是可以用来进行多音字消歧模型验证的文本信息。
[0121]
步骤b2：将验证文本输入至多音字消歧模型，预测得到验证文本中验证多音字的验证发音。
[0122]
通过步骤b1获取到包含验证多音字的验证文本后，进一步的，可以将验证文本输入至多音字消歧模型，预测得到验证文本中验证多音字的验证发音结果，用以执行后续步骤b3。
[0123]
步骤b3：当验证文本中验证多音字的验证发音与验证文本中验证多音字的对应的
真实发音不一致时，将验证文本重新作为训练文本，对多音字消歧模型进行更新。
[0124]
通过步骤b2预测出验证文本中验证多音字的验证发音结果后，若该预测出的验证多音字的验证发音结果与验证文本中验证多音字对应的真实发音(如通过人工标注的验证多音字的正确发音)不一致时，则可以将验证文本重新作为训练文本，对多音字消歧模型进行参数更新，得到更新后的多音字消歧模型。
[0125]
通过上述实施例，可以利用包含验证多音字的验证文本对多音字消歧模型进行有效验证，当模型预测出的验证发音结果与验证多音字对应的真实发音(如通过人工标注的验证多音字的正确发音)不一致时，可以及时调整更新语多音字消歧模型，进而有助于提高模型对于多音字的消歧精度和准确性。
[0126]
综上，本实施例提供的一种多音字消歧方法，首先获取包含目标多音字的目标文本，并对目标文本进行分词处理，得到目标文本中包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本包含的目标分词中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音；其中，多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。可见，由于本技术是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，有效提升了模型的多音字消歧效果，并利用部分多音字在分词中的发音无歧义的特性，构建了无歧义词典，从而在进行多音字消歧过程中，能够结合该多音字消歧模型、分词信息和无歧义词典，更为准确的确定出多音字的发音，进而能够提高语音合成的效果。
[0127]
第二实施例
[0128]
本实施例将对一种多音字消歧装置进行介绍，相关内容请参见上述方法实施例。
[0129]
参见图5，为本实施例提供的一种多音字消歧装置的组成示意图，该装置500包括：
[0130]
第一获取单元501，用于获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；
[0131]
判断单元502，用于判断所述目标分词是否包含在预先构建的无歧义词典中；
[0132]
作为单元503，用于若判断出所述目标分词是包含在预先构建的无歧义词典中的，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音；
[0133]
第一预测单元504，用于若判断出所述目标分词是不包含在预先构建的无歧义词典中的，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。
[0134]
在本实施例的一种实现方式中，所述无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的；所述判断单元502具体用于：
[0135]
利用预设的查词典的方式，查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。
[0136]
在本实施例的一种实现方式中，所述装置还包括：
[0137]
提取单元，用于根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征；
[0138]
训练单元，用于获取包含训练多音字的训练文本，并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练，生成所述多音字消歧模型。
[0139]
在本实施例的一种实现方式中，所述目标损失函数为交叉熵损失函数。
[0140]
在本实施例的一种实现方式中，所述装置还包括：
[0141]
第二获取单元，用于获取包含验证多音字的验证文本；
[0142]
第二预测单元，用于将所述验证文本输入至所述多音字消歧模型，预测得到所述验证文本中验证多音字的验证发音；
[0143]
更新单元，用于当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时，将所述验证文本重新作为所述训练文本，对所述多音字消歧模型进行更新。
[0144]
在本实施例的一种实现方式中，所述第一预测单元504包括：
[0145]
输入子单元，用于将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征；
[0146]
匹配子单元，用于将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音。
[0147]
在本实施例的一种实现方式中，所述输入子单元具体用于：
[0148]
将所述目标文本输入至所述多音字消歧模型的bert层和两层全连接层进行编码，得到所述目标文本中目标多音字的语义表征。
[0149]
在本实施例的一种实现方式中，所述匹配子单元包括：
[0150]
计算子单元，用于计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度；
[0151]
求和子单元，用于将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果；
[0152]
确定子单元，用于根据所述计算结果，确定所述目标文本中目标多音字的发音概率分布，并根据所述发音概率分布，确定所述目标文本中目标多音字的发音。
[0153]
进一步地，本技术实施例还提供了一种多音字消歧设备，包括：处理器、存储器、系统总线；
[0154]
所述处理器以及所述存储器通过所述系统总线相连；
[0155]
所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述多音字消歧方法的任一种实现方法。
[0156]
进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述多音字消歧方法的任一种实现方法。
[0157]
进一步地，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述多音字消歧方法的任一种实现方法。
[0158]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式
体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0159]
需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0160]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0161]
对所公开的实施例的上述说明，使本领域普通技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的普通技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种多音字消歧方法，其特征在于，包括：获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；判断所述目标分词是否包含在预先构建的无歧义词典中；若是，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音；若否，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。2.根据权利要求1所述的方法，其特征在于，所述无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的；所述判断所述目标分词是否包含在预先构建的无歧义词典中，包括：利用预设的查词典的方式，查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。3.根据权利要求1所述的方法，其特征在于，所述多音字消歧模型的构建方式如下：根据字典中多音字语义和发音的对应关系，提取字典中各个多音字对应的每个发音中每条释义的语义表征；获取包含训练多音字的训练文本，并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练，生成所述多音字消歧模型。4.根据权利要求3所述的方法，其特征在于，所述目标损失函数为交叉熵损失函数。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取包含验证多音字的验证文本；将所述验证文本输入至所述多音字消歧模型，预测得到所述验证文本中验证多音字的验证发音；当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时，将所述验证文本重新作为所述训练文本，对所述多音字消歧模型进行更新。6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音，包括：将所述目标文本输入至预先构建的多音字消歧模型，提取所述目标文本中目标多音字的语义表征；将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音。7.根据权利要求6所述的方法，其特征在于，所述将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算，并根据计算结果预测得到所述目标文本中目标多音字的发音，包括：计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度；
将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算，得到计算结果；根据所述计算结果，确定所述目标文本中目标多音字的发音概率分布，并根据所述发音概率分布，确定所述目标文本中目标多音字的发音。8.一种多音字消歧装置，其特征在于，包括：第一获取单元，用于获取包含目标多音字的目标文本，并对所述目标文本进行分词处理，得到所述目标文本中包含所述目标多音字的目标分词；判断单元，用于判断所述目标分词是否包含在预先构建的无歧义词典中；作为单元，用于若判断出所述目标分词是包含在预先构建的无歧义词典中的，则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音；第一预测单元，用于若判断出所述目标分词是不包含在预先构建的无歧义词典中的，则将所述目标文本输入预先构建的多音字消歧模型，预测得到所述目标多音字的发音；其中，所述多音字消歧模型是利用包含多音字的训练文本，根据字典中多音字语义和发音的对应关系进行训练得到的。9.一种多音字消歧设备，其特征在于，包括：处理器、存储器、系统总线；所述处理器以及所述存储器通过所述系统总线相连；所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。

技术总结

本申请公开了一种多音字消歧方法、装置、存储介质及设备，该方法包括：首先获取包含目标多音字的目标文本，并对其进行分词处理，得到其包含目标多音字的目标分词，然后判断目标分词是否包含在预先构建的无歧义词典中，若是，则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音；若否，则将目标文本输入预先构建的多音字消歧模型，预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型，并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典，从而在多音字消歧过程中，能够结合该多音字消歧模型、分词信息和无歧义词典，更为准确的确定出多音字的发音。确的确定出多音字的发音。确的确定出多音字的发音。