同形异义字的识别方法、装置、电子设备及存储介质与流程

阅读: 评论:0



1.本技术涉及自然语言处理技术领域,尤其涉及一种同形异义字的识别方法、装置、电子设备及存储介质。


背景技术:



2.本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.随着人工智能技术的发展,语音合成技术(text-to-speech,即tts)技术广泛应用于教育产品中。前端的文本处理是tts系统不可或缺的一环,其中的同形异义字消歧旨在根据句子的上下文来预测同形异义字的正确发音。因此,同形异义字消歧任务是影响英语语音合成系统语音正确性的一个长期课题。同形异义字消歧与字到音素(grapheme-to-phoneme,即g2p)任务的不同在于:g2p是将句子中的每一个字到音素的转换,而同形异义字预测只关注同形异义字的发音。g2p也能实现同形异义字到发音的转换,但预测的错误率较高,无法满足实际业务的需求。


技术实现要素:



4.针对上述技术问题,亟需一种能够准确识别同形异义字的方法。
5.基于上述目的,本技术提供了一种同形异义字的识别方法,包括:
6.获取待识别文本;其中,所述待识别文本包括同形异义字;
7.将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;
8.基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;
9.其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素。
10.在一些示例性实施例中,在基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素之前,所述方法还包括:
11.为所述同形异义字发音词典中所有的同形异义字设置标注标签;
12.其中,所述设置标注标签的过程包括:
13.从所述所有的同形异义字中确定目标同形异义字;
14.响应于确定所述目标同形异义字的每种词性均对应一种发音音素,将所述目标同形异义字的每种词性设置为其对应的发音音素的标注标签;
15.响应于确定所述目标同形异义字的目标词性对应有多种发音音素,从所述多种发音因素中确定使用频率最高的发音音素,将所述目标词性设置为所述使用频率最高的发音音素对应的标注标签,并基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。
16.在一些示例性实施例中,基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签,具体包括:
17.从所述其他发音音素中确定目标发音因素;
18.确定所述目标发音音素对应的所述目标同形异义字的目标词义;
19.基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签。
20.在一些示例性实施例中,基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签,具体包括:
21.确定与所述目标词义对应的预设词义类别;其中,所述预设词义类别包括多个不同的词义;
22.基于所述预设词义类别与所述目标词性确定所述目标发音音素对应的标注标签。
23.在一些示例性实施例中,训练所述神经网络模型的过程,包括:
24.使用所述标注标签对所述神经网络模型的样本文本进行标注;
25.通过标注后的样本文本与双重随机失活技术训练所述神经网络模型。
26.在一些示例性实施例中,在通过标注后的样本文本与双重随机失活技术训练所述神经网络模型之前,训练所述神经网络模型的过程,包括:
27.基于未标注的样本文本预训练所述神经网络模型的基准网络模型。
28.在一些示例性实施例中,所述同形异义字发音词典中的每种口音类别对应一种发音音素;基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素,包括:
29.获取所述待识别文本的口音类别;
30.基于所述口音类别以及所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素。
31.在一些示例性实施例中,所述口音类别至少包括美式口音和英式口音。
32.在一些示例性实施例中,在将所述待识别文本输入到训练获得的神经网络模型中之前,所述方法还包括:
33.确定所述同形异义字在所述待识别文本中的目标位置;
34.响应于确定所述目标位置未处于预设位置,在所述待识别文本的开头或结尾填充占位符,以使所述目标位置处于预设位置。
35.基于同一发明构思,本技术示例性实施例还提供了一种同形异义字的识别装置,包括:
36.获取模块,获取待识别文本;其中,所述待识别文本包括同形异义字;
37.标签模块,将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;
38.确定模块,基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素;
39.其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素。
40.在一些示例性实施例中,所述装置还包括标签模块;所述标签模块被配置为:
41.为所述同形异义字发音词典中所有的同形异义字设置标注标签;
42.其中,所述设置标注标签的过程包括:
43.从所述所有的同形异义字中确定目标同形异义字;
44.响应于确定所述目标同形异义字的每种词性均对应一种发音音素,将所述目标同形异义字的每种词性设置为其对应的发音音素的标注标签;
45.响应于确定所述目标同形异义字的目标词性对应有多种发音音素,从所述多种发音因素中确定使用频率最高的发音音素,将所述目标词性设置为所述使用频率最高的发音音素对应的标注标签,并基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。
46.在一些示例性实施例中,所述标签模块具体被配置为:
47.从所述其他发音音素中确定目标发音因素;
48.确定所述目标发音音素对应的所述目标同形异义字的目标词义;
49.基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签。
50.在一些示例性实施例中,所述标签模块具体被配置为:
51.确定与所述目标词义对应的预设词义类别;其中,所述预设词义类别包括多个不同的词义;
52.基于所述预设词义类别与所述目标词性确定所述目标发音音素对应的标注标签。
53.在一些示例性实施例中,所述装置还包括训练模块,所述训练模块被配置为:
54.使用所述标注标签对所述神经网络模型的样本文本进行标注;
55.通过标注后的样本文本与双重随机失活技术训练所述神经网络模型。
56.在一些示例性实施例中,所述训练模块还被配置为:
57.基于未标注的样本文本预训练所述神经网络模型的基准网络模型。
58.在一些示例性实施例中,所述同形异义字发音词典中的每种口音类别对应一种发音音素;所述确定模块具体被配置为:
59.获取所述待识别文本的口音类别;
60.基于所述口音类别以及所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素。
61.在一些示例性实施例中,所述口音类别至少包括美式口音和英式口音。
62.在一些示例性实施例中,所述装置还包括位置模块;所述位置模块被配置为:
63.确定所述同形异义字在所述待识别文本中的目标位置;
64.响应于确定所述目标位置未处于预设位置,在所述待识别文本的开头或结尾填充占位符,以使所述目标位置处于预设位置。
65.基于同一发明构思,本技术示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的同形异义字的识别方法。
66.基于同一发明构思,本技术示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的同形异义字的识别方法。
67.从上面所述可以看出,本技术提供的同形异义字的识别方法、装置、电子设备及存储介质,先获取待识别文本;其中,所述待识别文本包括同形异义字;然后将所述待识别文
本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;最后根据所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素,从而可以准确的获得同形异义字的发音音素,同时可以实现多种口音的同形异义字消歧。
附图说明
68.为了更清楚地说明本技术或相关技术中的技术方案,下面将对示例性实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
69.图1为本技术示例性实施例的应用场景示意图;
70.图2为本技术示例性实施例的一种同形异义字的识别方法的流程示意图;
71.图3为本技术示例性实施例的一种设置同形异义字的标注标签的方法的示意图;
72.图4为本技术示例性实施例的另一种设置同形异义字的标注标签的方法的示意图;
73.图5为本技术示例性实施例的另一种同形异义字的识别方法的流程示意图;
74.图6为本技术示例性实施例的一种同形异义字的识别装置的结构示意图;
75.图7为本技术示例性实施例的一种具体的电子设备的结构示意图。
具体实施方式
76.下面将参考若干示例性实施方式来描述本技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本技术,而并非以任何方式限制本技术的范围。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
77.根据本技术的实施方式,提出了一种同形异义字的识别方法、装置、电子设备及存储介质。
78.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
79.下面参考本技术的若干代表性实施方式,详细阐释本技术的原理和精神。
80.发明概述
81.现有技术中,无法准确的预测同形异义字的发音,且只能针对单一的英文口音进行同形异义字的预测,无法兼顾多种口音类型的同形异义字的发音预测。
82.本技术的发明人发现,相关技术中,针对同形异义字的发音预测,提出了使用机器学习和语言学规则的联合方案,但是该方案的缺点是语言学规则开发成本较高,且不易维护和修改。此外,相关技术中的发音预测的方法都只关注一种口音的发音,因此,无法实现多种口音类型的同形异义字的发音预测。
83.为了解决上述问题,本技术提供了一种同形异义字的识别方法,具体包括:
84.获取待识别文本;其中,所述待识别文本包括同形异义字;然后将所述待识别文本
输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;最后根据所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素,从而可以准确的获得同形异义字的发音音素,同时可以实现多种口音的同形异义字消歧。
85.在介绍了本技术的基本原理之后,下面具体介绍本技术的各种非限制性实施方式。
86.应用场景总览
87.参考图1,其为本技术示例性实施例提供的同形异义字的识别方法的应用场景示意图。该应用场景包括终端设备101、服务器102、和数据存储系统103。其中,终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备视、个人数字助理(personal digital assistant,pda)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
88.服务器102用于向终端设备101的用户提供同形异义字的识别服务,终端设备101中安装有与服务器102通信的客户端,用户可通过该客户端进行同形异义字的发音音素的获取。在同形异义字的识别过程中,客户端通过调用终端设备101输入组件(如触摸屏、键盘、摄像机等)来获取待识别文本;客户端将待识别文本发送给服务器102。服务器102通过训练获得的神经网络模型,得到待识别文本中的同形异义字的词性标签,并根据词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素。在获取到所述同形异义字的发音音素后,将获取结果发送给终端设备101,从而准确的识别所述同形异义字的发音音素。
89.数据存储系统103中存储有同形异义字发音词典以及大量训练数据,每个训练数据包括一个具有同形异义字的待识别文本,以及该同形异义字的词性标签(标注标签)。服务器102可基于大量训练数据对神经网络模型进行训练,使得神经网络模型能够根据输入的具有同形异义字的待识别文本,得到所述同形异义字的词性标签。训练数据的来源包括但不限于已有的数据库、从互联网爬取的数据或者在用户使用客户端时上传的数据。当神经网络模型的输出满足预定的要求时,服务器102可基于神经网络模型向用户提供同形异义字的发音音素的预测服务,同时,服务器102还可以基于新增的训练数据不断优化神经网络模型。
90.下面结合图1的应用场景,来描述根据本技术示例性实施方式的同形异义字的识别方法。需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。
91.示例性方法
92.参考图2,本技术示例性实施例提供了一种同形异义字的识别方法,该方法包括以
下步骤:
93.s101,获取待识别文本;其中,所述待识别文本包括同形异义字。
94.具体实施时,获取的待识别文本可以是一句话,该句话中包含同形异义字。需要说明的是,该同形异义字属于泛指,可选的,该同形异义字也可以表示一个词。
95.s102,将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签。
96.具体实施时,在获取到待识别文本后,就可以将该待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签。通过该词性标签就可以从同形异义字发音词典中确定与该标签对应的发音音素,即所述同形异义字的发音音素。
97.需要说明的是,训练获得的神经网络模型可以根据需要选择已经公开的任何一个模型作为基准模型,在此不做限定。
98.s103,基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素。
99.具体实施时,在确定同形异义字的词性标签后,就可以通过该词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素。其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素,每个词性标签对应一个发音音素。其中,专属口音类别的同形异义字主要指某些特定口音独有的同形异义字,例如,英文中的dove是专属于美式口音的同形异义字。可选的,所述同形异义字发音词典可以是英文词典,对应的待识别文本为英文。所述多种口音可以包括英式口音、美式口音以及其他地域的口音。
100.在一些示例性实施例中,在基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素之前,所述方法还包括:
101.为所述同形异义字发音词典中所有的同形异义字设置标注标签;
102.其中,所述设置标注标签的过程包括:
103.从所述所有的同形异义字中确定目标同形异义字;
104.响应于确定所述目标同形异义字的每种词性均对应一种发音音素,将所述目标同形异义字的每种词性设置为其对应的发音音素的标注标签;
105.响应于确定所述目标同形异义字的目标词性对应有多种发音音素,从所述多种发音因素中确定使用频率最高的发音音素,将所述目标词性设置为所述使用频率最高的发音音素对应的标注标签,并基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。
106.具体实施时,相关技术中设置标签时,一般对同形异义字的每种发音单独设置一个标注标签,例如,图3的(a)中,由于同形异义字close在“a is close to b”和“come to a close”两句话中对应的发音音素均为:所以会按照发音音素给同形异义字close标注一个统一的标注标签adj_nou。但是,本技术的发明人发现90%以上的同形异义词是可以根据词性区分的,即同形异义词的每种词性对应一种发音音素,所以可以把这种类型的标注标签拆开,即将同形异义字的每种词性设置为其对应的发音音素的标注标签,例如图3的(b)所示,同形异义字close在“a is close to b”中为形容词,因此对应的标签为adj,在“come to a close”中close为名词,因此对应的标签为nou。通过这样的标注标签设置,使
close的每一种词性均对应一种标注标签。通过词性设置同形异义字的标注标签可以使得更多的同形异义字使用相同标签,进而能够共享更多的语言学知识,从而提高神经网络模型识别的准确性。例如,多个不同的同形异义字都具有名词词性,且每个同形异义字作为名词时均对应专有或独有的发音音素,当将上述多个同形异义字作为名词时的句子分别输入到神经网络模型中,并通过损失函数约束神经网络模型输出的标注标签为名词标签,神经网络模型就可以分别学习到每个同形异义字作为名词时的语言学知识,以便于提高神经网络模型对同形异义字作为名词时的句子识别的准确性。即通过本技术实施例中的标注标签的设计方法,可以将神经网络模型对同形异义字的发音音素的预测,转化为对其词性的预测。此外,部分低频词由于和高频词共享词性标签,所以训练过程中低频词可以从中获益。
107.同时,由于还有一部分同形异义字无法仅通过词性来区分发音,即同形异义字的某一种词性会同时对应多种发音音素,例如,bass作为名词时,对应[beis]和两种发音音素,这时需要进一步通过词义(词语含义)来设置同形异义字的标注标签,例如,bass在做名词且表示“低音”时对应的发音音素为:[beis],而在表示“巴斯鱼”(一种鱼)时对应的发音音素为:发明人发现一般情况下,当同形异义字的某一种词性会同时对应多种发音音素时,会有一个使用频率最高的发音音素,例如,bass在做名词时经常表示“低音”而很少会表示“巴斯鱼”,所以为了使bass的标注标签可以共享更多的语言学知识,会将所述目标词性(nou)设置为所述使用频率最高的发音音素对应的标注标签。可选的,从所述多种发音因素中确定使用频率最高的发音音素时,可以根据每种发音音素在字典中的位置来确定,一般字典都会将使用频率最高的发音音素放在前面,当然也可以采用其他方法来确定使用频率最高的发音音素,在此不做限定。在设置完使用频率最高的发音音素的标注标签后,可以进一步根据所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。例如,可以将bass在做名词且表示“巴斯鱼”的标注标签设置为“bass”。
[0108]
在一些示例性实施例中,基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签,具体包括:
[0109]
从所述其他发音音素中确定目标发音因素;
[0110]
确定所述目标发音音素对应的所述目标同形异义字的目标词义;
[0111]
基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签。
[0112]
具体实施时,可以根据同形异义字的每种词性以及词义确定其对应的标注标签。例如,可以将bass在做名词且表示“巴斯鱼”的标注标签设置为“nou_bass”,或者“nou(bass)”。
[0113]
在一些示例性实施例中,基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签,具体包括:
[0114]
确定与所述目标词义对应的预设词义类别;其中,所述预设词义类别包括多个不同的词义;
[0115]
基于所述预设词义类别与所述目标词性确定所述目标发音音素对应的标注标签。
[0116]
具体实施时,由于那些需要通过词义来进一步设置标注标签的同形异义字,本身的使用频率很少,所以会导致神经网络模型学习这一类型的同形异义字的标注标签的样本
很少,进而导致其发音音素识别的准确性下降。为了避免这种情况,并提高使用频率较少的同形异义字的标注标签的识别准确性,参考图4,可以将图4的(a)中的bass和gill之前不同的标注标签,合并成图4的(b)中的一种标注标签。由于gill表示“鱼鳃”时的发音音素和bass表示“巴斯鱼”的发音音素的使用频率都比较少,这时如果单独设置各自的标注标签会导致其识别准确性下降,因此,当gill表示“鱼鳃”和bass表示“巴斯鱼”时,二者的词性相同且词义都和鱼有关,即属于预设词义类别,可以将二者的发音音素统一设置为“nou(fish)”,这样,当神经网络模型识别到gill表示“鱼鳃”时的句子时,可以参考bass表示“巴斯鱼”时的句子的识别结果,从而提高识别gill表示“鱼鳃”时的句子的准确性,通过上述将低频词归类并设置相同的标注标签,可以使得更多的同形异义字使用相同的标签,进而能够共享更多的语言学知识,提高使用频率较少的同形异义字的标注标签的识别准确性。
[0117]
需要说明的是,预设词义类别可以根据需要进行设置,在此不做限定,例如可以根据词义本身所属的类别进行设置。
[0118]
在一些示例性实施例中,训练所述神经网络模型的过程,包括:
[0119]
使用所述标注标签对所述神经网络模型的样本文本进行标注;
[0120]
通过标注后的样本文本与双重随机失活技术训练所述神经网络模型。
[0121]
具体实施时,本技术的发明人发现,采用本技术实施例中的标注标签设置方法并同时使用双重随机失活技术(r-drop),可以起到相互支持的作用。具体效果请参见表1。
[0122]
表1
[0123] bert basebert tiny采用普通标签95.44%89.67%本技术的标注标签95.67%90.75%r-drop95.39%89.71%本技术的标注标签+r-drop96.05%92.37%
[0124]
其中,表1中的bert base与bert tiny是本技术选取的两种基准网络模型,通过表1可以看到若单独使用本技术的标注标签和r-drop(双重随机失活技术)均可以小幅度提升模型识别的准确性,当同时采用本技术的标注标签和r-drop后,可以大幅度提升模型是识别的准确性,而且提升幅度远大于单独使用两种手段提升的幅度的叠加值。因此,发明人发现在识别同形异义字时,同时采用本技术实施例中的标注标签设置方法和双重随机失活技术(r-drop),可以起到意料之外的增强效果。
[0125]
在一些实施例中,所述神经网络模型的基准网络模型为bert base,训练所述神经网络模型的过程,具体包括:通过上述实施例中的标注标签的方法对样本文本进行标签标注,然后将标注后的目标样本文本输入到bert base中,并随机失活bert base中的部分神经元,通过损失函数调节bert base的输出结果,使其输出结果与所述目标样本文本的标注标签一致,接着再次将该目标样本文本输入到bert base中,并再次随机失活bert base中的部分神经元,通过损失函数调节bert base的输出结果,使其输出结果与上一次bert base的输出结果保持一致。
[0126]
为了进一步提高模型训练的效率,在一些示例性实施例中,在通过标注后的样本文本与双重随机失活技术训练所述神经网络模型之前,训练所述神经网络模型的过程,包括:
[0127]
基于未标注的样本文本预训练所述神经网络模型的基准网络模型。
[0128]
在一些示例性实施例中,所述同形异义字发音词典中的每种口音类别对应一种发音音素;基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素,包括:
[0129]
获取所述待识别文本的口音类别;
[0130]
基于所述口音类别以及所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素。
[0131]
在一些示例性实施例中,所述口音类别至少包括美式口音和英式口音。例如,在同形异义字发音词典中同形异义字process作为名词时对应有英式口音和美式口音的发音音素,其中,美式口音对应的发音音素为[

pr
ɑ
:ses],英式口音对应的发音音素为在确定process在“the process of evolution”这句话中的发音音素时,通过神经网络模型确定此时process的词性标签为nou(名词),同时获取此时process的口音类别,可选的,该口音类别一般由用户根据需要输入,若此时process的口音类别为美式口音,则可以从同形异义字发音词典中确定此时process的发音音素为[

pr
ɑ
:ses]。
[0132]
参考图5,为本技术示例性实施例的另一种同形异义字的识别方法的流程示意图,其中,将具有同形异义字的待时识文本输入到神经网络模型中,由神经网络模型输出同形异义字的词性标签,然后根据获取的口音类别从同形异义字发音词典中确定用户需要的口音类别,并根据同形异义字的词性标签以及同形异义字从同形异义字发音词典中确定符合用户口音类别要求的同形异义字的发音音素,并将该同形异义字的发音音素作为结果输出。
[0133]
为了便于神经网络模型准确的识别到同形异义字在待识别文本中的位置,在一些示例性实施例中,在将所述待识别文本输入到训练获得的神经网络模型中之前,所述方法还包括:
[0134]
确定所述同形异义字在所述待识别文本中的目标位置;
[0135]
响应于确定所述目标位置未处于预设位置,在所述待识别文本的开头或结尾填充占位符,以使所述目标位置处于预设位置。
[0136]
具体实施时,预设位置可以根据需要进行设置,在此不做限定,例如,可以将该预设位置设置为待识别文本的中心位置。可选的,占位符可以采用“[pad]”。
[0137]
本技术提供的同形异义字的识别方法,先获取待识别文本;其中,所述待识别文本包括同形异义字;然后将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;最后根据所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素,从而可以准确的获得同形异义字的发音音素,同时可以实现多种口音的同形异义字消歧。
[0138]
示例性设备
[0139]
基于同一发明构思,与上述任意示例性实施例方法相对应的,本技术还提供了一种同形异义字的识别装置。
[0140]
参考图6,所述同形异义字的识别装置,包括:
[0141]
获取模块201,获取待识别文本;其中,所述待识别文本包括同形异义字;
[0142]
标签模块202,将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;
[0143]
确定模块203,基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素;
[0144]
其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素。
[0145]
在一些示例性实施例中,所述装置还包括标签模块;所述标签模块被配置为:
[0146]
为所述同形异义字发音词典中所有的同形异义字设置标注标签;
[0147]
其中,所述设置标注标签的过程包括:
[0148]
从所述所有的同形异义字中确定目标同形异义字;
[0149]
响应于确定所述目标同形异义字的每种词性均对应一种发音音素,将所述目标同形异义字的每种词性设置为其对应的发音音素的标注标签;
[0150]
响应于确定所述目标同形异义字的目标词性对应有多种发音音素,从所述多种发音因素中确定使用频率最高的发音音素,将所述目标词性设置为所述使用频率最高的发音音素对应的标注标签,并基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。
[0151]
在一些示例性实施例中,所述标签模块具体被配置为:
[0152]
从所述其他发音音素中确定目标发音因素;
[0153]
确定所述目标发音音素对应的所述目标同形异义字的目标词义;
[0154]
基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签。
[0155]
在一些示例性实施例中,所述标签模块具体被配置为:
[0156]
确定与所述目标词义对应的预设词义类别;其中,所述预设词义类别包括多个不同的词义;
[0157]
基于所述预设词义类别与所述目标词性确定所述目标发音音素对应的标注标签。
[0158]
在一些示例性实施例中,所述装置还包括训练模块,所述训练模块被配置为:
[0159]
使用所述标注标签对所述神经网络模型的样本文本进行标注;
[0160]
通过标注后的样本文本与双重随机失活技术训练所述神经网络模型。
[0161]
在一些示例性实施例中,所述训练模块还被配置为:
[0162]
基于未标注的样本文本预训练所述神经网络模型的基准网络模型。
[0163]
在一些示例性实施例中,所述同形异义字发音词典中的每种口音类别对应一种发音音素;所述确定模块具体被配置为:
[0164]
获取所述待识别文本的口音类别;
[0165]
基于所述口音类别以及所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素。
[0166]
在一些示例性实施例中,所述口音类别至少包括美式口音和英式口音。
[0167]
在一些示例性实施例中,所述装置还包括位置模块;所述位置模块被配置为:
[0168]
确定所述同形异义字在所述待识别文本中的目标位置;
[0169]
响应于确定所述目标位置未处于预设位置,在所述待识别文本的开头或结尾填充占位符,以使所述目标位置处于预设位置。
[0170]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0171]
上述示例性实施例的装置用于实现前述任一示例性实施例中相应的同形异义字的识别方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
[0172]
基于同一发明构思,与上述任意示例性实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一示例性实施例所述的同形异义字的识别方法。
[0173]
图7示出了本示例性实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器301、存储器302、输入/输出接口303、通信接口304和总线305。其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。
[0174]
处理器301可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书示例性实施例所提供的技术方案。
[0175]
存储器302可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器302可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书示例性实施例所提供的技术方案时,相关的程序代码保存在存储器302中,并由处理器301来调用执行。
[0176]
输入/输出接口303用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0177]
通信接口304用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0178]
总线305包括一通路,在设备的各个组件(例如处理器301、存储器302、输入/输出接口303和通信接口304)之间传输信息。
[0179]
需要说明的是,尽管上述设备仅示出了处理器301、存储器302、输入/输出接口303、通信接口304以及总线305,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书示例性实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0180]
上述示例性实施例的电子设备用于实现前述任一示例性实施例中相应的同形异义字的识别方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
[0181]
示例性程序产品
[0182]
基于同一发明构思,与上述任意示例性实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一示例性实施例所述的同形异义字的识别方法。
[0183]
本示例性实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒
体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0184]
上述示例性实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一示例性实施例所述的同形异义字的识别方法,并且具有相应的方法示例性实施例的有益效果,在此不再赘述。
[0185]
所在领域的普通技术人员应当理解:以上任何示例性实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上示例性实施例或者不同示例性实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术示例性实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0186]
另外,为简化说明和讨论,并且为了不会使本技术示例性实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术示例性实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术示例性实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术示例性实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0187]
尽管已经结合了本技术的具体示例性实施例对本技术进行了描述,但是根据前面的描述,这些示例性实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的示例性实施例。
[0188]
本技术示例性实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术示例性实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种同形异义字的识别方法,其特征在于,包括:获取待识别文本;其中,所述待识别文本包括同形异义字;将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素。2.根据权利要求1所述的方法,其特征在于,在基于所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素之前,所述方法还包括:为所述同形异义字发音词典中所有的同形异义字设置标注标签;其中,所述设置标注标签的过程包括:从所述所有的同形异义字中确定目标同形异义字;响应于确定所述目标同形异义字的每种词性均对应一种发音音素,将所述目标同形异义字的每种词性设置为其对应的发音音素的标注标签;响应于确定所述目标同形异义字的目标词性对应有多种发音音素,从所述多种发音因素中确定使用频率最高的发音音素,将所述目标词性设置为所述使用频率最高的发音音素对应的标注标签,并基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签。3.根据权利要求2所述的方法,其特征在于,基于所述目标同形异义字的词义设置所述多种发音因素中除所述使用频率最高的发音音素之外的其他发音音素对应的标注标签,具体包括:从所述其他发音音素中确定目标发音因素;确定所述目标发音音素对应的所述目标同形异义字的目标词义;基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签。4.根据权利要求3所述的方法,其特征在于,基于所述目标词义与所述目标词性确定所述目标发音音素对应的标注标签,具体包括:确定与所述目标词义对应的预设词义类别;其中,所述预设词义类别包括多个不同的词义;基于所述预设词义类别与所述目标词性确定所述目标发音音素对应的标注标签。5.根据权利要求2至4任意一项所述的方法,其特征在于,训练所述神经网络模型的过程,包括:使用所述标注标签对所述神经网络模型的样本文本进行标注;通过标注后的样本文本与双重随机失活技术训练所述神经网络模型。6.根据权利要求1所述的方法,其特征在于,所述同形异义字发音词典中的每种口音类别对应一种发音音素;基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素,包括:获取所述待识别文本的口音类别;基于所述口音类别以及所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素。
7.根据权利要求1所述的方法,其特征在于,在将所述待识别文本输入到训练获得的神经网络模型中之前,所述方法还包括:确定所述同形异义字在所述待识别文本中的目标位置;响应于确定所述目标位置未处于预设位置,在所述待识别文本的开头或结尾填充占位符,以使所述目标位置处于预设位置。8.一种同形异义字的识别装置,其特征在于,包括:获取模块,获取待识别文本;其中,所述待识别文本包括同形异义字;标签模块,将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;确定模块,基于所述词性标签在同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素。9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的方法。10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。

技术总结


本申请提供一种同形异义字的识别方法、装置、电子设备及存储介质,该方法包括先获取待识别文本;其中,所述待识别文本包括同形异义字;然后将所述待识别文本输入到训练获得的神经网络模型中,得到所述同形异义字的词性标签;最后根据所述词性标签在预设的同形异义字发音词典中确定所述同形异义字的发音音素;其中,所述同形异义字发音词典包括具有多种口音类别的同形异义字的发音音素以及具有专属口音类别的同形异义字的发音音素,从而可以准确的获得同形异义字的发音音素,同时可以实现多种口音的同形异义字消歧。种口音的同形异义字消歧。种口音的同形异义字消歧。


技术研发人员:

肖纯鑫 陈汉英 孙艳庆 段亦涛 周枫

受保护的技术使用者:

网易有道信息技术(北京)有限公司

技术研发日:

2022.05.24

技术公布日:

2022/9/2

本文发布于:2023-03-05 19:36:56,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/66711.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   音素   发音   词性
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图