音素识别方法、装置、电子设备和存储介质与流程

阅读: 评论:0



1.本发明涉及语音识别技术领域,尤其涉及一种音素识别方法、装置、电子设备和存储介质。


背景技术:



2.在语音识别领域中,音素作为语音中的最小的单位,若要提高语音识别的准确度,需要提高语音中每个音素的识别准确度。
3.在实际应用场景中,语音对应有不同的语种,为了准确对不同语种的语音进行识别,目前多针对每种语种训练一个子模型,并基于这些子模型构建得到音素识别模型,以利用音素识别模型中的各子模型分别对各语种的语音进行音素识别,进而根据音素识别结果得到对应的语音识别结果。然而,随着语种种类的增加,子模型的个数也会增加,导致音素识别模型的规模也会增大,进而影响音素识别模型在本地芯片上的部署。


技术实现要素:



4.本发明提供一种音素识别方法、装置、电子设备和存储介质,用以解决现有技术中音素识别模型规模较大的缺陷。
5.本发明提供一种音素识别方法,包括:
6.确定待识别语音;
7.将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
8.所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
9.根据本发明提供的一种音素识别方法,所述第一识别模型的确定步骤包括:
10.基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;
11.从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。
12.根据本发明提供的一种音素识别方法,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;
13.所述第二识别模型基于如下步骤训练得到:
14.将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;
15.将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;
16.基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。
17.根据本发明提供的一种音素识别方法,所述得到所述第二识别模型的特征提取层输出的第一音素隐层特征,之后还包括:
18.基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;
19.基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。
20.根据本发明提供的一种音素识别方法,所述基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型,包括:
21.将所述字级隐层特征输入至字级分类层,得到所述字级分类层输出的所述字级预测结果,和/或,将所述句级隐层特征输入至语种分类层,得到所述语种分类层输出的所述语种预测结果;
22.基于所述字级标签与所述字级预测结果之间的差异和/或所述语种标签与所述语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型。
23.根据本发明提供的一种音素识别方法,所述基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征,包括:
24.对所述第一音素隐层特征进行滑窗,得到所述字级隐层特征;
25.对所述字级隐层特征进行池化,得到所述句级隐层特征。
26.根据本发明提供的一种音素识别方法,所述音素识别模型基于如下步骤训练得到:
27.固定所述第一识别模型的特征提取层的参数;
28.将各语种的样本语音输入至所述第一识别模型的特征提取层,得到所述第一识别模型的特征提取层输出的第二音素隐层特征;
29.将所述第二音素隐层特征输入至当前音素分类层,得到所述当前音素分类层输出的第二音素预测结果;所述当前音素分类层基于从所述第二识别模型中筛选得到的音素节点构建得到;
30.基于所述音素级标签与所述第二音素预测结果之间的差异,对所述当前音素分类层进行参数迭代,得到所述音素识别模型。
31.本发明还提供一种音素识别装置,包括:
32.确定单元,用于确定待识别语音;
33.识别单元,用于述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
34.所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包
括多个语种分别对应的音素节点。
35.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述音素识别方法。
36.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述音素识别方法。
37.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述音素识别方法。
38.本发明提供的音素识别方法、装置、电子设备和存储介质,基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到第一识别模型,不仅减小了第一识别模型的规模,而且在第一识别模型中保留了不同音素对应的音素节点,进而在基于多个语种的样本语音及各样本语音的音素级标签对第一识别模型进行训练后,不仅使得得到的音素识别模型的规模小于第二识别模型,而且音素识别模型能够准确对不同语种的音素进行区分。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1是本发明提供的音素识别方法的流程示意图;
41.图2是本发明提供的第一识别模型确定方法的流程示意图;
42.图3是本发明提供的第二识别模型训练方法的流程示意图;
43.图4是本发明提供的又一第二识别模型训练方法的流程示意图;
44.图5是本发明提供的又一第二识别模型训练方法中步骤420的实施方式的流程示意图;
45.图6是本发明提供的音素识别模型训练方法的流程示意图;
46.图7是本发明提供的再一第二识别模型训练方法的流程示意图;
47.图8是本发明提供的音素识别装置的结构示意图;
48.图9是本发明提供的电子设备的结构示意图。
具体实施方式
49.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.目前,在对不同语种进行语音识别时,多通过对每种语种训练一个子模型,并基于这些子模型构建得到音素识别模型,以利用音素识别模型中的各子模型分别对各语种的语音进行音素识别,进而根据音素识别结果得到对应的语音识别结果。然而,随着语种种类的
增加,子模型的个数也会增加,导致音素识别模型的规模也会增大,进而影响音素识别模型在本地芯片上的部署。
51.此外,为了避免增大音素识别模型的规模,也有通过引入语种分类分支,然后在语种分类分支和主分支之间插入一个梯度反转层,以通过梯度对抗训练使音素识别模型学习到语种不变特征,但该方法适用于差异不大的语种,对于差异较大的语种(如粤语,闽南语等与普通话差异较大)识别效果较差。
52.对此,本发明提供一种音素识别方法。图1是本发明提供的音素识别方法的流程示意图,如图1所示,该方法包括如下步骤:
53.步骤110、确定待识别语音。
54.此处,待识别语音即需要进行音素识别的语音。待识别语音可以通过拾音设备得到,此处拾音设备可以是智能手机、平板电脑,还可以是智能电器例如音响、电视和空调等,拾音设备在经过麦克风阵列拾音得到待识别语音后,还可以对待识别语音进行放大和降噪,本发明实施例对此不作具体限定。
55.步骤120、将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;
56.音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。
57.此处,各语种的音素节点分别对应各语种不同的音素,如普通话中“a”和“i”是不同的音素,从而普通话中“a”和“i”对应不同的音素节点。第二识别模型包括多个语种分别对应的音素节点,从而第二识别模型能够通过各语种对应的音素节点对不同语种下的音素进行区分,也就是第二识别模型具备准确对不同语种的音素进行区分能力。
58.然而,若存在大量不同类别的语种,则会导致第二识别模型中的音素节点过多,进而导致第二模型的计算参数量较大。此外,考虑到同类语种中可能存在相似度较高的音素,不同类语种间也可能存在相似度较高的音素,也就是第二识别模型中各语种分别对应的音素节点可能存在冗余。
59.对此,本发明实施例基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选,如基于音素之间的相似度,对各音素节点进行聚类,将相似度较高的音素对应的音素节点聚为一类,然后选取同一类中的任一音素节点作为第一识别模型的当前音素节点,删除该类中的其余音素节点,从而能够减少第一识别模型中音素节点的数量,以减小第一识别模型的规模,相应地也减小了音素识别模型的规模。
60.在对第二识别模型下的音素节点进行筛选后,滤除了第二识别模型下的冗余音素节点,即滤除对应有相似音素的音素节点,也就是第一识别模型中包含的当前音素节点同样对应有不同类别的音素,从而在基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练后,得到的音素识别模型能够准确对不同语种的音素进行区分。
61.本发明实施例提供的音素识别方法,基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到第一识别模型,不仅减小了第一识别模型的规模,而且在第一识别模型中保留了不同音素对应的音素节点,进而在基于
多个语种的样本语音及各样本语音的音素级标签对第一识别模型进行训练后,不仅使得得到的音素识别模型的规模小于第二识别模型,而且音素识别模型能够准确对不同语种的音素进行区分。
62.基于上述实施例,图2是本发明提供的第一识别模型确定方法的流程示意图,如图2所示,第一识别模型的确定步骤包括:
63.步骤210、基于各音素节点所对应音素之间的相似度,对第二识别模型下的各音素节点进行聚类,得到多个簇类;
64.步骤220、从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到第一识别模型。
65.具体地,音素之间的相似度用于表征对应两个音素属于同一类别的概率,音素之间的相似度越高,表明对应两个音素属于同一类别的概率越高;反之,音素之间的相似度越低,表明对应两个音素属于同一类别的概率越低。
66.基于各音素节点所对应音素之间的相似度,将对应相同类别音素的音素节点聚为一类,得到多个簇类,即各簇类中包含的音素节点对应的音素类别相同或相似。
67.此外,当前音素节点指第一识别模型的音素节点,不同簇类中当前音素节点对应的音素类别不同。当前音素节点在得到多个簇类后,从各簇类中的音素节点筛选得到的,当前音素节点可以为一个,也可以为多个,但各簇类中当前音素节点的数量总和小于第二识别模型中音素节点的数量总和。
68.可选地,可以将各簇类中的任意一个音素节点或多个音素节点作为当前音素节点,也可以将与各簇类中心的距离小于阈值的音素节点作为当前音素节点,还可以将距离各簇类中心最近的音素节点作为当前音素节点,本发明实施例对此不作具体限定。
69.在确定各簇类中的当前音素节点后,各簇类中的其它音素节点与当前音素节点的类别相同或相似,也就是其它音素节点可以看作是冗余因素节点。对此,本发明实施例在得到各簇类的当前音素节点后,删除各簇类中除当前音素节点以外的其它音素节点,得到第一识别模型,即可以理解为第一识别模型是从第二识别模型中删除了冗余音素节点后得到的模型。
70.由此可见,本发明实施例基于各音素节点所对应音素之间的相似度,可以准确对第二识别模型下的各音素节点进行聚类,进而得到多个簇类。同时,本发明实施例从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,从而能够减少第一识别模型中音素节点的数量,实现减小第一识别模型的规模,进而相应减小了音素识别模型的规模。
71.作为一种可选实施例,在对第二识别模型下的各音素节点进行聚类时,可以通过高斯混合模型(gaussian mixture model,gmm模型)和期望最大化算法(expectation-maximum,em)对各音素节点对应的音素进行聚类。
72.例如,第二识别模型包括na个语种对应的音素节点,且每个语种对应的音素节点个数为nc,也就是第二识别模型包含的音素节点总数为na×
nc个,若要使得第一识别模型中音素节点总数为nc个,则可以通过gmm模型对各音素节点进行聚类,然后根据聚类结果不断迭代调整gmm模型的参数,直至聚类结果为将第二识别模型中的各音素节点划分为nc个簇类。
73.需要说明的是,本发明实施例还可以根据实际需求将第二识别模型中的各音素节点划分为其它数量的簇类,本发明实施例对此不作具体限定。
74.基于上述任一实施例,第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到。图3是本发明提供的第二识别模型训练方法的流程示意图,如图3所示,第二识别模型的训练步骤包括:
75.步骤310、将各语种的样本语音输入至第二识别模型的特征提取层,得到第二识别模型的特征提取层输出的第一音素隐层特征;
76.步骤320、将第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;
77.步骤330、基于音素级标签与第一音素预测结果之间的差异,对第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到第二识别模型。
78.具体地,第一音素隐层特征用于表征样本语音中各音素的特征信息,其可以理解为帧级隐层特征。第二识别模型的特征提取层用于提取各语种的样本语音对应的第一音素隐层特征。其中,第二识别模型中的特征提取层是共享的,也就是各语种的样本语音均可由该特征提取层进行特征提取。此外,第二识别模型的特征提取层可以采用dnn(deep neural network,深度神经网络)、rnn(recurrent neural network,循环神经网络)或者cnn(convolution neural network,卷积神经网络)等神经网络模型提取第一音素隐层特征,本发明实施例对此不作具体限定。
79.此外,第二识别模型还包括多个语种分别对应的音素分类层,也就是各语种对应的音素分类层是相互独立的,从而各语种对应的音素分类层可以独立学习对应语种的音素信息,避免不同语种之间发音冲突对音素识别的影响,进而准确对该语种下的音素进行识别,得到第一音素预测结果。
80.在得到第一音素预测结果之后,基于音素级标签与第一音素预测结果之间的差异,对第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,使得第二识别模型在训练过程中能够尽量学习各语种下不同类别音素的信息,从而使得第二识别模型能够准确对各语种下的音素。
81.由此可见,本发明实施例基于音素级标签与第一音素预测结果之间的差异,对第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,能够使得训练得到的第二识别模型准确识别各语种下的音素。
82.作为一种可选实施例,第二识别模型中的特征提取层可以包括第一编码层和第一注意力层,第一编码层用于对各语种的样本语音进行编码,得到各样本语音的第一编码特征,第一注意力层用于基于注意力机制,对各样本语音的第一编码特征进行注意力变换,得到第一音素隐层特征。此外,第二识别模型中各语种的音素分类层可以包括第一解码层和第一识别层,第一解码层用于对第一音素隐层特征进行解码,得到各样本语音的第一解码特征,第一识别层用于基于各样本语音的第一解码特征进行音素识别,得到第一音素预测结果。
83.基于上述任一实施例,图4是本发明提供的又一第二识别模型训练方法的流程示意图,如图4所示,第二识别模型的训练步骤包括:
84.步骤410、得到第二识别模型的特征提取层输出的第一音素隐层特征之后,基于第
一音素隐层特征,确定字级隐层特征和/或句级隐层特征;
85.步骤420、基于样本语音的字级标签与字级预测结果之间的差异和/或样本语音的语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,得到第二识别模型;字级预测结果基于字级隐层特征确定,语种预测结果基于句级隐层特征确定。
86.具体地,字级隐层特征用于表征样本语音中各字符的特征信息,由于各字符是基于多个音素构建得到的,从而在确定字级隐层特征时,需要基于字符对应的多个第一音素隐层特征确定。句级隐层特征用于表征样本语音中各分句的特征信息,由于各分句是基于多个字符构建得到的,从而在确定句级隐层特征时,需要基于分句对应的多个字级隐层特征确定。
87.基于样本语音的字级标签与字级预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代时,可以使得第二识别模型的特征提取层从字级层面学习各语种下的不同音素信息,进而能够从字级层面准确识别不同音素。
88.基于样本语音的语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代时,可以使得第二识别模型的特征提取层从句子级层面学习各语种下的不同音素信息,进而能够从句子级层面准确识别不同音素。
89.由此可见,本发明实施例基于样本语音的字级标签与字级预测结果之间的差异和/或样本语音的语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,可以使得第二识别模型还能够从颗粒度较大的字级和/或句子级层面准确识别不同音素,进一步提高第二识别模型的音素识别效果。
90.基于上述任一实施例,图5是本发明提供的又一第二识别模型训练方法中步骤420的实施方式的流程示意图,如图5所示,步骤420包括:
91.步骤421、将字级隐层特征输入至字级分类层,得到字级分类层输出的字级预测结果,和/或,将句级隐层特征输入至语种分类层,得到语种分类层输出的语种预测结果;
92.步骤422、基于字级标签与字级预测结果之间的差异和/或语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,得到第二识别模型。
93.具体地,字级分类层用于基于字级隐层特征确定字级预测结果,语种分类层用于基于句级隐层特征确定语种预测结果。其中,字级预测结果可以理解为样本语音中各字符的预测结果,语种预测结果可以理解为样本语音中各分句的语种预测结果。
94.可选地,本发明实施例可以基于样本语音的字级标签与字级预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,从而使得第二识别模型的特征提取层能够从字级层面学习各语种下的不同音素信息,进而能够从字级层面准确识别不同音素。
95.可选地,本发明实施例可以基于样本语音的语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,从而使得第二识别模型的特征提取层能够从句子级层面学习各语种下的不同音素信息,进而能够从句子级层面准确识别不同音素。
96.可选地,本发明实施例可以基于样本语音的字级标签与字级预测结果之间的差异和样本语音的语种标签与语种预测结果之间的差异,对第二识别模型的特征提取层进行参数迭代,从而使得第二识别模型的特征提取层能够从字级和句子级层面学习各语种下的不
同音素信息,进而能够从字级和句子级层面准确识别不同音素。
97.需要说明的是,字级分类层和句级分类层可以设置于辅助模型中,也就是第二识别模型中不包含字级分类层和句级分类层,该辅助模型用于从颗粒度较大的字级和/或句子级层面辅助训练第二识别模型,使得第二识别模型能够进一步从字级和/或句子级层面准确识别不同音素,提高音素识别效果。
98.作为一种可选实施例,辅助模型可以包括字级特征提取层、字级分类层、句级特征提取层和语种分类层。其中,字级特征提取层用于对第一音素隐层特征进行滑窗,得到字级隐层特征。字级分类层用于基于字级隐层特征进行字符识别,得到字级预测结果。句级特征提取层用于对字级特征提取层输出的字级隐层特征进行池化,得到句级隐层特征。语种分类层用于基于句级隐层特征进行语种识别,得到语种预测结果。
99.基于上述任一实施例,基于第一音素隐层特征,确定字级隐层特征和/或句级隐层特征,包括:
100.对第一音素隐层特征进行滑窗,得到字级隐层特征;
101.对字级隐层特征进行池化,得到句级隐层特征。
102.具体地,由于基于字级隐层特征进行字符识别的颗粒度大于基于第一音素隐层特征进行音素识别的颗粒度,因此需要对第一音素隐层特征进行滑窗操作,如可以设定窗长为b,每次取b帧第一音素隐层特征送入神经网络,经过神经网络抽象出字级隐层特征后,再将字级隐层特征进入字级分类层,得到字级预测结果。基于句级隐层特征进行语种识别的颗粒度相比于基于字级隐层特征进行字符识别的颗粒度更大,因此可以将字级隐层特征通过神经网络的多次池化生成句级隐层特征,并将句级隐层特征输入至语种分类层,得到语种预测结果。
103.基于上述任一实施例,图6是本发明提供的音素识别模型训练方法的流程示意图,如图6所示,音素识别模型的训练步骤包括:
104.步骤610、固定第一识别模型的特征提取层的参数;
105.步骤620、将各语种的样本语音输入至第一识别模型的特征提取层,得到第一识别模型的特征提取层输出的第二音素隐层特征;
106.步骤630、将第二音素隐层特征输入至当前音素分类层,得到当前音素分类层输出的第二音素预测结果;当前音素分类层基于从第二识别模型中筛选得到的音素节点构建得到;
107.步骤640、基于音素级标签与第二音素预测结果之间的差异,对当前音素分类层进行参数迭代,得到音素识别模型。
108.具体地,第一识别模型的特征提取层即为训练完成的第二识别模型的特征提取层,由于训练完成的第二识别模型具备能够准确进行特征提取的能力,从而在得到第一识别模型,并固定第一识别模型的特征提取层的参数后,第一识别模型能够保留训练完成的第二识别模型的特征提取能力。
109.第一识别模型的特征提取层用于提取各语种的样本语音对应的第二音素隐层特征。由于第一识别模型的特征提取层即为训练完成的第二识别模型的特征提取层,从而第一识别模型的特征提取层能够准确提取得到第二音素隐层特征。
110.当前音素分类层基于从第二识别模型中筛选得到的音素节点构建得到,也就是当
前音素分类层是在第二识别模型的音素分类层的基础上滤除了冗余音素节点,即当前音素分类层的音素节点数量小于第二识别模型的音素分类层的音素节点数量。同样地,当前音素分类层用于基于第二音素隐层特征进行音素识别,得到第二音素预测结果。
111.在得到第二音素预测结果之后,基于音素级标签与第二音素预测结果之间的差异,对当前音素分类层进行参数迭代,使得音素识别模型在训练过程中能够尽量学习各语种下不同类别音素的信息,从而使得音素识别模型能够准确对各语种下的音素。
112.由此可见,本发明实施例基于音素级标签与第二音素预测结果之间的差异,对当前音素分类层进行参数迭代,能够使得训练得到的音素识别模型准确识别各语种下的音素。
113.作为一种可选实施例,第一识别模型中的特征提取层可以包括第二编码层和第二注意力层,第二编码层用于对各语种的样本语音进行编码,得到各样本语音的第二编码特征,第二注意力层用于基于注意力机制,对各样本语音的第二编码特征进行注意力变换,得到第二音素隐层特征。此外,第二识别模型中的当前音素分类层可以包括第二解码层和第二识别层,第二解码层用于对第二音素隐层特征进行解码,得到各样本语音的第二解码特征,第二识别层用于基于各样本语音的第二解码特征进行音素识别,得到第二音素预测结果。
114.基于上述任一实施例,音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到。第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的。本发明还提供一种音素识别模型训练方法,该方法包括:
115.图7是本发明提供的再一第二识别模型训练方法的流程示意图,如图7所示,第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到。基于多个语种的样本语音及各样本语音的音素级标签训练得到第二识别模型,具体为:将各语种的样本语音输入至第二识别模型的特征提取层,得到第一音素隐层特征,并将第一音素隐层特征输入至各语种的音素分类层,得到第一音素预测结果,基于音素级标签与第一音素预测结果之间的差异,对第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到初始第二识别模型。
116.在得到初始第二识别模型后,基于第一音素隐层特征,确定字级隐层特征和句级隐层特征,将字级隐层特征输入至辅助模型的字级分类层,得到字级预测结果,以及将句级隐层特征输入至辅助模型的语种分类层,得到语种预测结果。基于字级标签与字级预测结果之间的差异和语种标签与语种预测结果之间的差异,对初始第二识别模型的特征提取层进行参数迭代,得到第二识别模型。
117.接着,基于各音素节点所对应音素之间的相似度,对第二识别模型下的各音素节点进行聚类,得到多个簇类,并保留各簇类中的任意一个音素节点以及删除各簇类中的其它音素节点,得到第一识别模型。
118.在得到第一识别模型后,固定第一识别模型的特征提取层的参数。将各语种的样本语音输入至第一识别模型的特征提取层,得到第二音素隐层特征,将第二音素隐层特征输入至当前音素分类层,得到第二音素预测结果;其中,当前音素分类层基于从第二识别模型中筛选得到的音素节点构建得到。
119.最后,基于音素级标签与第二音素预测结果之间的差异,对当前音素分类层进行参数迭代,得到音素识别模型,该音素识别模型不仅规模较小,而且能够准确对不同语种的音素进行区分。
120.下面对本发明提供的音素识别装置进行描述,下文描述的音素识别装置与上文描述的音素识别方法可相互对应参照。
121.基于上述任一实施例,图8是本发明提供的音素识别装置的结构示意图,如图8所示,该装置包括:
122.确定单元810,用于确定待识别语音;
123.识别单元820,用于述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;
124.所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
125.基于上述任一实施例,所述装置还包括:
126.聚类单元,用于基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;
127.剪枝单元,用于从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。
128.基于上述任一实施例,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;
129.所述装置还包括:
130.第一特征提取单元,用于将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;
131.第一音素分类单元,用于将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;
132.第一参数迭代单元,用于基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。
133.基于上述任一实施例,所述装置还包括:
134.特征确定单元,用于得到所述第二识别模型的特征提取层输出的第一音素隐层特征之后,基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;
135.第二参数迭代单元,用于基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。
136.基于上述任一实施例,所述第二参数迭代单元,包括:
137.辅助预测单元,用于将所述字级隐层特征输入至字级分类层,得到所述字级分类层输出的所述字级预测结果,和/或,将所述句级隐层特征输入至语种分类层,得到所述语
种分类层输出的所述语种预测结果;
138.辅助训练单元,用于基于所述字级标签与所述字级预测结果之间的差异和/或所述语种标签与所述语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型。
139.基于上述任一实施例,所述特征确定单元,包括:
140.滑窗单元,用于对所述第一音素隐层特征进行滑窗,得到所述字级隐层特征;
141.池化单元,用于对所述字级隐层特征进行池化,得到所述句级隐层特征。
142.基于上述任一实施例,所述装置还包括:
143.参数固定单元,用于固定所述第一识别模型的特征提取层的参数;
144.第二特征提取单元,用于将各语种的样本语音输入至所述第一识别模型的特征提取层,得到所述第一识别模型的特征提取层输出的第二音素隐层特征;
145.第二音素分类单元,用于将所述第二音素隐层特征输入至当前音素分类层,得到所述当前音素分类层输出的第二音素预测结果;所述当前音素分类层基于从所述第二识别模型中筛选得到的音素节点构建得到;
146.第三参数迭代单元,用于基于所述音素级标签与所述第二音素预测结果之间的差异,对所述当前音素分类层进行参数迭代,得到所述音素识别模型。
147.图9是本发明提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、存储器(memory)920、通信接口(communications interface)930和通信总线940,其中,处理器910,存储器920,通信接口930通过通信总线940完成相互间的通信。处理器910可以调用存储器920中的逻辑指令,以执行音素识别方法,该方法包括:确定待识别语音;将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
148.此外,上述的存储器920中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
149.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的音素识别方法,该方法包括:确定待识别语音;将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应
音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
150.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的音素识别方法,该方法包括:确定待识别语音;将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。
151.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
152.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
153.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种音素识别方法,其特征在于,包括:确定待识别语音;将所述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。2.根据权利要求1所述的音素识别方法,其特征在于,所述第一识别模型的确定步骤包括:基于各音素节点所对应音素之间的相似度,对所述第二识别模型下的各音素节点进行聚类,得到多个簇类;从各簇类中的音素节点筛选得到当前音素节点,并删除各簇类中除当前音素节点以外的其它音素节点,得到所述第一识别模型。3.根据权利要求1所述的音素识别方法,其特征在于,所述第二识别模型包括特征提取层和多个语种分别对应的音素分类层,各音素分类层基于各语种对应的音素节点构建得到;所述第二识别模型基于如下步骤训练得到:将各语种的样本语音输入至所述第二识别模型的特征提取层,得到所述第二识别模型的特征提取层输出的第一音素隐层特征;将所述第一音素隐层特征输入至各语种的音素分类层,得到各语种的音素分类层输出的第一音素预测结果;基于所述音素级标签与所述第一音素预测结果之间的差异,对所述第二识别模型的特征提取层和各语种的音素分类层进行参数迭代,得到所述第二识别模型。4.根据权利要求3所述的音素识别方法,其特征在于,所述得到所述第二识别模型的特征提取层输出的第一音素隐层特征,之后还包括:基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征;基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型;所述字级预测结果基于所述字级隐层特征确定,所述语种预测结果基于所述句级隐层特征确定。5.根据权利要求4所述的音素识别方法,其特征在于,所述基于所述样本语音的字级标签与字级预测结果之间的差异和/或所述样本语音的语种标签与语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别模型,包括:将所述字级隐层特征输入至字级分类层,得到所述字级分类层输出的所述字级预测结果,和/或,将所述句级隐层特征输入至语种分类层,得到所述语种分类层输出的所述语种预测结果;基于所述字级标签与所述字级预测结果之间的差异和/或所述语种标签与所述语种预测结果之间的差异,对所述第二识别模型的特征提取层进行参数迭代,得到所述第二识别
模型。6.根据权利要求4所述的音素识别方法,其特征在于,所述基于所述第一音素隐层特征,确定字级隐层特征和/或句级隐层特征,包括:对所述第一音素隐层特征进行滑窗,得到所述字级隐层特征;对所述字级隐层特征进行池化,得到所述句级隐层特征。7.根据权利要求3所述的音素识别方法,其特征在于,所述音素识别模型基于如下步骤训练得到:固定所述第一识别模型的特征提取层的参数;将各语种的样本语音输入至所述第一识别模型的特征提取层,得到所述第一识别模型的特征提取层输出的第二音素隐层特征;将所述第二音素隐层特征输入至当前音素分类层,得到所述当前音素分类层输出的第二音素预测结果;所述当前音素分类层基于从所述第二识别模型中筛选得到的音素节点构建得到;基于所述音素级标签与所述第二音素预测结果之间的差异,对所述当前音素分类层进行参数迭代,得到所述音素识别模型。8.一种音素识别装置,其特征在于,包括:确定单元,用于确定待识别语音;识别单元,用于述待识别语音输入至音素识别模型,得到所述音素识别模型输出的音素识别结果;所述音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,所述第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对所述第二识别模型下的音素节点进行筛选得到的,所述第二识别模型包括多个语种分别对应的音素节点。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述音素识别方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音素识别方法。

技术总结


本发明提供一种音素识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;将待识别语音输入至音素识别模型,得到音素识别模型输出的音素识别结果;音素识别模型基于多个语种的样本语音及各样本语音的音素级标签,对第一识别模型进行训练得到,第一识别模型是基于第二识别模型下各音素节点所对应音素之间的相似度,对第二识别模型下的音素节点进行筛选得到的,第二识别模型包括多个语种分别对应的音素节点。本发明提供的音素识别方法、装置、电子设备和存储介质,不仅减小了音素识别模型的规模,而且音素识别模型能够准确对不同语种的音素进行区分。对不同语种的音素进行区分。对不同语种的音素进行区分。


技术研发人员:

孙涛 申凯 万根顺 潘嘉 刘聪 胡国平 刘庆峰 胡郁

受保护的技术使用者:

科大讯飞股份有限公司

技术研发日:

2022.07.19

技术公布日:

2022/11/18

本文发布于:2022-11-25 12:51:46,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/2418.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音素   模型   所述   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图