语音识别方法及服务器与流程

阅读: 评论:0



1.本技术涉及语音识别技术领域,尤其涉及一种语音识别方法及服务器。


背景技术:



2.随着车辆的智能化发展,车载智能设备具有语音识别功能,使得用户可以通过语音直接与车机进行交互,有助于用户安全驾驶。针对不同用户使用不同语种,需要车载智能设备中搭载的语音识别系统可以正确区分不同的语种并进行语音的准确识别。
3.相关技术中,一般针对不同语种的语音信号,需要先根据语种分类模型进行语种分类,明确语种类别,然后再采用对应该语种类别的语音识别系统进行文字识别。目前的语音识别技术最终仍然是针对一种语种的语音进行语音识别,无法对多个语种同步进行语种识别,影响识别效率。


技术实现要素:



4.为解决或部分解决相关技术中存在的问题,本技术提供一种语音识别方法及服务器,能够同步准确识别多语种混合的语音信息。
5.本技术第一方面提供一种语音识别方法,其包括:获取待识别语音信号;根据各语种的声学模型对每帧所述待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各所述语种的声学模型分别根据共享隐层训练构建;依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,所述句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;当确定所述路径经过所述语音解码图中的多语种的槽位解码图时,根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。这样的设计,一方面,采用共享隐层的声学模型可以精简语音识别系统的模型架构,且可以不限语种进行扩展声学模型,满足用户的多语种识别需求;另一方面,通过在不同的解码图区分槽位与非槽位并进行解码,提高识别效率和准确率。
6.在语音识别方法中,所述各所述语种的声学模型分别根据共同的隐层训练构建,包括:根据各语种的种类,分别获取样本语音信号及对应的音素标签作为训练数据;根据各语种对应的训练数据共同训练各声学模型,其中,不同声学模型具有共享隐层和各自独立的softmax层;根据各softmax层的输出概率分别确定对应的声学模型的损失函数,并通过反向传播对共享隐层的参数进行迭代,获得对应训练好的声学模型。通过采用共享隐层和各自独立的softmax层进行训练获得的各声学模型,具有更精简的模型架构,同时可以准确识别不同语种的音素;同时,新增的语种可以基于历史训练好的共享隐层进行训练,不会影响历史语种的声音模型的识别效果,易扩展。
7.在语音识别方法中,所述相互连接的句式解码图和多语种的槽位解码图根据下述方式构建:构建预设语种的句式解码图,及根据各预设的槽位类型,分别构建各语种对应的单语种槽位解码图;分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对
应的多语种的槽位解码图;将所述句式解码图分别与所述语种的槽位解码图进行连接。本方式构建的句式解码图和多语种的槽位解码图,可以在对预设语种和多语种分别进行解码的同时,具有更精简的网络结构。
8.在语音识别方法中,所述分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对应的多语种的槽位解码图,包括:针对同一所述槽位类型,分别对各所述单语种槽位解码图设置节点及连接于节点之间的连接边,其中,各单语种槽位解码图中的起始节点具有相同的编号,剩余所述节点具有相异的编号;合并各所述单语种槽位解码图中的起始节点,将各所述单语种槽位解码图合并为所述槽位类型对应的槽位解码图。通过设置相同的起始节点,使各单语种槽位解码图可以快速合并为槽位解码图,提升构建效率。
9.在语音识别方法中,所述合并各所述单语种槽位解码图中的起始节点之前,还包括:分别对不同的语种的单语种槽位解码图中的节点设置对应的偏置值。通过设置偏置值,避免不同语种的音素代号混淆,确保槽位解码图的网络结构清晰,路径便于辨别。
10.在语音识别方法中,所述将所述句式解码图分别与所述多语种的槽位解码图进行连接,形成所述语音解码图,包括:根据槽位类型,设置对应的所述槽位标志;根据所述槽位标志,将所述句式解码图分别与对应的多语种的槽位解码图进行连接,形成所述语音解码图。通过设置槽位标志将多语种的槽位解码图分别与句式解码图连接,精简网络结构,同时易于根据槽位标志判断路径是否进入对应的槽位解码图,提高识别结果的输出效率。
11.在语音识别方法中,所根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果,包括:获取各路径的累计预设分值;分别将每条路径的累计预设分值与对应输入的语种音素的预测概率进行加权计数,筛选出对应的计数结果最大的路径作为目标路径;根据所述目标路径,获取对应的文字信息作为语音识别结果。根据将各声学模型输出的预测概率和各路径的累计预设分值进行筛选目标路径,可以更可靠准确地获得目标路径,提升识别结果的准确度。
12.在语音识别方法中,所述方法还包括:当确定所述路径没有经过所述槽位解码图时,根据预设语种的语种音素对应的预测概率和所述路径进行筛选,确定路径对应的文字信息作为语音识别结果。通过确定路径没有经过槽位解码图时,只需根据预设语种的声学模型输出的预测概率与各路径进行筛选,无需关注其他语种的声学模型输出的预测概率,提高识别效率的同时,保证识别结果的可靠性。
13.本技术第二方面提供一种服务器,其包括:
14.获取模块,用于获取待识别语音信号;
15.声学处理模块,用于根据各语种的声学模型对每帧所述待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各所述语种的声学模型分别根据共享隐层训练构建;
16.解码模块,用于以各所述语种音素作为输入依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,所述句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;
17.输出模块,用于当确定所述路径经过所述槽位解码图时,根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。
18.本技术第三方面提供一种服务器,包括:
19.处理器;以及
20.存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
21.本技术第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
22.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
23.通过结合附图对本技术示例性实施方式进行更详细地描述,本技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
24.图1是本技术示出的语音识别方法的流程示意图;
25.图2是本技术示出的声学模型的构建方法的流程示意图;
26.图3是图2的声学模型构建方法对应的流程框图;
27.图4是本技术示出的语音解码图的构建方法的流程示意图;
28.图5是图4的语音解码图的构建方法中的解码图合并前后示意图;
29.图6是本技术示出的语音识别方法的流程示意图;
30.图7是本技术示出的服务器的结构示意图;
31.图8是本技术示出的服务器的结构示意图。
具体实施方式
32.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
33.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
34.应当理解,尽管在本技术可能采用术语“第一”、“第三”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第三信息,类似地,第三信息也可以被称为第一信息。由此,限定有“第一”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
35.相关技术中,目前针对语言识别系统一般只能分别针对单个语种的语音进行识别,且需要对每个语种分别建立语音识别模型,当语音中出现混合语种时,无法进行识别。
36.针对上述问题,本技术提供一种语音识别方法,能够准确识别多语种混合的语音信息,满足用户需求。
37.以下结合附图详细描述本技术的技术方案。
38.图1是本技术示出的语音识别方法的流程示意图。
39.参见图1,本技术示出的一种语音识别方法,其包括:
40.s110,获取待识别语音信号。
41.其中,本技术的语音识别方法的执行主体可以是服务器。
42.本步骤中,如果执行主体为服务器,可以接收由终端发送的语音信号以获取待识别语音数据。
43.本步骤中,待识别语音信号所采用的语种可以是一种,也可以是多种。
44.s120,根据各语种的声学模型对每帧待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各语种的声学模型分别根据共享隐层训练构建。
45.本步骤中,为了应对多语种的情形,本步骤中根据不同的语种,分别设置对应的声学模型并预先训练构建完毕。语种的种类数量不受限制,可以根据实际语种需求进行增减,从而相应增减对应的声学模型。
46.进一步地,根据预先训练构建的声学模型对待识别语音信号进行识别,每一声学模型中的深度神经网络具有相互共享的隐层参数,即通过共享隐层对待识别语音信号进行特征提取和得分计算,并输出对应各语种的语种音素的预测概率。其中,声学模型采用的深度学习神经网络,例如tdnn(time-delay neural network,时延神经网络)网络、lstm(long short-term memory,长短期记忆网络)网络等,于此不作限制。
47.其中,本技术的各声学模型在构建过程中,训练数据分别采用对应的语种的样本语音信号,并采用同一深度神经网络的隐层进行训练迭代,实现共享隐层的效果。可以理解,深度神经网络一般包括多层隐层以进行声学特征的深度提取。本技术的方法,各语种的声学模型共享相同的隐层参数,即无需针对不同的语种分别设置各自的隐层参数,从而精简各声学模型的结构,容易实现不同语种识别的扩展需求。另外,在用户通过语音进行人机交互的过程中,用户表达的同一句语音可能涉及一种语种或多种语种,不同的语种的声学模型可以同步对输入的待识别语音信号进行预测,从而同步输出待识别语音信号在各语种中涉及的音素,及每一音素对应的预测概率。可以理解,不同的语种具有各自的音素,故而各声学模型预测输出各自的语种音素及对应的预测概率。这样的设计,无需使用语种分类模型预先根据语音信号进行语种的分类,由各声学模型同步预测各自的语种音素,从而提高识别效率和准确率。
48.s130,以各语种音素作为输入依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码。
49.其中,可以将句式视为槽位与非槽位组合的句子结构,槽位可以在句子的句首、句中或句末等指定位置或任意位置,槽位的数量和槽位类型不作限制。句式解码图是一种使用预设语种并位于句子非槽位的字词进行解码的语音解码图。多语种的槽位解码图是一种使用多语种并位于句子槽位中的字词进行解码的语音解码图。句式解码图和多语种的槽位解码图连接,使输入的同一个音素可以按照时间序列逐步在句式解码图和多语种的槽位解
码图上遍历,获得对应的路径。
50.基于不同语种的使用频率,可以将某一种语种设为预设语种。也就是说,多语种中也包含预设语种,预设语种同样具有对应的声学模型。可选地,根据不同的地区,可以将对应使用频率更高的语种作为预设语种。例如在欧洲地区,可以将普及更广的英语设为预设语种,于此仅举例说明。通过设定位于非槽位的字词使用预设语种,及设定位于槽位的字词可以使用多语种,当语音信号出现多语种的混合时,混合语种的语音识别问题可以视为预设语种的语音识别和多语种的语音识别问题。
51.进一步地,通过预先设置槽位的槽位类型,从而可以根据槽位类型对语种音素采用槽位解码图进行解码。这样的设计,可以将不符合槽位类型的语种音素与非槽位映射,处于非槽位的语种音素采用句式解码图进行解码;将符合槽位类型的语种音素与槽位映射,处于槽位的语种音素采用多语种的槽位解码图进行解码。例如,槽位类型可以是poi(兴趣点)、song(歌曲名称)、name(人名)等,可以根据词语的语义和词性设置对应的槽位类型,于此仅举例说明。基于此,本方法的语音解码图由句式解码图和多语种的槽位解码图两部分组成,即避免全部的语音解码图都使用多语种的网络结构,达到精简语音解码图的网络结构的效果,提高解码效率。
52.进一步地,相关技术中,针对单一语种进行语音识别的系统一般具有预先构建的语音解码图,例如,语音解码图可以是wfst图(加权有限状态转换器)。具体的,例如语音解码图可以是由hmm(hidden markov model,隐含马尔柯夫模型)模型、语言模型、发音词典、上下文相关分别转化成的四个wfst图合并而成的总wfst图,于此仅举例说明。可选地,本技术的句式解码图和多语种的槽位解码图的结构均可以采用前述的wfst图网络结构。
53.在当各声学模型分别输出待识别语音信号的语种音素后,各语种音素作为输入,进入句式解码图和多语种的槽位解码图的网络结构进行遍历,获得解码图中从各语种音素到词序列的路径,即获得全部路径。
54.s140,当确定路径经过语音解码图中的槽位解码图时,根据各语种对应的语种音素的预测概率和路径进行筛选,确定路径对应的文字信息作为语音识别结果。
55.当语音解码图中的任意一条路径经过多语种的槽位解码图时,则表示对应的语种音素与槽位类型匹配,由槽位解码图进行解码。可以理解,当全部路径均没有经过槽位解码图时,则表示路径没有进入槽位解码图,仅经过句式解码图,该语种音素由句式解码图进行解码。
56.当确定至少一条路径经过语音解码图的槽位解码图,可以按照预设规则,同时结合根据上述步骤s120获得的各语种音素的预测概率,及s130中的路径进行筛选,以获得目标路径。例如,获取语音解码图中的每条路径的累计预设权重,将每条路径的累计预设权重分别与各自对应的输入的语种音素的预测概率进行加权求和,对各加权求和的计数进行比较,即可确定最大计数的路径作为目标路径,目标路径对应的文字信息即为待识别语音信号对应的文字信息,从而获得待识别语音信号的语音识别结果。
57.从该示例可知,本技术的语音识别方法,可以采用预先训练构建的具有共同隐层的各声学模型,同步对单一预设语种或多语种混合的语音信号进行语音识别,无需引入额外的语种分类模型,提高数据处理效率;另外,根据预先构建的句式解码图和多语种的槽位解码图,使槽位解码图对进入槽位的语种音素进行解码,及使用句式解码图对非槽位的语
种音素进行解码;当确定至少一条路径经过槽位解码图时,则可以同时结合声学模型输出的预测概率和各路径综合筛选,更全面及准确地筛选出更优的目标路径,继而将目标路径中的文字信息作为识别结果。这样的设计,一方面,采用共享隐层的声学模型可以精简语音识别系统的模型架构,且可以不限语种进行扩展声学模型,满足用户的多语种识别需求;另一方面,通过区分槽位与非槽位的解码图进行解码,提高识别效率和准确率。
58.图2是本技术示出的声学模型的构建方法的流程示意图,图3是图2的声学模型构建方法对应的流程框图,用于具体地介绍本技术的语音识别方法中所采用的声学模型的构建过程。
59.参见图2和图3,本技术示出的一种声学模型的构建方法,其包括:
60.s210,根据各语种的种类,分别获取样本语音信号及对应的真实音素标签作为训练数据。
61.可以理解,本构建方法不限制语种的种类和数量。相应地,根据确定的语种,选取各语种的样本语音信号及对应的真实音素作为标签,分别获得各语种对应的训练数据。不同的语种中,各自的训练数据中所包含的数据量分别独自设置。
62.进一步地,还可以将不同于训练数据,且对应各语种的样本语音信号作为各声学模型对应的验证数据,以便后续对训练后的每个语种的声学模型进行验证,以评估各语种的声学模型的预测准确率。
63.s220,根据各语种对应的训练数据共同训练各声学模型,其中,不同声学模型具有共享隐层和各自独立的softmax层。
64.本步骤中,每一种类的语种,均具有各自对应的声学模型,各声学模型具有相同的预设深度神经网络的隐层,即无需分别针对每一声学模型设置各自独立的隐层,使各声学模型相互具有共享隐层。
65.其中,声学模型所采用的预设深度神经网络可以是当前已知的神经网络或自行研发的神经网络,例如tdnn网络、lstm网络、cnn(convolutional neural networks,卷积神经网络)网络等,于此仅举例说明,不作限制。
66.进一步地,各声学模型的深度神经网络包括输入层、多层共享隐层和输出层。可选地,各声学模型分别具有各自的输入层或共享输入层,用于输入各语种的训练数据。各声学模型具有共享隐层,各共享隐层对输入的各样本语音信号逐层进行声学特征提取和得分计算。各声学模型可以具有各自的输出层,输出层分别用于输出每一样本语音信号映射对应的语种的各音素的得分。其中,共享隐层的数量于此不作限制,每一层共享隐层具有各自对应的参数,例如权重参数和偏置参数,其中初始参数值可以随机设置。可选地,各声学模型共享全部隐层。
67.进一步地,各语种的声学模型分别具有各自对应的softmax层,各softmax层用于连接输出层;对应的softmax层用于将样本语音信号映射的各音素的得分转化为概率值。具体地,以语种包括三种为例,三个声学模型具有共享隐层,且各自具有独立的softmax层,各语种的softmax层分别与共享隐层连接。例如,语种包括德语、英语和挪威语等语种,其中一个语种的某一样本语音信号经过输入层、多层共享隐层和输出层后,输出层输出了该样本语音信号属于该语种的各类音素的预测得分,各音素的得分进入对应语种的softmax层进行归一化处理,继而将各得分转换为对应的概率。针对单个语种,softmax层将各概率中对
应样本语音信号的真实音素的概率作为输出概率。
68.s230,根据各softmax层的输出概率分别确定对应的声学模型的损失函数,并通过反向传播对共享隐层的参数进行迭代,获得对应训练好的声学模型。
69.针对每一语种的声学模型,可以通过预设损失函数计算出声学模型基于当前样本语音信号的输出概率的损失值(loss),例如损失值可以是将输出概率进行对数转换后的负值,从而确定各声学模型在当前轮次训练的损失程度。
70.为了便于理解,例如,当语种包括英语、德语和法语时,分别获得这三个语种的训练数据。这三种语种具有各自的声学模型,且各声学模型具有共享隐层,可选地,也可以具有共享输入层。在训练中,通过输入层将全部语种的训练数据输入共享隐层中逐层进行声学特征提取和得分计算。最后,将英语训练数据中的各个样本语音信号的得分从英语声学模型的输出层输出,并将各得分输入对应的英语softmax层进行归一化处理,得到属于真实音素对应的输出概率,再将各样本语音信号的输出概率转换为对应的损失值;同理,可以得到各德语训练数据从德语softmax层输出的,对应属于真实音素的输出概率,并获得各输出概率对应的损失值;及可以得到各法语训练数据从法语softmax层输出的,对应属于真实音素对应的输出概率,并获得各输出概率对应的损失值。
71.以降低每个声学模型的损失值为目标,通过多轮训练,每一轮训练均按照反向传播算法分别将各声学模型对应的损失值同步回传至共享隐层,使各共享隐层的参数分别根据上一轮的各损失值进行迭代调整。例如按照梯度下降法对各层共享隐层的参数进行迭代,当各声学模型的预测结果的损失值越来越小直至趋于不变,即损失值收敛时,表示各语种的声学模型训练完毕。也就是说,各语种的训练后的声学模型具有共享隐层,各层共享隐层的参数是基于各声学模型的损失值迭代获得,使得训练好的隐层可以同步适用于各语种的音素预测。
72.进一步地,根据各语种的验证数据对训练后的对应的声学模型进行评估,根据输入的样本语音信号,输出对应的音素及概率可接受时,即表示根据基于共享隐层的各声学模型具有较好的训练成果。
73.可以理解,如果在已经训练好的各语种的声学模型的基础上,增加新的语种时,即可根据上述步骤,基于原来的共享隐层的参数,将新增语种的训练数据和历史的语种的训练数据共同对共享隐层的参数进行迭代。当然,历史的语种的训练数据可以随机选取部分,无需将全部历史训练数据参与新增语种的训练,即可高效地完成训练,使新增语种的声学模型基于更新后的共享隐层进行准确预测,同时使历史的语种的声学模型仍然可以基于更新后的共享隐层进行准确地预测。
74.从该示例可知,不限制语种的数量,本技术中各声学模型基于共享隐层进行模型训练,使得迭代调节后的共享隐层的参数可以同步适用于不同的语种,通过共享隐层精简所有声学模型的结构;同时,新增的语种可以基于历史训练好的共享隐层进行训练,不会影响历史语种的声音模型的识别效果,易扩展;在实际应用中,可以同步对不同的语种进行识别,无需借助语种分类模型进行分类,具有较广的应用范围及更高的识别效率。
75.图4是本技术示出的语音解码图的构建方法的流程示意图,图5是单语种槽位解码图在合并前后的示意图,用于具体地介绍本技术的语音识别方法中所采用的语音解码图的构建过程。
76.参见图4和图5,本技术示出的一种语音解码图的构建方法,其包括:
77.s310,构建预设语种的句式解码图,及根据各预设的槽位类型,分别构建各语种对应的单语种槽位解码图。
78.本步骤中,预先选定一种语种作为预设语种。当预设语种不同时,根据不同的预设语种本身的语言特性,对应的句式解码图不同。
79.另外,根据槽位类型的数量,分别构建每一个槽位类型对应每一种语种的槽位解码图,即为单语种槽位解码图。例如,当槽位类型包括poi、name、song等3种时,如果语种的数量为20种,则构建的单语种槽位解码图为3*20,即总共60个单语种槽位解码图。也就是说,每一个单语种槽位解码图,表示为每一个语种对应当前槽位类型时的解码图。可以理解,相比起将每一个语种全覆盖所有字词形成该语种的解码图,本技术的方法只需要对于槽位类型关联的字词形成解码图,大大缩小了单语种槽位解码图的网络结构,减少了解码时的路径,且在符合用户语音习惯地同时,提高语音识别效率。
80.优选的,各单语种槽位解码图和句式解码图均为wfst图。
81.s320,分别将同一槽位类型的单语种槽位解码图进行合并,形成对应的多语种的槽位解码图。
82.可选地,针对同一槽位类型,分别对各单语种槽位解码图设置节点及连接于节点之间的连接边,其中,各单语种槽位解码图中的起始节点具有相同的编号,剩余节点具有相异的编号;合并各单语种槽位解码图中的起始节点,将各单语种槽位解码图合并为槽位类型对应的槽位解码图。
83.为了便于理解,如图5中的图a和图b所示,例如图a为英语的单语种槽位解码图的局部示意图,图b为德语的单语种槽位解码图的局部示意图,图c为英语和德语的单语种槽位解码图合并后的多语种的槽位解码图。
84.为了便于区分多语种的槽位解码图中的路径,预先在每个单语种槽位解码图中除了起始节点之外的各节点设置不同的编号,从而用于区分路径所经过的连接边。其中,图中的圆圈表示节点,圈中的数字即为当前节点对应的编号,不同节点或同一个节点之间的线条即为连接边。进一步地,不同单语种槽位解码图中的起始节点的编号可以均为0,每一个单语种槽位解码图中仅有一个起始节点。虚线圆圈表示结束节点,结束节点可以和起始节点为同一个节点。每一条连接边上的数值按照[输入值:输出值/分数]的数据结构进行表示。如图a中的1:0/3,表示输入值为1,输出值为0时获得的分数为3分。
[0085]
其中,输入值和输出值的各数值的代表意义则根据语音解码图中的下位wfst确定,例如在hmm(hidden markov model,隐含马尔柯夫模型)模型、语言模型、发音词典、上下文相关分别转化成的四个wfst图,输入值和输出值中的数字可以是发音属性、音素、字或词、词序列等属性的代号,通过不同的数值标号分别代表不同的内容等。例如,输入值为2,输出值为1,表示输入代号为2的音素,预测输出代号为1的音素。针对每一种语种,可以预先采用互不相同的代号对相应地发音属性、音素、字或词、词序列进行表示。优选地,为了应对每帧语音信号中可能出现静音或噪音的情形,可以在所有单语种槽位解码图中,设置相同的表示静音或噪音的代号,例如1~10等10个代号预留给不同频率的静音或噪音。进一步地,连接边上的分数可以表示从输入值到输出对应的输出值的置信程度,每条连接边上的分数可以根据不同的路径走向预先对应设置。
[0086]
由于不同的单语种槽位解码图中的起始节点具有相同的编号,例如均为0,则可以采用起始节点为合并节点,将不同的单语种槽位解码图进行合并,根据图a和图b的两个单语种槽位解码图,得到图c中的一个槽位解码图。
[0087]
可以理解,合并获得的多语种的槽位解码图的数量与槽位类型的数量相同,例如上述槽位类型有3个,则其中20个对应poi的单语种槽位解码图合并为对应的1个poi槽位解码图,20个对应name的单语种槽位解码图合并为对应的1个name槽位解码图,20个对应song的单语种槽位解码图合并为对应的1个song槽位解码图,以此类推,根据槽位类型的增减,合并获得对应的多语种的槽位解码图。
[0088]
优选地,在上述合并单语种槽位解码图之前,还可以分别对不同的语种的单语种槽位解码图中的节点设置对应的偏置值。也就是说,每个语种具有对应的偏置值(offset)。例如英语的偏置值为0,德语的偏置值为100000,法语的偏置值为200000等。需要理解的是,一般而言,在单一语种的语音解码图中,语种均具有各自的音素及对应的代号,根据音素的实际数量具有对应的代号个数,例如0~100000。不同的语种的音素在各自独立时,使用了同一套代号,例如均为0~100000。本技术中,由于语种的数量不仅限于一个,为了对不同的语种的音素的代号进行区分,因而在原有的代号基础上,分别设置对应不同的偏置值,使得原本具有相同代号的不同语种的音素的代号形成区别。因此,在将各单语种槽位解码图合并前,即可对各音素的代号进行偏置值叠加处理,从而使不同语种的相同代号在叠加偏置值后具有显著差异,从而避免在合并后的多语种的槽位解码图中出现路径上的代号混乱。进一步地,对于各单语种槽位解码图中的空节点,即从该节点连接边的输出值为0时的节点,这些空节点没有实际含义,在进行解码图合并时不需要叠加偏置值。
[0089]
例如,如图5中的图b所示,图b代表的德语的偏置值为100000,其中一个连接边上的代号1123,假如图a代表的英语中也具有代号为1123的音素,为了进行区分,在合并解码图之前,图b中的1123叠加偏置100000,得到图c中对应的数值101123,从而可以与英语的1123形成显著差距。再例如,如图a所示,由于图a表示英语的单语种槽位解码图,英语的预设偏置值为0,则在合并后的图c中的代号数值保持不变。
[0090]
s330,将句式解码图分别与多语种的槽位解码图进行连接。
[0091]
为了获得语音解码图,本步骤中,将上述获得的各个多语种的槽位解码图分别与句式解码图进行连接。具体地,可以根据槽位类型,设置对应的槽位标志;根据槽位标志,将句式解码图分别与对应的多语种的槽位解码图进行连接,形成语音解码图。
[0092]
例如,针对三种槽位类型poi、song、name,分别在语音解码图中设置互不相同的槽位标志,例如#nonterm:poi,#nonterm:song,#nonterm:name,句式解码图通过槽位标志#nonterm:poi与poi的多语种的槽位解码图连接,句式解码图通过槽位标志#nonterm:song与song的多语种的槽位解码图连接,以此类推,从而将句式解码图与各槽位类型对应的多语种的槽位解码图连接,组成一个可以用于识别混合语种的语音信号的语音解码图。
[0093]
从该示例可知,本技术的语音解码图的构建方法,可以根据填槽结构的预设语种句式构建对应的语音解码图,通过将同一个槽位类型的各单语种槽位解码图先行合并为对应的多语种的槽位解码图,最后将各槽位解码图与句式解码图合并,从而可以构建出更精简的语音解码图,以应对预设语种,或预设语种和多个语种混合的语音信号的解码识别,提高解码效率。
[0094]
图6是本技术示出的语音识别方法的流程示意图,用于根据上述声学模型的构建方法构建的模型,及根据上述语音解码图的构建方法构建的语音解码图,对具有单一语种(即预设语种)和多语种的语音信号进行语音识别。
[0095]
参见图6,本技术示出的一种语音识别方法,其包括:
[0096]
s410,获取待识别语音信号。
[0097]
本步骤同s110,于此不作赘述。
[0098]
s420,根据各语种的声学模型对每帧待识别语音信号进行识别,其中,各声学模型的共享隐层对每一声学模型的softmax层分别输出对应的语种音素及预测概率。
[0099]
可以理解,同一帧语音信号经过各声学模型共同的隐层,即共享隐层进行特征提取并输出,分别从对应语种的softmax层输出,输出分别属于各语种中的各语种音素及对应的预测概率。
[0100]
s430,将各语种音素输入相互连接的句式解码图和多语种的槽位解码图,获取全部路径和每一路径对应的累计预设分值。
[0101]
可以理解,语种音素为各语种中的音素,分别以每一个语种音素作为输入,可以分别得到在解码图中的各路径。可以理解,每一条路径至少经过句式解码图。当句式解码图和多语种的槽位解码图为wfst图时,每条路径上的每一连接边具有对应的预设分值,将每条连接边上的预设分值累计,即可获得当前路径对应的累计预设分值。
[0102]
s440,当路径经过多语种的槽位解码图时,根据各语种音素的预测概率和各路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。
[0103]
其中,如果路径经过多语种的槽位解码图,表示语音信号中的词义与槽位类型匹配。与槽位对应的语音信号的语种可能是预设语种,也可能是包含了预设语种在内的某一其他语种。为了提高识别结果的准确度,在进行语音解码时,综合各语种音素的预测概率和各路径的累计预设分值进行筛选。
[0104]
具体地,获取句式解码图和多语种的槽位解码图中各路径的累计预设分值;分别将每条路径的累计预设分值与对应输入的语种音素的预测概率进行加权计数,筛选出对应的计数结果最大的路径作为目标路径;根据目标路径,获取对应的文字信息作为语音识别结果。也就是说,针对每一条路径,可以将对应的连接边上的分值进行累计,获得累计预设分值。每条路径对应的输入,即语种音素对应的预测概率分别与路径的累计预设分值进行加权求和,分别得到所有路径与各自输入的预测概率的加权求和计数。将各加权求和后的计数进行比较,筛选出计数最大的路径作为目标路径,目标路径对应输出的词序列即为待识别语音的语音识别结果。可选地,在计数的方式除了上述示例的加权求和,也可以是其他计算方法,于此不作限制。
[0105]
s450,当确定路径没有经过多语种的槽位解码图时,根据预设语种的语种音素对应的预测概率和各路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。
[0106]
也就是说,根据语音解码图中通行的全部路径,没有任何路径经过多语种的槽位解码图,表示该语音信号没有匹配到预设语种句式中的槽位,仅匹配了非槽位,即该语音信号中仅使用了预设语种。因而只考虑预设语种的声学模型的softmax层输出的语种音素及概率,无需考虑其他语种的softmax层输出的语种音素及概率。
[0107]
本步骤中,可视为单一语种的语音解码。例如预设语种为英语,以英语的softmax
层输出的每一个语种音素作为输入,获取句式解码图中的各路径中对应的累计预设分值,结合各输入的语种音素的预测概率分别与对应路径的累计预设分值进行加权求求和后,将各加权求和后的计数进行比较,筛选出计数最大的路径作为目标路径,目标路径对应输出的词序列即为待识别语音的语音识别结果。可选地,在计数的方式除了上述示例的加权求和,也可以是其他计算方法,于此不作限制。
[0108]
从该示例可知,本技术的语音识别方法,根据预先构建好的句式解码图和多语种的槽位解码图,可以通过路径是否进入槽位确定选择识别结果的方法,从而可以可靠应对出现多语种的情形,确保识别结果的准确性。
[0109]
与前述应用功能实现方法实施例相对应,本技术还提供了一种服务器及相应的实施例。
[0110]
图7是本技术示出的服务器的结构示意图。
[0111]
参见图7,本技术示出的服务器,其包括获取模块710、声学处理模块720、解码模块730及输出模块740。其中:
[0112]
获取模块用于获取待识别语音信号。
[0113]
声学处理模块720用于根据各语种的声学模型对每帧待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各语种的声学模型分别根据共享隐层训练构建。
[0114]
解码模块730用于以各语种音素作为输入依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码。
[0115]
输出模块740用于当确定路径经过多语种的槽位解码图时,根据各语种对应的语种音素的预测概率和语音解码图中的路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。
[0116]
进一步地,声学处理模块720中加载了由具有共享隐层和独立softmax层构成的各声学模型,各声学模型分别输出对应多语种音素及每一语种音素对应的预测概率。其中,声学模型根据上述声学模型的构建方法构建,于此不再赘述。
[0117]
解码模块730中加载的句式解码图和多语种的槽位解码图可以是wfst图。其中,句式解码图和多语种的槽位解码图根据上述语音解码图的构建方法构建,于此不再赘述。
[0118]
进一步地,当确定路径经过多语种的槽位解码图时,输出模块740用于获取由解码模块730获得的各路径的累计预设分值;分别将每条路径的累计预设分值与对应输入的语种音素的预测概率进行加权计数,筛选出对应的计数结果最大的路径作为目标路径;根据目标路径,获取对应的文字信息作为语音识别结果。
[0119]
进一步地,输出模块740还可以用于当确定路径经过多语种的槽位解码图时,根据各语种对应的语种音素的预测概率和各路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。
[0120]
本技术的服务器,可以基于采用共享隐层的声学模型可以精简语音识别系统的模型架构,且可以不限语种进行扩展声学模型,满足用户的多语种识别需求;另一方面,通过根据区分槽位与非槽位的解码图进行解码,提高识别效率。
[0121]
关于上述实施例中的服务器,其中各个模块执行操作的具体方式已经在有关该方
法的实施例中进行了详细描述,此处将不再做详细阐述说明。
[0122]
图8是本技术示出的服务器的结构示意图。
[0123]
参见图8,服务器1000包括存储器1010和处理器1020。
[0124]
处理器1020可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0125]
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(rom)和永久存储装置。其中,rom可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0126]
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
[0127]
此外,根据本技术的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
[0128]
或者,本技术还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
[0129]
以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好的解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

技术特征:


1.一种语音识别方法,其特征在于,包括:获取待识别语音信号;根据各语种的声学模型对每帧所述待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各所述语种的声学模型分别根据共享隐层训练构建;以各所述语种音素作为输入依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,所述句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;当确定所述路径经过所述多语种的槽位解码图时,根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定路径对应的文字信息作为语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述各所述语种的声学模型分别根据共同的隐层训练构建,包括:根据各语种的种类,分别获取样本语音信号及对应的音素标签作为训练数据;根据各语种对应的训练数据共同训练各声学模型,其中,不同声学模型具有共享隐层和各自独立的softmax层;根据各softmax层的输出概率分别确定对应的声学模型的损失函数,并通过反向传播对共享隐层的参数进行迭代,获得对应训练好的声学模型。3.根据权利要求1所述的方法,其特征在于,所述相互连接的句式解码图和多语种的槽位解码图根据下述方式构建:构建预设语种对应的句式解码图,及根据各预设的槽位类型,分别构建各语种对应的单语种槽位解码图;分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对应的多语种的槽位解码图;将所述句式解码图分别与所述多语种的槽位解码图进行连接。4.根据权利要求3所述的方法,其特征在于,所述分别将同一所述槽位类型的所述单语种槽位解码图进行合并,形成对应的多语种的槽位解码图,包括:针对同一所述槽位类型,分别对各所述单语种槽位解码图设置节点及连接于节点之间的连接边,其中,各单语种槽位解码图中的起始节点具有相同的编号,剩余所述节点具有相异的编号;合并各所述单语种槽位解码图中的起始节点,将各所述单语种槽位解码图合并为所述槽位类型对应的槽位解码图。5.根据权利要求4所述的方法,其特征在于,所述合并各所述单语种槽位解码图中的起始节点之前,还包括:分别对不同的语种的单语种槽位解码图中的节点设置对应的偏置值。6.根据权利要求3所述的方法,其特征在于,所述将所述句式解码图分别与所述多语种的槽位解码图进行连接,包括:根据槽位类型,设置对应的所述槽位标志;根据所述槽位标志,将所述句式解码图分别与对应的多语种的槽位解码图进行连接。7.根据权利要求1所述的方法,其特征在于,所根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定路径对应的文字信息作为语音识别结果,包括:
获取所述句式解码图和多语种的槽位解码图各路径的累计预设分值;分别将每条路径的累计预设分值与对应输入的语种音素的预测概率进行加权计数,筛选出对应的计数结果最大的路径作为目标路径;根据所述目标路径,获取对应的文字信息作为语音识别结果。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:当确定所述路径没有经过槽位解码图时,根据预设语种的语种音素对应的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。9.一种服务器,其特征在于,包括:获取模块,用于获取待识别语音信号;声学处理模块,用于根据各语种的声学模型对每帧所述待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各所述语种的声学模型分别根据共享隐层训练构建;解码模块,用于以各所述语种音素作为输入依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,所述句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;输出模块,用于当确定所述路径经过所述多语种的槽位解码图时,根据各语种对应的所述语种音素的预测概率和所述路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。10.一种服务器,其特征在于,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。11.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。

技术总结


本申请涉及一种语音识别方法及服务器。该方法包括:获取待识别语音信号;根据各语种的声学模型对每帧待识别语音信号进行识别,分别输出对应的语种音素及预测概率;其中,各语种的声学模型分别根据共享隐层训练构建;依序遍历相互连接的句式解码图和多语种的槽位解码图,获得对应的路径;其中,句式解码图用于对进入非槽位的音素进行解码,槽位解码图用于对进入槽位的音素进行解码;当确定路径经过语音解码图中的多语种的槽位解码图时,根据各语种对应的语种音素的预测概率和路径进行筛选,确定目标路径对应的文字信息作为语音识别结果。本申请提供的方案,能够准确识别多语种混合的语音信息。音信息。音信息。


技术研发人员:

刘研

受保护的技术使用者:

广州小鹏汽车科技有限公司

技术研发日:

2022.06.28

技术公布日:

2022/9/30

本文发布于:2023-03-31 07:24:22,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/83809.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语种   音素   声学   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图