一种语音识别方法及其相关产品与流程

阅读: 评论:0



1.本技术涉及语音处理技术领域,尤其涉及一种语音识别方法及其相关产品。


背景技术:



2.目前,语音识别技术已逐渐成为人机交互的重要途径,在智能移动设备、智能客服、智能家居等领域得到了广泛的应用。在实际应用时,由于不同用户在年龄、职业、社交网络、兴趣爱好等多方面存在差异,并且新的热点话题和相应的热点词汇层出不穷,因此,在语音识别场景中经常会出现一些具有用户特性和时效性的词语,这些词语被称为“热词”。
3.基于上述针对热词的语音识别需求,已有的语音识别模型通常会采用语音数据进行热词激励的方式实现识别,即如果语音数据的解码结果与预先设置的热词匹配,则对该热词的分数进行激励,以增大热词的输出概率,从而使该热词出现在最优输出路径中。但是,热词激励的过程需要按照热词中的单字或子词的分数逐一激励,在这种情况下,如果某个单字或子词激励失败,或者,对首个单字或子词解码后就停止解码而导致激励中断,那么会出现整词激励失败的问题。因此,一旦上述按照热词的单字或子词的分数逐一进行热词激励的方式出现问题,就会导致热词的语音识别的准确率不足。


技术实现要素:



4.本技术实施例提供了一种语音识别方法及其相关产品,以提高热词的语音识别的准确率。
5.第一方面,本技术实施例提供了一种语音识别方法,包括:
6.获取语音数据以及热词库所述热词库包括热词;
7.根据所述语音数据,确定所述语音数据的声学特征;
8.基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数;
9.利用所述热词的整词分数对所述语音数据进行热词激励。
10.可选地,所述基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数,包括:
11.根据所述热词对应的热词信息,确定所述热词的词向量;
12.通过注意力机制,获取所述声学特征对应的第一声学语义向量;
13.计算所述热词的词向量和所述第一声学语义向量之间的相似度,作为所述热词的整词分数。
14.可选地,所述方法通过语音识别模型实现;所述方法还包括:
15.获取所述语音识别模型的基础词库;所述基础词库包括单字和/或子词;
16.基于所述基础词库中的单字和/或子词,以及所述热词库中的热词,构建新的词库;
17.基于所述新的词库对所述语音数据进行热词激励。
18.可选地,所述基于所述基础词库中的单字和/或子词,以及所述热词库中的热词,
构建新的词库,包括:
19.获取所述单字和/或子词的分数;
20.对所述单字和/或子词的分数,以及所述热词的整词分数进行拼接处理,生成所述新的词库;所述新的词库以所述单字和/或子词,以及所述热词为元素构建。
21.可选地,所述基于所述新的词库对所述语音数据进行热词激励,包括:
22.将所述语音数据的解码结果与所述新的词库进行匹配;
23.在所述新的词库中的热词与所述解码结果的匹配度大于或等于预设匹配度时,基于所述新的词库中的元素的分数,对所述语音数据进行热词激励。
24.可选地,所述方法还包括:
25.获取用于语音识别的预设热词词典;
26.确定所述预设热词词典中每两个预设热词之间的相似度,并按照从大到小的顺序对所述每两个预设热词之间的相似度进行排序;
27.基于排序结果,从所述预设热词词典中确定每个预设热词的相似热词;
28.若所述热词库和所述预设热词词典中均存在所述语音数据对应的热词,则从所述语音数据对应的热词的相似热词中择一加入所述热词库。
29.可选地,所述方法还包括:
30.获取所述语音数据在当前时刻之前的已解码结果;
31.通过注意力机制,获取所述已解码结果对应的第二声学语义向量;
32.对所述第二声学语义向量进行分析,得到所述第二声学语义向量的首个音节信息;
33.基于所述首个音节信息,从所述热词库中删除与所述首个音节信息不匹配的热词,并以删除与所述首个音节信息不匹配的热词后的热词库进行语音识别。
34.可选地,所述方法通过语音识别模型实现;所述方法还包括:
35.基于softmax损失函数,确定目标函数;
36.利用所述目标函数对所述语音识别模型进行更新。
37.可选地,所述基于softmax损失函数,确定目标函数,包括:
38.确定所述语音识别模型的训练样本的数量;所述训练样本包括所述热词库中的热词;
39.根据所述训练样本的数量和所述热词库中的热词的整词分数,计算所述softmax损失函数,并以所述softmax损失函数作为所述目标函数。
40.第二方面,本技术实施例提供了一种语音识别装置,包括:
41.数据获取模块,用于获取语音数据以及热词库;所述热词库包括热词;
42.声学特征确定模块,用于根据所述语音数据,确定所述语音数据的声学特征;
43.整词分数确定模块,用于基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数;
44.热词激励模块,用于利用所述热词的整词分数对所述语音数据进行热词激励。
45.第三方面,本技术实施例提供了一种语音识别设备,所述设备包括:处理器、存储器、系统总线;
46.所述处理器以及所述存储器通过所述系统总线相连;
47.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述的方法。
48.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的方法。
49.从以上技术方案可以看出,本技术实施例具有以下优点:
50.在本技术实施例中,获取语音数据以及热词库后,可以根据语音数据,确定语音数据的声学特征,并基于热词库中保存的热词和声学特征,确定热词的整词分数,再利用热词的整词分数对语音数据进行热词激励。可见,通过确定热词库中的热词的整词分数,在进行热词激励时,可以直接按照整词分数进行热词激励,因此,可以避免按照单字或子词的分数逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。
附图说明
51.图1为本技术实施例提供的一种语音识别方法的流程图;
52.图2a为本技术实施例提供的一种构建新的词库的实现方式的流程图;
53.图2b为本技术实施例提供的一种构建新的词库的实现方式的示意图;
54.图3为本技术实施例提供的一种难例挖掘的方法的流程图;
55.图4为本技术实施例提供的一种语音识别模型的更新方法的流程图;
56.图5为本技术实施例提供的一种语音识别系统的结构示意图;
57.图6为本技术实施例提供的一种语音识别装置的结构示意图。
具体实施方式
58.正如前文所述,发明人在针对热词的语音识别的研究中发现:已有的语音识别模型通常会采用语音数据进行热词激励的方式实现识别,即如果语音数据的解码结果与预先设置的热词匹配,则对该热词的分数进行激励,以增大热词的输出概率,从而使该热词出现在最优输出路径中。但是,热词激励的过程需要按照热词中的单字或子词的分数逐一激励,在这种情况下,如果某个单字或子词激励失败,或者,对首个单字或子词解码后就停止解码而导致激励中断,那么会出现整词激励失败的问题。因此,一旦上述按照热词的单字或子词的分数逐一进行热词激励的方式出现问题,就会导致热词的语音识别的准确率不足,影响热词的语音识别。
59.而为了解决上述问题,本技术实施例提供了一种语音识别方法,该方法包括:获取语音数据以及热词库后,可以根据语音数据,确定语音数据的声学特征,并基于热词库中保存的热词和声学特征,确定热词的整词分数,再利用热词的整词分数对语音数据进行热词激励。
60.可见,通过确定热词库中的热词的整词分数,在进行热词激励时,可以直接按照整词分数进行热词激励,因此,可以避免按照单字或子词的分数逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。
61.需要说明的是,本技术实施例不限定语音识别方法的执行主体,例如,本技术实施例的语音识别方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、智能词典、录音笔、车载设备、平板电脑、智能家居设备等。服务器可以为
独立服务器、集服务器或云服务器。
62.为了使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
63.图1为本技术实施例提供的一种语音识别方法的流程图。结合图1所示,本技术实施例提供的语音识别方法,可以包括:
64.s101:获取语音数据以及热词库。
65.语音数据是指通用语音数据集中的语音数据,这里,通用语音数据集,例如是voxforg、chime、ted-lium等语音数据集中的一个或多个。对于通用语音数据集的获取方式,本技术实施例可不做具体限定。例如,可以将通用语音数据集保存于用于语音识别的数据处理设备,当需要进行语音识别时,该数据处理设备通过本地读取的方式获取语音数据。或者,可以将通用语音数据集保存于其他数据存储设备,数据处理设备可以在需要时,通过访问数据存储设备的方式获取通用语音数据集中的语音数据。
66.热词库是指保存有热词的数据库。对于获取热词库的实施方式,本技术亦亦可不做具体限定。为了便于理解,下面结合一种可能的实施方式进行说明。
67.在一种可能的实施方式中,可以从语音数据的标注文本中随机提取热词,并构建热词库。具体来说,随机提取热词并构建热词库的实现过程,可以包括:从语音数据的标注文本中随机生成热词的开始提取位置s;基于该开始提取位置s和语音数据的标注文本的字数c,随机生成热词字数n;根据上述开始提取位置s和热词字数n,从语音数据的标注文本中提取热词,构建热词库。其中,开始提取位置s是指从语音数据的标注文本的第几个字之后开始提取热词,开始提取位置s的取值范围为0≤s《n;热词字数n的取值范围为1≤n≤min(c,1-s)。举例来说,语音数据的标注文本例如为“我叫小明”,相应地,该语音数据的标注文本的字数c为4。若随机生成的热词的开始提取位置s为2,随机生成的热词字数n为2,则表示从语音数据的标注文本“我叫小明”中的第2个字“叫”之后开始提取热词,并且提取到的热词的字数为2,因此,该热词为“小明”,而后可以将热词“小明”加入热词库。
68.此外,对于热词库的表示形式,本技术实施例不做具体限定,为了便于理解,下面以表1的形式进行说明。
69.表1
70.热词热词的标识信息小明v1小刘v1+1
…………
李四v1+v2-2李华v1+v2-1
71.结合表1所示,热词库中还可以体现出热词的标识信息。在实际应用中,语音识别模型可以通过基础词库进行通用语音识别,该基础词库可以由单字和/或子词为元素构成,例如该基础词库中的元素可以体现为“啊”、“最”、
……
、“look”、“ed”、“ing”等。可以理解地,如果该基础词库的大小设置为v1,则该基础词库中的第一个元素,即单字或子词的标识
信息可以设置为0,最后一个元素的标识信息可以设置为v1-1。对应于此,热词库的大小可以设置为v2,相应地,热词库中的第一个元素,即热词的标识信息可以为v1,最后一个元素的标识信息可以为v1+v2-1。如此,基于基础词库的大小和热词库的大小,设置热词的标识信息,可以对基础词库和热词库中的元素进行区分,从而便于根据基础词库和热词库构建新的词库之后,对新的词库中的元素进行区分。也就是说,在本技术实施例中,可以根据基础词库和热词库来构建新的词库而进行热词的语音识别,以扩充针对热词的语音识别的词库。本技术实施例对于新的词库的构建方式可以不做具体限定,为了便于理解,本技术实施例可以提供一种可能的实施方式,技术详情请参见下文所做的介绍。
72.s102:根据语音数据,确定语音数据的声学特征。
73.这里,语音数据的声学特征,例如为filter bank特征、mel频率倒谱系数特征、感知线性预测系数特征等,对此,本技术实施例可不做具体限定。
74.s103:基于热词库中的热词和声学特征,确定热词的整词分数。
75.热词的整词分数,可以表征热词整体的得分。举例来说,热词以“小明”为例,则整词分数可以体现为“小明”这个热词整体的分数,而不是“小”和“明”两个单字的分数。这里,对于热词的整词分数的确定过程,本技术实施例可不做具体限定,为了便于理解,下面结合一种可能的实施方式进行说明。
76.在一种可能的实施方式中,s103具体可以包括:根据热词对应的热词信息,确定热词的词向量;通过注意力机制,获取声学特征对应的第一声学语义向量;计算热词的词向量和第一声学语义向量之间的相似度,作为热词的整词分数。由于声学特征对应的第一声学语义向量中仅包含单字或子词对应的信息,直接以此确定热词的整词分数无法有效地提高语音识别模型的准确率,因此,在本技术实施例中,结合热词的词向量和第一声学语义向量共同确定热词的整词分数,可以提高热词的语音识别的准确率。并且,第一声学语义向量还可以借助深度学习网络,例如是基于注意力机制的长短期记忆人工神经网络而用于通用语音识别,从而避免训练热词的语音识别而导致通用语音识别的效果下降的问题。
77.其中,热词信息可以体现为热词的子词信息和音素信息,相应地,热词的词向量的确定,过程具体可以包括:利用子词编码器模块对热词的子词进行编码,得到子词编码结果,并利用音素编码器模块对热词的音素进行编码,得到音素编码结果;将子词编码结果和音素编码结果进行拼接处理和降维处理,得到热词的热向量。
78.另外,在本技术实施例中,确定热词的整词分数之前,可以利用音频编码器模块,对语音数据的声学特征进行编码,得到声学特征编码结果。如此,可以通过注意力机制,对声学特征编码结果进行注意力操作,以获取声学特征对应的第一声学语义向量。
79.另外,热词的词向量和第一声学语义向量之间的相似度的计算过程,具体可以包括:通过注意力机制,对热词的词向量和第一声学语义向量进行注意力操作;基于操作结果,计算热词的词向量和第一声学语义向量之间的相似度。其中,对于热词的词向量和第一声学语义向量之间的相似度的计算方式,本技术实施例可不做具体限定。例如,可以计算二者的余弦相似度,也可以通过计算二者的欧几里德距离而得到二者的相似度,还可以通过计算二者的曼哈顿距离而得到二者的相似度。在本技术实施例中,由于先对热词的词向量和第一声学语义向量进行注意力操作,而二者的余弦相似度为乘法注意力操作的一种形式,因此,优选的计算方式为计算二者的余弦相似度。
80.这里,发明人创造性地发现,在已有的针对热词的语音识别方案中,热词激励的过程均需要按照热词中的单字或子词的分数逐一进行激励。而在本技术实施例中,通过确定热词的整词分数,使得在进行热词激励时,可以直接按照整词分数进行热词激励,避免了按照单字或子词逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。
81.s104:利用热词的整词分数对语音数据进行热词激励。
82.此外,在热词的语音识别过程中,语音数据在当前时刻的解码结果需要分别与热词库中的所有热词计算相似度,因此,在热词库的热词较多时,计算量会大幅增长。基于此,在本技术实施例中,为了减小热词语音识别的计算量,可以通过热词筛选的方式降低热词库的规模。具体来说,热词筛选的过程,可以包括:获取语音数据在当前时刻之前的已解码结果;通过注意力机制,获取已解码结果对应的第二声学语义向量;对第二声学语义向量进行分析,得到第二声学语义向量的首个音节信息;基于首个音节信息,从热词库中删除与首个音节信息不匹配的热词,并以删除与首个音节信息不匹配的热词后的热词库进行语音数据识别。这里,对第二声学语义向量进行分析的过程,具体包括:利用音节分类模块,对第二声学语义向量进行音节分类,得到第二声学语义向量的首个音节信息;其中,在第二声学语义向量为中文语音数据对应的向量时,首个音节信息为拼音信息;在第二声学语义向量为英文语音数据对应的向量时,首个音节信息为字词信息。举例来说,第二声学语义向量的首个音节信息为“xiao”,而热词库中的热词以“小明”和“李华”为例,相应地,“小明”的首个音节信息为“xiao”,而“李华”的首个音节信息为“li”,因此,可以从热词库中删除“李华”。
83.基于上述s101-s104的相关内容可知,在本技术实施例中,获取语音数据以及热词库后,可以根据语音数据,确定语音数据的声学特征,并基于热词库中保存的热词和声学特征,确定热词的整词分数,再利用热词的整词分数对语音数据进行热词激励。可见,通过确定热词库中的热词的整词分数,在进行热词激励时,可以直接按照整词分数进行热词激励,因此,可以避免按照单字或子词的分数逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。
84.由于上述方法均通过语音识别模型来实现,而为了扩充语音识别模型的词库,本技术实施例提供了构建新的词库的一种可能的实现方式,其具体可以包括s201-s203。下面分别结合实施例和附图,对s201-s203进行描述。
85.图2a为本技术实施例提供的一种构建新的词库的实现方式的流程图。结合图2a所示,s201-s203具体可以包括:
86.s201:获取语音识别模型的基础词库。
87.基础词库是指用于通用语音识别的词库。其中,基础词库可以包括单字和/或子词。对于基础词库的获取方式,本技术实施例可不做具体限定。例如,可以将基础词库保存于用于语音识别的数据处理设备,当需要时,该数据处理设备通过本地读取的方式获取基础词库。或者,可以将基础词库保存于其他数据存储设备,数据处理设备可以在需要时,通过访问数据存储设备的方式获取基础词库。
88.s202:基于基础词库中的单字和/或子词,以及热词库中的热词,构建新的词库。
89.对于新的词库的构建方式,本技术实施例可不具体限定。为了便于理解,下面结合一种可能的实施方式进行说明。
90.在一种可能的实施方式中,s202具体可以包括:获取单字和/或子词的分数;对单字和/或子词的分数,以及热词的整词分数进行拼接处理,生成新的词库;新的词库以单字和/或子词,以及热词为元素构建。具体地,对单字和/或子词的分数,以及热词的整词分数进行拼接处理的过程,具体可以包括:按照预先设定的第一分数公式对单字和/或子词的分数进行处理,并按照预先设定的第二分数公式对热词的整词分数进行处理;将处理后的新分数作为新的词库中对应的元素的分数。
91.在本技术实施例中,第一分数公式可以体现为:
92.s1′
=s1×
[1-(1-p)
×
k]
[0093]
其中,s1’
为单字和/或子词处理后的分数,s1为单字和/或子词的分数,p为不存在热词的概率,k为预先设定的热词系数。
[0094]
需要说明的是,不存在热词的概率p是指一个特殊的热词“nobias”的分数,该热词可以表示不存在热词。
[0095]
相应地,第二分数公式可以体现为:
[0096]
s2′
=s2×k[0097]
其中,s2’
为热词库中的热词处理后的整词分数,s2为热词库中的热词的整词分数,k为预先设定的热词系数。
[0098]
另外,预先设定的热词系数越大,经过处理的热词的整词分数越大,热词的后续激励效果越好,但相应地,热词的误识别率会增大。因此,在本技术实施例中,预先设定的热词系数的取值为0.5。
[0099]
为了便于理解,结合图2b所示,本技术实施例可以提供一种新的词库的构建方式的示意图。在图2b中,基础词库中的单字和/或子词以“啊
”……“
最”为例,热词库中的热词以“nobias”、“张三”和“李四”为例。相应地,这些单字和/或子词以及热词库中的热词,可以先分别经过softmax处理,从而以概率的形式来表示单字和/或子词的分数以及热词的整词分数,再依据上述第一分数公式及第二分数公式进行两个词库的融合,具体来说,在图2b中,经过softmax处理后的基础词库的单字和/或子词的分数可以再乘以[1-(1-p)
×
k],经过softmax处理后的热词库的热词的整词分数可以再乘以k,从而得到新的词库中的元素的分数,实现新的词库的构建。
[0100]
s203:基于新的词库对语音数据进行热词激励。
[0101]
对于热词激励的方式,本技术实施例可不具体限定。为了便于理解,下面结合一种可能的实施方式进行说明。
[0102]
在一种可能的实施方式中,s203具体可以包括:将语音数据的解码结果与新的词库进行匹配;在新的词库中的热词与解码结果的匹配度大于或等于预设匹配度时,基于新的词库中的元素的分数,对语音数据进行热词激励。
[0103]
基于上述s201-s203的相关内容可知,通过基础词库和热词库构建新的词库,可以扩充语音识别模型的词库,从而在提高热词的语音识别准确性的同时,避免通用语音识别的效果下降。
[0104]
在上述热词库的构建过程中,用于构建热词库的热词大多是随机从语音数据的标注文本中提取的,因此,这些热词之间的相似度不高,差异较大,语音识别模型比较容易完成热词的语音识别。而这会导致语音识别模型在面对相似度较高的热词时,难以进行准确
识别。针对此问题,本技术实施例可以提供一种难例挖掘的方法,通过难例挖掘来提升语音识别模型的训练难度,从而提高语音识别模型的准确率。下面分别结合实施例和附图,对该难例挖掘的方法进行描述。
[0105]
图3为本技术实施例提供的一种难例挖掘的方法的流程图。结合图3所示,本技术实施例提供的难例挖掘方法,可以包括:
[0106]
s301:获取用于语音识别的预设热词词典。
[0107]
用于语音识别的预设热词词典,例如为通用的汉语热词词典、英语热词词典等。
[0108]
s302:确定预设热词词典中每两个预设热词之间的相似度,并按照从大到小的顺序对每两个预设热词之间的相似度进行排序。
[0109]
这里,预设热词词典中每两个预设热词之间的相似度的确定过程,具体可以包括:确定预设热词词典中的每个预设热词的词向量;确定每两个预设热词的词向量之间的相似度。其中,对于每两个预设热词的词向量之间的相似度的计算方式,本技术实施例可不做具体限定。例如,可以计算二者的余弦相似度,也可以通过计算二者的欧几里德距离而得到二者的相似度,还可以通过计算二者的曼哈顿距离而得到二者的相似度。在本技术实施例中,由于需要对热词的词向量和第一声学语义向量之间的相似度进行计算,因此,在计算每两个预设热词的词向量之间的相似度时,优选的计算方式可以体现为采用与热词的词向量和第一声学语义向量之间的相似度的计算方式相同的计算方式。
[0110]
s303:基于排序结果,从预设热词词典中确定每个预设热词的相似热词。
[0111]
对于每个预设热词的相似热词的确定方式,本技术实施例可不做具体限定。为了便于理解,下面结合一种可能的实施方式进行说明。
[0112]
在一种可能的实施方式中,s303具体可以包括:从预设热词词典中确定第一目标热词;基于排序结果,确定第一目标热词与预设热词词典中除第一目标热词外的每个预设热词的相似度;根据预先设定的选取规则,并基于第一目标热词与预设热词词典中除第一目标热词外的每个预设热词的相似度,确定第一目标热词的相似热词。这里,预先设定的选取规则,例如是选取相似度前5名的预设热词作为相似热词,或者是选取相似度前10名的预设热词作为相似热词,此处不做限定。在实际应用中,第一目标热词以“interesting”为例,从预设热词词典中选取部分预设热词,计算相似度而得到如下表2所示的排序结果。可以理解地,对于排序结果的表示形式,本技术实施例可不做具体限定。
[0113]
表2
[0114]
第一目标热词从预设热词词典中选取的部分预设热词二者的相似度interestinginterested0.9459interestinginterestingly0.9292interestinginterests0.9238interestinginterest0.9235interestinginterestrate0.8601interestingintracity0.7557interestingintrastate0.7198interestingintrasystem0.697
[0115]
结合表2所示,如果预先设定的选取规则为选取相似度前5名的预设热词作为相似
热词,则第一目标热词“interesting”的相似热词为“interested”、“interestingly”、“interests”、“interest”和“interestrate”。
[0116]
另外,在相似热词的确定过程中,不仅可以针对第一目标热词进行操作,同时还可以针对预设热词词典中的任一预设热词进行操作,从而确定预设热词词典中每个预设热词的相似热词。为了便于理解针对预设热词词典中某一特定热词的相似热词的确定方式,在本技术实施例中,以第一目标热词为示例做出详细说明。
[0117]
s304:若热词库和预设词典中均存在语音数据对应的热词,则从语音数据对应的热词的相似热词中择一加入热词库。
[0118]
基于以上s301-s304的相关内容可知,通过确定预设词典中的每个词的相似热词,并从语音数据对应的热词的相似热词中选取一个加入热词库,可以有效地模拟相似热词干扰的情况,增加语音识别模型的训练难度,从而提升语音识别模型针对相似热词的区分度,提高语音识别模型针对热词的识别准确率。
[0119]
目前,采用固定词库时,已有的语音识别模型可以取得良好的识别效果,但是,由于热词具有用户特性和时效性,因此,热词词库是变化词库而不是固定词库。在这种情况下,语音识别模型的识别准确率就会受到影响。针对此问题,本技术实施例可以提供一种语音识别模型的更新方法,通过对语音识别模型的更新而提高语音识别模型的准确率。下面分别结合实施例和附图,对该语音识别模型的更新方法进行描述。
[0120]
图4为本技术实施例提供的一种语音识别模型的更新方法的流程图。结合图4所示,本技术实施例提供的语音识别模型的更新方法,可以包括:
[0121]
s401:基于softmax损失函数,确定目标函数。
[0122]
对于目标函数的确定方式,本技术实施例可不做具体限定。为了便于理解,下面结合一种可能的实施方式进行说明。
[0123]
在一种可能的实施方式中,s401具体可以包括:确定语音识别模型的训练样本的数量;训练样本包括热词库中的热词;根据训练样本的数量和热词库中的热词的整词分数,计算softmax损失函数,并以softmax损失函数作为目标函数。
[0124]
在本技术实施例中,可以将语音数据的当前解码结果中的热词确定为第二目标热词,并从热词库中确定除第二目标热词之外的其他热词,对应于此,softmax损失函数具体可以通过如下公式实现:
[0125][0126]
其中,为softmax损失函数,n为训练样本的数量,i表示第二目标热词,si为第二目标热词的整词分数,sj为其他热词的整词分数,c为其他热词的数量。
[0127]
s402:利用目标函数对语音识别模型进行更新。
[0128]
在本技术实施例中,以softmax损失函数确定的目标函数越小,则可以表示语音识别模型拟合得越好,在语音识别模型的准确率越高。
[0129]
结合上述s401-s402的相关内容可知,利用softmax损失函数对语音识别模型进行更新,可以使得语音识别模型为语音数据的当前解码结果中的热词分配更高的整词分数,
从而解决热词误识别的问题,提高语音识别模型的识别准确率。
[0130]
基于上述实施例提供的语音识别方法,本技术实施例还提供了一种语音识别系统。下面分别结合实施例和附图,对该语音识别系统进行描述。
[0131]
图5为本技术实施例提供的一种语音识别系统的结构示意图。结合图5所示,本技术实施例提供的语音识别系统500,可以包括:
[0132]
解码器501,可以用于获取语音数据在当前时刻之前的已解码结果。其中,解码器501具体可以采用结合注意力机制的lstm(long short-term memory,长短期记忆网络)网络来构建。
[0133]
第一注意力层502,可以与解码器501连接。该第一注意力层502用于通过注意力机制,对解码器501输出的已解码结果进行注意力操作,得到第二声学语义向量。如此,可以利用第二声学语义信息进行通用语音识别,也可以基于第二声学语义向量进行热词筛选,降低热词库的规模。
[0134]
相应地,第一分数层503,可以分别与解码器501以及第一注意力层502连接。第一分数层503可以用于根据解码器501输出的已解码结果以及第一注意力层502输出的第二声学语义信息,确定基础词库中的单字和/或子词的分数。如此,后续可以利用基础词库进行通用语音识别。
[0135]
音频编码器504,可以用于对语音数据的声学特征进行编码,得到声学特征编码结果。
[0136]
第二注意力层505,可以分别与音频编码器504以及解码器501连接。其中,第二注意力层505可以用于通过注意力机制,并结合解码器501输出的已解码结果,对音频编码器504输出的声学特征编码结果进行注意力操作,以获取声学特征对应的第一声学语义向量。
[0137]
子词编码器506,可以用于对热词的子词进行编码,得到子词编码结果。其中,子词编码器506可以基于lstm(long short-term memory,长短期记忆网络)构建。
[0138]
音素编码器507,可以用于对热词的音素进行编码,得到音素编码结果。其中,音素编码器507亦可以基于lstm构建。
[0139]
转换层508,可以分别连接子词编码器506和音素编码器507。转换层508可以用于将子词编码器506输出的子词编码结果,以及音素编码器507输出的音素编码结果进行拼接处理和降维处理,得到热词的热向量。
[0140]
第三注意力层509,可以分别与第二注意力层505以及转换层508连接。第三注意力层509可以用于通过注意力机制,对转换层508输出的热词的词向量以及第二注意力层505输出的第一声学语义向量进行注意力操作。如此,后续可以根据操作结果进一步确定热词的整词分数。
[0141]
相应地,第二分数层510,可以与第三注意力层509连接。第二分数层510可以用于对第三注意力层509输出的操作结果进行计算,得到热词的整词分数。
[0142]
另外,在本技术实施例中,语音识别系统500还可以包括:融合层511。该融合层511,可以与第一分数层503以及第二分数层510连接,用于对第一分数层503输出的基础词库中单字和/或子词的分数,以及二分数层510输出的热词库中热词的整词分数进行融合,以构建新的词库。这样,通过融合层511进行分数的融合,也就是基于基础词库和热词库构建新的词库,可以扩充语音识别模型的词库,从而可以在提高热词的语音识别准确性的同
时,避免通用语音识别的效果下降。
[0143]
进一步地,在本技术实施例中,上述语音识别系统500具体可以用于语音识别模型。相应地,该语音识别系统500还可以包括:softmax函数层512。该softmax函数层512与第二分数层510连接,可以用于根据语音识别模型的训练样本的数量,以及第二分数层510输出的热词的整词分数计算softmax损失函数来作为目标函数,并利用目标函数对语音识别模型进行更新。
[0144]
在本技术实施例中,为了实现热词筛选,该语音识别系统还可以包括音节分类层513。音节分类层513可以分别与第一注意力层502和第二分数层510连接。具体来说,该音节分类层503用于对第一注意力层502输出的第二声学语义向量进行分析,得到第二声学语义向量的首个音节信息,并基于首个音节信息,从热词库中删除与首个音节信息不匹配的热词,并将删除结果输入至第二分数层510,以便第二分数层510根据删除与首个音节信息不匹配的热词后的热词库确定热词的整词分数,从而实现热词筛选,以减小热词语音识别的计算量,降低热词库的规模。
[0145]
基于上述实施例提供的语音识别方法,本技术实施例还提供了一种语音识别装置。下面分别结合实施例和附图,对该语音识别装置进行描述。
[0146]
图6为本技术实施例提供的一种语音识别装置的结构示意图。结合图6所示,本技术实施例提供的语音识别装置600,可以包括:
[0147]
数据获取模块601,用于获取语音数据以及热词库;热词库包括热词;
[0148]
声学特征确定模块602,用于根据语音数据,确定语音数据的声学特征;
[0149]
整词分数确定模块603,用于基于热词库中的热词和声学特征,确定热词的整词分数;
[0150]
热词激励模块604,用于利用热词的整词分数对语音数据进行热词激励。
[0151]
作为一种实施方式,为了提高热词的语音识别的准确率,整词分数确定模块603,具体可以包括:
[0152]
词向量确定模块,用于根据热词对应的热词信息,确定热词的词向量;
[0153]
第一声学语义向量模块,用于通过注意力机制,获取声学特征对应的第一声学语义向量;
[0154]
相似度计算模块,用于计算热词的词向量和第一声学语义向量之间的相似度,作为热词的整词分数。
[0155]
作为一种实施方式,为了提高热词的语音识别的准确率,上述语音识别装置600可以采用语音识别模型实现。相应地,上述语音识别装置600还可以包括:
[0156]
基础词库获取模块,用于获取语音识别模型的基础词库;基础词库包括单字和/或子词;
[0157]
新的词库构建模块,用于基于基础词库中的单字和/或子词,以及热词库中的热词,构建新的词库;
[0158]
第一热词激励模块,用于基于新的词库对语音数据进行热词激励。
[0159]
作为一种实施方式,为了提高热词的语音识别的准确率,新的词库构建模块,具体可以包括:
[0160]
分数获取模块,用于获取单字和/或子词的分数;
[0161]
分数拼接模块,用于对单字和/或子词的分数,以及热词的整词分数进行拼接处理,生成新的词库;新的词库以单字和/或子词,以及热词为元素构建。
[0162]
作为一种实施方式,为了提高热词的语音识别的准确率,第一热词激励模块,具体可以包括:
[0163]
匹配模块,用于将语音数据的解码结果与新的词库进行匹配;
[0164]
第二热词激励模块,用于在新的词库中的热词与解码结果的匹配度大于或等于预设匹配度时,基于新的词库中的元素的分数,对语音数据进行热词激励。
[0165]
作为一种实施方式,为了提高热词的语音识别的准确率,上述语音识别装置600还可以包括:
[0166]
词典获取模块,用于获取用于语音识别的预设热词词典;
[0167]
相似度排序模块,用于确定预设热词词典中每两个预设热词之间的相似度,并按照从大到小的顺序对每两个预设热词之间的相似度进行排序;
[0168]
相似热词确定模块,用于基于排序结果,从预设热词词典中确定每个预设热词的相似热词;
[0169]
热词库更新模块,用于若热词库和预设热词词典中均存在语音数据对应的热词,则从语音数据对应的热词的相似热词中择一加入热词库。
[0170]
作为一种实施方式,为了提高热词的语音识别的准确率,上述语音识别装置600还可以包括:
[0171]
解码结果获取模块,用于获取语音数据在当前时刻之前的已解码结果;
[0172]
第二声学语义向量获取模块,用于通过注意力机制,获取已解码结果对应的第二声学语义向量;
[0173]
第二声学语义向量分析模块,用于对第二声学语义向量进行分析,得到第二声学语义向量的首个音节信息;
[0174]
热词删除模块,用于基于首个音节信息,从热词库中删除与首个音节信息不匹配的热词,并以删除与首个音节信息不匹配的热词后的热词库进行语音识别。
[0175]
作为一种实施方式,为了提高热词的语音识别的准确率,上述语音识别装置600可以采用语音识别模型实现。相应地,上述语音识别装置600还可以包括:
[0176]
第一目标函数确定模块,用于基于softmax损失函数,确定目标函数;
[0177]
语音识别模型更新模块,用于利用目标函数对语音识别模型进行更新。
[0178]
作为一种实施方式,为了提高热词的语音识别的准确率,第一目标函数确定模块,具体可以包括:
[0179]
训练样本的数量确定模块,用于确定语音识别模型的训练样本的数量;训练样本包括热词库中的热词;
[0180]
第二目标函数确定模块,用于根据训练样本的数量和热词库中的热词的整词分数,计算softmax损失函数,并以softmax损失函数作为目标函数。
[0181]
进一步地,本技术实施例还提供了一种设备,包括:处理器、存储器、系统总线;
[0182]
所述处理器以及所述存储器通过所述系统总线相连;
[0183]
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法的任一种实现方法。
[0184]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音识别方法的任一种实现方法。
[0185]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0186]
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0187]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0188]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种语音识别方法,其特征在于,包括:获取语音数据以及热词库;所述热词库包括热词;根据所述语音数据,确定所述语音数据的声学特征;基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数;利用所述热词的整词分数对所述语音数据进行热词激励。2.根据权利要求1所述的方法,其特征在于,所述基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数,包括:根据所述热词对应的热词信息,确定所述热词的词向量;通过注意力机制,获取所述声学特征对应的第一声学语义向量;计算所述热词的词向量和所述第一声学语义向量之间的相似度,作为所述热词的整词分数。3.根据权利要求1所述的方法,其特征在于,所述方法通过语音识别模型实现;所述方法还包括:获取所述语音识别模型的基础词库;所述基础词库包括单字和/或子词;基于所述基础词库中的单字和/或子词,以及所述热词库中的热词,构建新的词库;基于所述新的词库对所述语音数据进行热词激励。4.根据权利要求3所述的方法,其特征在于,所述基于所述基础词库中的单字和/或子词,以及所述热词库中的热词,构建新的词库,包括:获取所述单字和/或子词的分数;对所述单字和/或子词的分数,以及所述热词的整词分数进行拼接处理,生成所述新的词库;所述新的词库以所述单字和/或子词,以及所述热词为元素构建。5.根据权利要求3所述的方法,其特征在于,所述基于所述新的词库对所述语音数据进行热词激励,包括:将所述语音数据的解码结果与所述新的词库进行匹配;在所述新的词库中的热词与所述解码结果的匹配度大于或等于预设匹配度时,基于所述新的词库中的元素的分数,对所述语音数据进行热词激励。6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:获取用于语音识别的预设热词词典;确定所述预设热词词典中每两个预设热词之间的相似度,并按照从大到小的顺序对所述每两个预设热词之间的相似度进行排序;基于排序结果,从所述预设热词词典中确定每个预设热词的相似热词;若所述热词库和所述预设热词词典中均存在所述语音数据对应的热词,则从所述语音数据对应的热词的相似热词中择一加入所述热词库。7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:获取所述语音数据在当前时刻之前的已解码结果;通过注意力机制,获取所述已解码结果对应的第二声学语义向量;对所述第二声学语义向量进行分析,得到所述第二声学语义向量的首个音节信息;基于所述首个音节信息,从所述热词库中删除与所述首个音节信息不匹配的热词,并以删除与所述首个音节信息不匹配的热词后的热词库进行语音识别。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述方法通过语音识别模型实现;所述方法还包括:基于softmax损失函数,确定目标函数;利用所述目标函数对所述语音识别模型进行更新。9.根据权利要求8所述的方法,其特征在于,所述基于softmax损失函数,确定目标函数,包括:确定所述语音识别模型的训练样本的数量;所述训练样本包括所述热词库中的热词;根据所述训练样本的数量和所述热词库中的热词的整词分数,计算所述softmax损失函数,并以所述softmax损失函数作为所述目标函数。10.一种语音识别装置,其特征在于,包括:数据获取模块,用于获取语音数据以及热词库;所述热词库包括热词;声学特征确定模块,用于根据所述语音数据,确定所述语音数据的声学特征;整词分数确定模块,用于基于所述热词库中的热词和所述声学特征,确定所述热词的整词分数;热词激励模块,用于利用所述热词的整词分数对所述语音数据进行热词激励。11.一种语音识别设备,其特征在于,所述设备包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至9任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至9任一项所述的方法。

技术总结


本申请公开了一种语音识别方法及相关产品,该方法可以包括:获取语音数据以及热词库;热词库包括热词;根据语音数据,确定语音数据的声学特征;基于热词库中的热词和声学特征,确定热词的整词分数;利用热词的整词分数对语音数据进行热词激励。通过确定热词库中的热词的整词分数,在进行热词激励时,可以直接按照整词分数进行热词激励,因此,可以避免按照单字或子词的分数逐一进行激励而导致的整词激励失败的问题,从而提高热词语音识别的准确率。率。率。


技术研发人员:

王孟之 万根顺 潘嘉 刘聪 胡国平 胡郁

受保护的技术使用者:

科大讯飞股份有限公司

技术研发日:

2022.08.08

技术公布日:

2022/11/8

本文发布于:2022-11-28 19:37:31,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/11142.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:词库   所述   声学   分数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图