1.本技术涉及但不限于信息技术领域,尤其涉及一种信息处理方法、信息处理装置和电子设备。
背景技术:
2.端到端语音识别,凭借着训练简便,流程简单等特点,逐渐取代传统混合语音识别模型。然而,目前的端到端语音识别模型,在用户发出语音后,不能够及地得到最终语音识别结果。
技术实现要素:
3.本技术实施例期望提供一种信息处理方法、信息处理装置和电子设备。
4.本技术的技术方案是这样实现的:
5.一种信息处理方法,
所述方法包括:
6.将获得的待识别语音数据输入语音识别模型;
7.通过所述语音识别模型的编码模块对所述待识别语音数据进行编码得到编码特征,并通过所述语音识别模型的连接时序分类模块对所述编码特征进行处理得到
多个候选结果以及所述多个候选结果的置信度
评分;
8.按照置信度评分由大到小的顺序和筛选
数量范围,对所述多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于所述筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;
9.将所述多个筛选结果输入所述语音识别模型的解码模块,得到所述待识别语音数据的语音识别结果。
10.一种信息处理装置,所述信息处理装置包括:
11.输入模块,用于将获得的待识别语音数据输入语音识别模型;
12.语音识别模型的编码模块,用于对所述待识别语音数据进行编码得到编码特征;
13.语音识别模型的连接时序分类模块,用于对所述编码特征进行处理得到多个候选结果以及所述多个候选结果的置信度评分;
14.筛选模块,用于按照置信度评分由大到小的顺序和筛选数量范围,对所述多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于所述筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;
15.语音识别模型的解码模块,用于将所述多个筛选结果作为输入,输出所述待识别语音数据的语音识别结果。
16.一种电子设备,所述电子设备包括:处理器、存储器和通信总线;
17.所述通信总线用于实现处理器和存储器之间的通信连接;
18.所述处理器用于执行存储器中存储的信息处理程序,以实现上述的信息处理方法
的步骤。
19.一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的信息处理方法的步骤。
20.本技术实施例所提供的信息处理方法、信息处理装置和电子设备,将获得的待识别语音数据输入语音识别模型;通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果;也就是说,本技术根据按照置信度评分由大到小的顺序对连接时序分类模块生成的所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,则停止进行筛选,从而动态地减少输入到解码模块的候选结果,减少计算量,达到降低延时的目的,及时输出语音识别结果。
附图说明
21.图1为本技术的实施例提供的信息处理方法的流程示意图一;
22.图2为本技术的实施例提供的信息处理方法的场景示意图;
23.图3为本技术的实施例提供的信息处理方法的流程示意图二;
24.图4为本技术的实施例提供的密度聚类的场景示意图;
25.图5为本技术的实施例提供的信息处理方法的流程示意图三;
26.图6为本技术的实施例提供的信息处理方法的流程示意图四;
27.图7为本技术的实施例提供的基于密度筛选的流程示意图;
28.图8为本技术的实施例提供的信息处理方法的流程示意图五;
29.图9为本技术的实施例提供的基于对数概率搜索的流程示意图;
30.图10为本技术的实施例提供的信息处理方法的流程示意图六;
31.图11为本技术的实施例提供的一种信息处理装置的结构示意图;
32.图12为本技术的实施例提供的一种电子设备的结构示意图。
具体实施方式
33.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包
括对于这些过程、方法、产品或设备固有的其他步骤或单元。
35.本技术的实施例提供一种信息处理方法,该信息处理方法应用于电子设备,参照图1所示,该方法包括以下步骤:
36.步骤101、将获得的待识别语音数据输入语音识别模型。
37.本技术实施例中,电子设备可以向客户端如语音助手,即时通讯应用等提供语音识别服务。电子设备部署有语音识别模型,示例性的,该语音识别模型为端到端语音识别模型。语音识别模型可以根据调用请求,执行针对待识别语音数据的非实时语音识别任务或针对待识别语音数据的实时语音识别任务。
38.本技术实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理,专用消息设备,便携式游戏设备),智能机器人等任意具有屏幕显示功能的终端,也可以实施为服务器。
39.步骤102、通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分。
40.本技术实施例中,语音识别模型包括编码(encoder)模块、连接时序分类连接时序分类(connectionist temporal classification,ctc)模块以及解码(decoder)模块。
41.在一些实施例中,电子设备获得待识别语音数据后,对待识别语音数据进行声学特征提取。待识别语音数据可以包括多帧声音信号,可以对每帧声音信号分别提取声学特征。示例性的,声学特征表现形式包括fbank特征向量、梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)特征向量。
42.在一些实施例中,ctc模块可以基于声学特征预测对齐的输出文本,帮助端到语音识别模型中的注意力机制在模型训练的过程中保持单调,从而使得模型的输出文本与输入声学特征之间保持隐性对齐;示例性的,ctc模块可以按照非自回归解码方式进行解码并输出,并对ctc模块处理的结果作出进一步地筛选,得到中间结果输入解码模块,从而大幅提升解码模块的解码速度,提高语音识别速度。
43.在一些实施例中,可以对ctc模块进行ctc束搜索的beam大小进行合理设置,例如设置beam1,则ctc束搜索得到的候选结果的数量为s1;设置beam2,则ctc束搜索得到的候选结果的数量为s2;在beam1大于beam2的情况下,s1大于s2。
44.步骤103、按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果。
45.本技术实施例中,将ctc束搜索得到的所有的候选结果的可信度用置信度评分表示。置信度评分包括但不限于如下一种:以概率形式表示的候选结果的可信度,将上述概率用对数形式表示以表征候选结果的可信度。
46.在一些实施例中,筛选数量范围由设定的最大候选结果数和最小候选结果数决定。按照置信度评分由大到小的顺序对多个候选结果依次进行筛选,每当在当前进行筛选的候选结果的置信度评分发生突变的情况下,对筛选的候选结果数量统计一次,若统计得到筛选的候选结果数量位于筛选数量范围内,则停止筛选并且至少根据突变前参与筛选的候选结果,得到多个筛选结果。所筛选出的多个筛选结果将作为解码模块的输入内容,及时
输出语音识别结果。
47.步骤104、将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。
48.本技术实施例中,结合前述的筛选过程可知,按照ctc束搜索生成的所有的候选结果的置信度评分由大到小的顺序对所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内则停止进行筛选,从而动态地减少输入到解码模块的候选结果,减少计算量,达到降低延时的目的。
49.在一个可实现的筛选场景中,结合图2所示,首先,将获得的待识别语音数据输入语音识别模型;其次,通过语音识别模型的encoder模块对待识别语音数据进行编码得到编码特征;再次,通过语音识别模型的ctc模块对编码特征进行ctc束搜索得到所有的候选结果以及每一候选结果的置信度评分;进一步的,按照置信度评分由大到小的顺序对所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内,则停止进行筛选,至少根据突变前参与筛选的候选结果,得到多个筛选结果,如此,动态地减少输入到decoder模块的候选结果;最后,将多个筛选结果输入语音识别模型的decoder模块,得到待识别语音数据的语音识别结果。
50.本技术实施例提供一种信息处理方法,将获得的待识别语音数据输入语音识别模型;通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果;也就是说,本技术根据按照置信度评分由大到小的顺序对连接时序分类模块生成的所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,则停止进行筛选,从而动态地减少输入到解码模块的候选结果,减少计算量,达到降低延时的目的,及时输出语音识别结果。
51.本技术的实施例提供一种信息处理方法,该信息处理方法应用于电子设备,参照图3所示,在一种可实现的置信度评分发生突变的场景中,该方法包括以下步骤:
52.步骤201、将获得的待识别语音数据输入语音识别模型。
53.步骤202、通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分。
54.步骤203、按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行聚类;如果当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,则确定当前参与聚类的候选结果的置信度评分发生突变。
55.本技术实施例中,采用聚类的方式实现对ctc束搜索生成的所有的候选结果进行动态筛选。并且在判定当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇的
情况下,则确定当前参与聚类的候选结果的置信度评分发生突变,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果。
56.在一些实施例中,判定当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,可以参考置信度评分实现,示例性的,当前参与聚类的候选结果的置信度评分与已参与聚类的候选结果的置信度评分之间的差异较大时,则判定当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇。
57.本技术实施例中,步骤203中当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,可以通过如图4所示的步骤判定:
58.步骤2031、根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值。
59.本技术实施例中,第n次加入的候选结果对应的密度值可以通过如下公式计算:
[0060][0061]
进一步的,本技术采用密度聚类的方式,判定当前参与密度聚类的候选结果不属于已参与密度聚类的候选结果生成的簇,则确定当前参与密度聚类的候选结果的置信度评分发生突变,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果。
[0062]
步骤2032、若第n次加入的候选结果对应的密度值与第n-1次加入的候选结果对应的密度值之间的差值大于差值阈值,判定第n次加入并参与聚类的候选结果不属于已参与聚类的候选结果生成的簇。
[0063]
其中,n为大于1的正整数。
[0064]
在一个可实现的场景中,结合图5所示,将ctc束搜索得到的所有的候选结果的概率用对数形式表示得到置信度评分为例,可以理解的,概率值小于1,对数概率均小于0。进一步的,根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值。参照图5所示,其中,图5左侧横轴为所有的候选结果的标号,例如候选结果的总数为8,纵轴为不同标号的候选结果的对数概率;图5右侧横轴为上述所有的候选结果的标号,纵轴为不同标号的候选结果对应的密度值。将图5左侧对数概率分布图转换为图5右侧密度值分布图,可以明显得到所有的候选结果分为两个簇,其中,第一个簇为31所指的密度值对应的候选结果组成的簇;第二个簇为32所指的密度值对应的候选结果组成的簇。
[0065]
步骤204、若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果。
[0066]
本技术实施例中,步骤204若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果,可以通过如图6所示的步骤2041和步骤2042实现,或者通过图6所示的步骤2041和步骤2043实现:
[0067]
步骤2041、从前n-1次加入的候选结果对应的密度值中选择未参与聚类的密度最大值对应的候选结果作为第m类别聚类的种子点进行聚类筛选,得到第一候选结果。
[0068]
其中,m为大于等于1的正整数。
[0069]
本技术实施例中,以n取2为例进行说明,初始种子点为密度最大值对应的候选结果,参照图5所示,301所指的一个候选结果横坐标为密度最大值对应的候选结果的标号,纵坐标为密度最大值,示例性的,可以采用具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,dbscan)进行密度聚类。如果聚类第一个类别的候选结果数量位于筛选数量范围内,则完成筛选。
[0070]
步骤2042、若第一候选结果包含的候选结果的数量不满足筛选数量范围,从剩余未加入的候选结果对应的密度值中选择密度最大值作为第m+1类别聚类的种子点进行聚类筛选,直至得到的所有的候选结果包含的候选结果的数量位于筛选数量范围,得到多个筛选结果。
[0071]
本技术实施例中,如果聚类第一个类别的候选结果数量未达到筛选数量范围,则以第一个类别外的最大密度值作为种子点进行聚类,重复以上聚类筛选过程,直到满足要求为止。示例性的,参照图5所示,302所指的一个候选结果横坐标为剩余未加入的候选结果的密度最大值对应的候选结果的标号,纵坐标为密度最大值,进行密度聚类。
[0072]
步骤2043、若第m+x类别进行聚类筛选得到的候选结果与前m+x-1类别进行聚类筛选得到的候选结果的候选结果的数量超出筛选数量范围,去除第m+x类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到多个筛选结果。
[0073]
其中,x为大于等于0的整数,m+x大于等于m+1。
[0074]
本技术实施例中,如果加入某次聚类后得到的候选结果数量超出了筛选数量范围,则按照设定的最大数目根据概率大小进行截断,去除当前类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到多个筛选结果。
[0075]
在一个可实现的密度聚类场景中,结合图7所示,设定筛选数量范围[n
min
,n
max
],通过如下步骤实现聚类筛选:
[0076]
步骤401、将当前未参与聚类的密度最大值对应的候选结果作为聚类的种子点;
[0077]
步骤402、进行聚类筛选;
[0078]
步骤403、如果当前聚类的候选结果数量n0《n
min
,则以当前类别外的最大密度值作为种子点进行聚类,重复以上聚类筛选过程,直到大于等于n
min
。
[0079]
步骤404、如果当前聚类的候选结果数量n0》n
max
,则按照设定的n
max
根进行截断,例如去除聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到候选结果数量位于筛选数量范围内的多个筛选结果。
[0080]
步骤405、结束聚类,完成筛选,得到n
min
《n0《n
max
。
[0081]
步骤205、将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。
[0082]
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
[0083]
本技术的实施例提供一种信息处理方法,该信息处理方法应用于电子设备,参照图8所示,在另一种可实现的置信度评分发生突变的场景中,该方法包括以下步骤:
[0084]
步骤501、将获得的待识别语音数据输入语音识别模型。
[0085]
步骤502、通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特
征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分。
[0086]
步骤503、保留多个候选结果中置信度评分大于第二评分阈值的部分候选结果。
[0087]
本技术实施例中,保留多个候选结果中置信度评分大于第二评分阈值的部分候选结果作为解码模块的部分输入内容。
[0088]
步骤504、按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果中的剩余候选结果进行搜索;如果第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,确定置信度评分发生突变。
[0089]
其中,w为大于等于2的正整数。
[0090]
本技术实施例中,采用搜索的方式实现对ctc束搜索生成的所有的候选结果进行动态筛选。并且在判定第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,则确定当前参与搜索的候选结果的置信度评分发生突变,至少根据突变前参与搜索的候选结果,得到多个筛选结果。
[0091]
在一些实施例中,从多个候选结果中的剩余候选结果中向置信度评分变小的方向进行搜索的过程中,作为搜索参考候选结果的置信度评分包括但不限于:最大置信度评分、与当前参与搜索的参考候选结果的置信度评分相邻的前一个候选结果的置信度评分、与当前参与搜索的参考候选结果的置信度评分相邻的后一个候选结果的置信度评分。
[0092]
本技术实施例中,步骤504中第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件,包括如下之一:第w次搜索到的候选结果的置信度评分小于多个候选结果的置信度评分中最大置信度评分的a倍;其中,a为大于1的正整数;
[0093]
第w次搜索到的候选结果的置信度评分小于第w-1次搜索到的候选结果的置信度评分的b倍;其中,b为大于1的正整数;
[0094]
第w次搜索到的候选结果的置信度评分与第w+1次搜索到的候选结果的置信度评分的差值,小于第w-1次搜索到的候选结果的置信度评分的c倍,且小于第w次搜索到的候选结果的置信度评分;其中,c为大于1的正整数。
[0095]
在一个可实现的搜索场景中,结合图9所示,示例性的,以a=10,b=5,c=10为例,同时以置信度评分为对数概率pi为例进行说明:
[0096]
步骤601、当前候选结果的标号小于预设值;即当前参与搜索的候选结果的数量小于最大候选结果数;其中,i表征标号;
[0097]
步骤602、如果当前候选结果的对数概率pi《10p0,搜索立即停止;p0为最大对数概率;
[0098]
步骤603、如果当前候选结果的对数概率pi《5p
i-1
,搜索立即停止;
[0099]
步骤604、如果当前候选结果的对数概率p
i+1-pi《10(p
i-p
i-1
)且p
i+1-pi《pi,搜索停止;
[0100]
步骤605、进行下一次搜索,搜索到最后一个候选结果,搜索停止。
[0101]
如果搜索停止,将搜索停止位置之前所有的候选结果作为选中的候选结果,其余的筛除。
[0102]
在一些实施例中,ctc通过束搜索生成候选结果的概率值有可能相差不多,也有可
能相差数倍,数百倍甚至数万倍。本技术判定与最大概率值相差较大的候选结果不可能是最优结果,从而将其筛除,不用作解码模块的输入。
[0103]
步骤505、至少根据突变前参与筛选的候选结果,得到多个筛选结果。
[0104]
步骤506、将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。
[0105]
本技术一些实施例中,步骤205或者步骤506、将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果,可以通过如图10所示的步骤实现:
[0106]
步骤701、将多个筛选结果输入解码模块。
[0107]
步骤702、通过解码模块对多个筛选结果的置信度进行重新评分,并确定重新评分对应的归一化概率值。
[0108]
本技术实施例中,基于ctc模块按照非自回归解码方式进行解码得到的中间结果,使得每次解码只能输出一个字,如此,在解码过程中只能融合字级别的语言模型,而字级别的语言模型建模能力弱于词级别语言模型,本技术在解码的过程中,可以引入加权有限状态转换器网络(weighted finite state transducers,wfst)对ctc模块输出的字序列进行解码。
[0109]
步骤703、通过解码模块对具有最大归一化概率值的筛选结果进行解码,得到语音识别结果。
[0110]
本技术实施例中,wfst网络可以根据字序列确定一个或多个筛选结果以及筛选结果对应的评分。进一步的,通过softmax()归一化函数,对各个筛选结果对应的评分进行归一化处理,得到各个筛选结果对应的归一化概率值。
[0111]
这里,筛选结果的归一化概率值越大,表示该筛选结果出现的可能性越大。因此将具有最大概率值的筛选结果作为最终的语音识别结果。
[0112]
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
[0113]
本技术的实施例提供一种信息处理装置,该信息处理装置可以应用于图1、图3、图8对应的实施例提供的一种信息处理方法中,参照图11所示,该信息处理装置8包括:
[0114]
输入模块801,用于将获得的待识别语音数据输入语音识别模型;
[0115]
语音识别模型的编码模块802,用于对待识别语音数据进行编码得到编码特征;
[0116]
语音识别模型的连接时序分类模块803,用于对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;
[0117]
筛选模块804,用于按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;
[0118]
语音识别模型的解码模块805,用于将多个筛选结果作为输入,输出待识别语音数据的语音识别结果。
[0119]
在本技术的其他实施例中,筛选模块804,用于按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行聚类;如果当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,则确定当前参与聚类的候选结果的置信度评分发生突变。
[0120]
在本技术的其他实施例中,筛选模块804,用于根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值;若第n次加入的候选结果对应的密度值与第n-1次加入的候选结果对应的密度值之间的差值大于差值阈值,判定第n次加入并参与聚类的候选结果不属于已参与聚类的候选结果生成的簇;其中,n为大于1的正整数。
[0121]
在本技术的其他实施例中,筛选模块804,用于从前n-1次加入的候选结果对应的密度值中选择未参与聚类的密度最大值对应的候选结果作为第m类别聚类的种子点进行聚类筛选,得到第一候选结果;其中,m为大于等于1的正整数;若第一候选结果包含的候选结果的数量不满足筛选数量范围,从剩余未加入的候选结果对应的密度值中选择密度最大值作为第m+1类别聚类的种子点进行聚类筛选,直至得到的所有的候选结果包含的候选结果的数量位于筛选数量范围,得到多个筛选结果
[0122]
在本技术的其他实施例中,筛选模块804,用于若第m+x类别进行聚类筛选得到的候选结果与前m+x-1类别进行聚类筛选得到的候选结果的候选结果的数量超出筛选数量范围,去除第m+x类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到多个筛选结果;其中,x为大于等于0的整数,m+x大于等于m+1。
[0123]
在本技术的其他实施例中,筛选模块804,用于保留多个候选结果中置信度评分大于第二评分阈值的部分候选结果;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果中的剩余候选结果进行搜索;如果第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,确定置信度评分发生突变;其中,w为大于等于2的正整数。
[0124]
在本技术的其他实施例中,第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件,包括如下之一:
[0125]
第w次搜索到的候选结果的置信度评分小于多个候选结果的置信度评分中最大置信度评分的a倍;其中,a为大于1的正整数;
[0126]
第w次搜索到的候选结果的置信度评分小于第w-1次搜索到的候选结果的置信度评分的b倍;其中,b为大于1的正整数;
[0127]
第w次搜索到的候选结果的置信度评分与第w+1次搜索到的候选结果的置信度评分的差值,小于第w-1次搜索到的候选结果的置信度评分的c倍,且小于第w次搜索到的候选结果的置信度评分;其中,c为大于1的正整数。
[0128]
在本技术的其他实施例中,语音识别模型的解码模块805,用于对多个筛选结果的置信度进行重新评分,并确定重新评分对应的归一化概率值;对具有最大归一化概率值的筛选结果进行解码,输出语音识别结果。
[0129]
本技术实施例提供一种信息处理装置,将获得的待识别语音数据输入语音识别模型;通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果;也就是说,本
申请根据按照置信度评分由大到小的顺序对连接时序分类模块生成的所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,则停止进行筛选,从而动态地减少输入到解码模块的候选结果,减少计算量,达到降低延时的目的,及时输出语音识别结果。
[0130]
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1、图3、图8对应的实施例提供的信息处理方法中的实现过程,此处不再赘述。
[0131]
本技术的实施例提供一种电子设备,该电子设备可以应用于图1、图3、图8对应的实施例提供的一种信息处理方法中,参照图12所示,该电子设备9(图12中的电子设备9与图11中的信息处理装置8对应)包括:处理器901、存储器902和通信总线903,其中:
[0132]
通信总线903用于实现处理器901和存储器902之间的通信连接。
[0133]
处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0134]
将获得的待识别语音数据输入语音识别模型;
[0135]
通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;
[0136]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;
[0137]
将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。
[0138]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0139]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行聚类;如果当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,则确定当前参与聚类的候选结果的置信度评分发生突变。
[0140]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0141]
根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值;
[0142]
若第n次加入的候选结果对应的密度值与第n-1次加入的候选结果对应的密度值之间的差值大于差值阈值,判定第n次加入并参与聚类的候选结果不属于已参与聚类的候选结果生成的簇;其中,n为大于1的正整数。
[0143]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0144]
从前n-1次加入的候选结果对应的密度值中选择未参与聚类的密度最大值对应的候选结果作为第m类别聚类的种子点进行聚类筛选,得到第一候选结果;其中,m为大于等于1的正整数;
[0145]
若第一候选结果包含的候选结果的数量不满足筛选数量范围,从剩余未加入的候选结果对应的密度值中选择密度最大值作为第m+1类别聚类的种子点进行聚类筛选,直至
得到的所有的候选结果包含的候选结果的数量位于筛选数量范围,得到多个筛选结果。
[0146]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0147]
若第m+x类别进行聚类筛选得到的候选结果与前m+x-1类别进行聚类筛选得到的候选结果的候选结果的数量超出筛选数量范围,去除第m+x类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到多个筛选结果;其中,x为大于等于0的整数,m+x大于等于m+1。
[0148]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0149]
保留多个候选结果中置信度评分大于第二评分阈值的部分候选结果;
[0150]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果中的剩余候选结果进行搜索;如果第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,确定置信度评分发生突变;其中,w为大于等于2的正整数。
[0151]
在本技术的其他实施例中,第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件,包括如下之一:
[0152]
第w次搜索到的候选结果的置信度评分小于多个候选结果的置信度评分中最大置信度评分的a倍;其中,a为大于1的正整数;
[0153]
第w次搜索到的候选结果的置信度评分小于第w-1次搜索到的候选结果的置信度评分的b倍;其中,b为大于1的正整数;
[0154]
第w次搜索到的候选结果的置信度评分与第w+1次搜索到的候选结果的置信度评分的差值,小于第w-1次搜索到的候选结果的置信度评分的c倍,且小于第w次搜索到的候选结果的置信度评分;其中,c为大于1的正整数。
[0155]
在本技术的其他实施例中,处理器901用于执行存储器902中存储的信息处理程序,以实现以下步骤:
[0156]
将多个筛选结果输入解码模块;
[0157]
通过解码模块对多个筛选结果的置信度进行重新评分,并确定重新评分对应的归一化概率值;
[0158]
通过解码模块对具有最大归一化概率值的筛选结果进行解码,得到语音识别结果。
[0159]
本技术实施例所提供的方法可以直接体现为由处理器901执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器902,处理器901读取存储器902中软件模块包括的可执行指令,结合必要的硬件完成本技术实施例提供的方法。
[0160]
作为示例,处理器可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
[0161]
本技术实施例提供一种电子设备,将获得的待识别语音数据输入语音识别模型;通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别
模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果;也就是说,本技术根据按照置信度评分由大到小的顺序对连接时序分类模块生成的所有的候选结果进行动态筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选的候选结果数量位于筛选数量范围内,则停止进行筛选,从而动态地减少输入到解码模块的候选结果,减少计算量,达到降低延时的目的,及时输出语音识别结果。
[0162]
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1、图3、图8对应的实施例提供的信息处理方法中的实现过程,此处不再赘述。
[0163]
本技术的实施例提供一种计算机可读存储介质,该存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如下步骤:
[0164]
将获得的待识别语音数据输入语音识别模型;
[0165]
通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;
[0166]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;
[0167]
将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。
[0168]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0169]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行聚类;如果当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,则确定当前参与聚类的候选结果的置信度评分发生突变。
[0170]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0171]
根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值;
[0172]
若第n次加入的候选结果对应的密度值与第n-1次加入的候选结果对应的密度值之间的差值大于差值阈值,判定第n次加入并参与聚类的候选结果不属于已参与聚类的候选结果生成的簇;其中,n为大于1的正整数。
[0173]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0174]
从前n-1次加入的候选结果对应的密度值中选择未参与聚类的密度最大值对应的候选结果作为第m类别聚类的种子点进行聚类筛选,得到第一候选结果;其中,m为大于等于1的正整数;
[0175]
若第一候选结果包含的候选结果的数量不满足筛选数量范围,从剩余未加入的候选结果对应的密度值中选择密度最大值作为第m+1类别聚类的种子点进行聚类筛选,直至得到的所有的候选结果包含的候选结果的数量位于筛选数量范围,得到多个筛选结果。
[0176]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0177]
若第m+x类别进行聚类筛选得到的候选结果与前m+x-1类别进行聚类筛选得到的候选结果的候选结果的数量超出筛选数量范围,去除第m+x类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到多个筛选结果;其中,x为大于等于0的整数,m+x大于等于m+1。
[0178]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0179]
保留多个候选结果中置信度评分大于第二评分阈值的部分候选结果;
[0180]
按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果中的剩余候选结果进行搜索;
[0181]
如果第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,确定置信度评分发生突变;其中,w为大于等于2的正整数。
[0182]
在本技术的其他实施例中,第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件,包括如下之一:
[0183]
第w次搜索到的候选结果的置信度评分小于多个候选结果的置信度评分中最大置信度评分的a倍;其中,a为大于1的正整数;
[0184]
第w次搜索到的候选结果的置信度评分小于第w-1次搜索到的候选结果的置信度评分的b倍;其中,b为大于1的正整数;
[0185]
第w次搜索到的候选结果的置信度评分与第w+1次搜索到的候选结果的置信度评分的差值,小于第w-1次搜索到的候选结果的置信度评分的c倍,且小于第w次搜索到的候选结果的置信度评分;其中,c为大于1的正整数。
[0186]
在本技术的其他实施例中,该一个或者多个程序可被一个或者多个处理器执行,还可以实现以下步骤:
[0187]
将多个筛选结果输入解码模块;
[0188]
通过解码模块对多个筛选结果的置信度进行重新评分,并确定重新评分对应的归一化概率值;
[0189]
通过解码模块对具有最大归一化概率值的筛选结果进行解码,得到语音识别结果。
[0190]
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1、图3、图8对应的实施例提供的信息处理方法中的实现过程,此处不再赘述。
[0191]
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0192]
上述计算机存储介质/存储器可以是只读存储器(read only memory,rom)、可编
程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性随机存取存储器(ferromagnetic random access memory,fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory,cd-rom)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
[0193]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“本技术实施例”或“前述实施例”或“一些实施例”或“一些实施方式”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本技术实施例”或“前述实施例”或“一些实施例”或“一些实施方式”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0194]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0195]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0196]
另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0197]
本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
[0198]
本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
[0199]
本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
[0200]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0201]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品
销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0202]
值得注意的是,本技术实施例中的附图只是为了说明各个器件在终端设备上的示意位置,并不代表在终端设备中的真实位置,各器件或各个区域的真实位置可根据实际情况(例如,终端设备的结构)作出相应改变或偏移,并且,图中的终端设备中不同部分的比例并不代表真实的比例。
[0203]
以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种信息处理方法,所述方法包括:将获得的待识别语音数据输入语音识别模型;通过所述语音识别模型的编码模块对所述待识别语音数据进行编码得到编码特征,并通过所述语音识别模型的连接时序分类模块对所述编码特征进行处理得到多个候选结果以及所述多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对所述多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于所述筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将所述多个筛选结果输入所述语音识别模型的解码模块,得到所述待识别语音数据的语音识别结果。2.根据权利要求1所述的方法,所述按照置信度评分由大到小的顺序和筛选数量范围,对所述多个候选结果进行筛选,包括:按照置信度评分由大到小的顺序和所述筛选数量范围,对所述多个候选结果进行聚类;如果当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,则确定所述当前参与聚类的候选结果的置信度评分发生突变。3.根据权利要求2所述的方法,所述当前参与聚类的候选结果不属于已参与聚类的候选结果生成的簇,通过如下步骤判定:根据聚类过程中第n次加入候选结果时已加入的候选结果的数量和置信度评分,生成第n次加入的候选结果对应的密度值;若第n次加入的候选结果对应的密度值与第n-1次加入的候选结果对应的密度值之间的差值大于差值阈值,判定第n次加入并参与聚类的候选结果不属于所述已参与聚类的候选结果生成的簇;其中,所述n为大于1的正整数。4.根据权利要求3所述的方法,所述在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于所述筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果,包括:从前n-1次加入的候选结果对应的密度值中选择未参与聚类的密度最大值对应的候选结果作为第m类别聚类的种子点进行聚类筛选,得到第一候选结果;其中,所述m为大于等于1的正整数;若所述第一候选结果包含的候选结果的数量不满足所述筛选数量范围,从剩余未加入的候选结果对应的密度值中选择密度最大值作为第m+1类别聚类的种子点进行聚类筛选,直至得到的所有的候选结果包含的候选结果的数量位于所述筛选数量范围,得到所述多个筛选结果。5.根据权利要求4所述的方法,所述方法还包括:若第m+x类别进行聚类筛选得到的候选结果与前m+x-1类别进行聚类筛选得到的候选结果的候选结果的数量超出所述筛选数量范围,去除所述第m+x类别进行聚类筛选得到的候选结果中候选结果对应的置信度评分小于第一评分阈值的候选结果,得到所述多个筛选结果;其中,所述x为大于等于0的整数,所述m+x大于等于所述m+1。6.根据权利要求1所述的方法,所述按照置信度评分由大到小的顺序和筛选数量范围,
对所述多个候选结果进行筛选,包括:保留所述多个候选结果中置信度评分大于第二评分阈值的部分候选结果;按照置信度评分由大到小的顺序和所述筛选数量范围,对所述多个候选结果中的剩余候选结果进行搜索;如果第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件的情况下,确定置信度评分发生突变;其中,所述w为大于等于2的正整数。7.根据权利要求6所述的方法,所述第w次搜索到的候选结果的置信度评分与作为搜索参考候选结果的置信度评分之间的关系满足搜索停止条件,包括如下之一:所述第w次搜索到的候选结果的置信度评分小于所述多个候选结果的置信度评分中最大置信度评分的a倍;其中,所述a为大于1的正整数;所述第w次搜索到的候选结果的置信度评分小于第w-1次搜索到的候选结果的置信度评分的b倍;其中,所述b为大于1的正整数;所述第w次搜索到的候选结果的置信度评分与第w+1次搜索到的候选结果的置信度评分的差值,小于第w-1次搜索到的候选结果的置信度评分的c倍,且小于第w次搜索到的候选结果的置信度评分;其中,所述c为大于1的正整数。8.根据权利要求1至7中任一项所述的方法,所述将所述多个筛选结果输入所述语音识别模型的解码模块,得到所述待识别语音数据的语音识别结果,包括:将多个筛选结果输入所述解码模块;通过所述解码模块对所述多个筛选结果的置信度进行重新评分,并确定重新评分对应的归一化概率值;通过所述解码模块对具有最大归一化概率值的筛选结果进行解码,得到所述语音识别结果。9.一种信息处理装置,包括:输入模块,用于将获得的待识别语音数据输入语音识别模型;语音识别模型的编码模块,用于对所述待识别语音数据进行编码得到编码特征;语音识别模型的连接时序分类模块,用于对所述编码特征进行处理得到多个候选结果以及所述多个候选结果的置信度评分;筛选模块,用于按照置信度评分由大到小的顺序和筛选数量范围,对所述多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于所述筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;语音识别模型的解码模块,用于将所述多个筛选结果作为输入,输出所述待识别语音数据的语音识别结果。10.一种电子设备,包括:处理器、存储器和通信总线;所述通信总线用于实现处理器和存储器之间的通信连接;所述处理器用于执行存储器中存储的信息处理程序,以实现如权利要求1至8中任一项所述的方法。
技术总结
本申请实施例公开了一种信息处理方法,该方法包括:将获得的待识别语音数据输入语音识别模型;通过语音识别模型的编码模块对待识别语音数据进行编码得到编码特征,并通过语音识别模型的连接时序分类模块对编码特征进行处理得到多个候选结果以及多个候选结果的置信度评分;按照置信度评分由大到小的顺序和筛选数量范围,对多个候选结果进行筛选,在当前进行筛选的候选结果的置信度评分发生突变的情况下,若筛选得到的候选结果数量位于筛选数量范围内,至少根据突变前参与筛选的候选结果,得到多个筛选结果;将多个筛选结果输入语音识别模型的解码模块,得到待识别语音数据的语音识别结果。本申请的实施例同时还公开了一种信息处理装置和电子设备。息处理装置和电子设备。息处理装置和电子设备。
技术研发人员:
任凯龙 汪俊杰
受保护的技术使用者:
联想(北京)有限公司
技术研发日:
2022.03.31
技术公布日:
2022/7/25