语音识别方法、装置、设备及存储介质与流程

阅读: 评论:0



1.本公开涉及计算机技术领域,具体涉及语音技术和深度学习等人工智能技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。


背景技术:



2.随着互联网技术蓬勃发展,短视频、在线教育等新兴产业为经济发展注入新活力。语音识别技术,作为各个产业的基础服务,在互联网新业务领域具备广阔的应用前景。
3.因而,如何提升语音识别的准确性是当前亟需解决的问题。


技术实现要素:



4.本公开提供了一种语音识别方法、装置、设备以及存储介质。
5.根据本公开的一方面,提供了一种语音识别方法,包括:
6.对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;
7.利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量
8.基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。
9.可选的,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:
10.按照预设的规则,将所述风格特征向量与所述语音特征参数进行融合,以生成待识别的向量;
11.利用所述语音识别模型对所述向量进行识别,以生成所述语音数据对应的识别结果。
12.可选的,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:
13.利用所述语音识别模型中的编码器对所述语音特征参数进行编码处理,以生成所述语音数据对应的音频向量;
14.按照预设的规则,将所述风格特征向量与所述音频向量进行融合,以生成第一向量;
15.利用所述语音识别模型中的识别模块对所述第一向量进行识别,以生成所述语音数据对应的识别结果。
16.可选的,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:
17.按照预设的规则,将所述风格特征向量与所述语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量;
18.利用所述编码器中的剩余层对所述第二向量进行编码,以获取第三向量;
19.利用所述语音识别模型中的识别模块对所述第三向量进行识别,以生成所述语音数据对应的识别结果。
20.可选的,所述风格特征向量中包含的第一子向量数量为1、且所述第一子向量的维度与待融合的语音特征参数对应的音频向量中第二子向量的维度相同,所述预设的规则,包括以下任一项:
21.将所述风格特征向量置于所述待融合的音频向量之后;
22.将所述风格特征向量置于所述待融合的音频向量中每个第二子向量之后;
23.将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行拼接;以及,
24.将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行相加。
25.可选的,所述风格特征向量中包含的第一子向量与待融合的音频向量中包含的第二子向量数量相同、且所述第一子向量的维度与所述第二子向量的维度相同,所述预设的规则,包括以下任一项:
26.将所述风格特征向量置于所述待融合的音频向量之后;
27.将每个所述第一子向量分别置于对应第二子向量之后;
28.将每个所述第一子向量分别与对应的第二子向量进行拼接;以及,
29.将每个所述第一子向量分别与对应的第二子向量进行相加。
30.可选的,所述风格特征向量的维度与待融合的音频向量的维度不同,所述预设的规则为:将所述风格特征向量与所述音频向量进行拼接。
31.根据本公开的第二方面,提供了一种语音识别装置,包括:
32.第一确定模块,用于对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;
33.第二确定模块,用于利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量;
34.识别模块,用于基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。
35.可选的,所述识别模块,具体用于:
36.按照预设的规则,将所述风格特征向量与所述语音特征参数进行融合,以生成待识别的向量;
37.利用所述语音识别模型对所述向量进行识别,以生成所述语音数据对应的识别结果。
38.可选的,所述识别模块,具体用于:
39.利用所述语音识别模型中的编码器对所述语音特征参数进行编码处理,以生成所述语音数据对应的音频向量;
40.按照预设的规则,将所述风格特征向量与所述音频向量进行融合,以生成第一向量;
41.利用所述语音识别模型中的识别模块对所述第一向量进行识别,以生成所述语音数据对应的识别结果。
42.可选的,所述识别模块,具体用于:
43.按照预设的规则,将所述风格特征向量与所述语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量;
44.利用所述编码器中的剩余层对所述第二向量进行编码,以获取第三向量;
45.利用所述语音识别模型中的识别模块对所述第三向量进行识别,以生成所述语音数据对应的识别结果。
46.可选的,所述风格特征向量中包含的第一子向量数量为1、且所述第一子向量的维度与待融合的语音特征参数对应的音频向量中第二子向量的维度相同,所述预设的规则,包括以下任一项:
47.将所述风格特征向量置于所述待融合的音频向量之后;
48.将所述风格特征向量置于所述待融合的音频向量中每个第二子向量之后;
49.将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行拼接;以及,
50.将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行相加。
51.可选的,所述风格特征向量中包含的第一子向量与待融合的音频向量中包含的第二子向量数量相同、且所述第一子向量的维度与所述第二子向量的维度相同,所述预设的规则,包括以下任一项:
52.将所述风格特征向量置于所述待融合的音频向量之后;
53.将每个所述第一子向量分别置于对应第二子向量之后;
54.将每个所述第一子向量分别与对应的第二子向量进行拼接;以及,
55.将每个所述第一子向量分别与对应的第二子向量进行相加。
56.可选的,所述风格特征向量的维度与待融合的音频向量的维度不同,所述预设的规则为:将所述风格特征向量与所述音频向量进行拼接。
57.本公开第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本技术第一方面实施例提出的方法。
58.本公开第四方面实施例提出了一种非临时性计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如本技术第一方面实施例提出的方法。
59.本公开第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行本公开第一方面实施例提出的方法。
60.本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,之后基于风格特征向量,利用预先训练生成的语音识别模型对语音数据进行识别,以生成语音数据对应的识别结果。由此,在语音识别过程中,通过基于语音识别数据对应的风格特征向量,对语音数据进行识别,从而避免了说话风格对于语音识别的影响,提升了语音识别结果的准确性和可靠性。
61.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
62.附图用于更好地理解本方案,不构成对本公开的限定。其中:
63.图1为本公开实施例提供的一种语音识别方法的流程示意图;
64.图2为本公开实施例提供的另一种语音识别方法的流程示意图;
65.图2a为本公开实施例提供的第一种融合方式示意图;
66.图2b为本公开实施例提供的第二种融合方式示意图;
67.图2c为本公开实施例提供的第三种融合方式示意图;
68.图2d为本公开实施例提供的第四种融合方式示意图;
69.图2e为本公开实施例提供的第五种融合方式示意图;
70.图2f为本公开实施例提供的第六种融合方式示意图;
71.图2g为本公开实施例提供的第七种融合方式示意图;
72.图2h为本公开实施例提供的第八种融合方式示意图;
73.图2i为本公开实施例提供的第九种融合方式示意图;
74.图3示出了一种语音识别模型的整体架构图;
75.图4为本公开实施例提供的又一种语音识别方法的流程示意图;
76.图5示出了又一种语音识别模型的整体架构图;
77.图6为本公开实施例提供的又一种语音识别方法的流程示意图;
78.图7示出了另一种语音识别模型的整体架构图;
79.图8为本公开实施例提供的一种语音识别装置的结构框图;
80.图9是用来实现本公开实施例的语音识别方法的电子设备的框图。
具体实施方式
81.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
82.本公开提供的一种语音识别方法,该方法可以由本公开提供的一种语音识别装置执行,也可以由本公开提供的电子设备执行,其中,电子设备可以为终端设备,比如用户设备、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理、手持设备、计算设备、车载设备、可穿戴设备等,在此不进行限定,也可以是服务器。
83.下面以由本公开提供的语音识别装置来执行本公开提供的一种语音识别方法,而不作为对本公开的限定。
84.下面结合参考附图对本公开提供的语音识别方法、装置、计算机设备及存储介质进行详细描述。
85.图1是根据本公开实施例提供的一种语音识别方法的流程示意图。
86.如图1所示,该语音识别方法可以包括以下步骤:
87.步骤101,对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数。
88.其中,待识别的语音数据可以为任一语种的语音数据,其可以为任意形式的通过
语音来记录的数据以及通过语音来传输的数据,其可以为声频文件,比如歌曲或者有声小说,或者还可以为日常的对话数据等,在此不做限定。
89.其中,语音特征参数可以为任意可反映语音数据的频域特征的数据,比如,可以为梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)等等,在此不做限定。
90.需要说明的是,虽然不同语言间的语法、韵律可能千差万别,但人类的发音规律是一致的,也即人类作为同种生物,其声带震动、口腔的闭合具有普遍规律,而该规律可以直接表现在声音的频域特征。因而,本公开中,可以通过任意可表征语音数据对应的频域特征的数据,比如mfcc作为语音特征参数表征声音所具备的频域特征。
91.可理解的是,由于该语音特征参数符合人耳对于声音频率的听觉感知特性,从而其可以在一定程度上增强语音特征,并抑制非语音特征。
92.可选的,语音特征参数还可以为线性预测倒谱系数(linear predictive cepstral coefficient,lpcc)或感知线性预测系数(perceptuallinearpredictive,plp)等等,在此不做限定。
93.具体来说,以mfcc为例,在对待识别的语音数据进行预处理时,可以通过预加重、分帧、加窗等处理,之后进行离散的傅里叶变换以及梅尔滤波操作,最后进行倒谱以及能量差分,从而可以获得语音特征参数。
94.步骤102,利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量。
95.需要说明的是,由于不同人说话风格不同,从而对于同一文本,不同的人生成的语音数据的风格可能不同;或者,同一个人在不同心境时对于同一文本的解读方式可能不同,从而会导致同一人对同一文本,在不同情况下生成的语音数据的风格也不相同。为了减少该类问题对语音识别造成的困难,本公开中,引入了风格识别模型对语音数据对应的风格特征进行预测,从而之后可以利用风格识别模型输出的风格特征向量进一步提高语音识别的准确性。
96.其中,风格识别模型可以为预先训练生成的模型,也即训练好的模型。
97.需要说明的是,风格特征向量可以是由一个或者多个子向量组成的,且每一个子向量可以隐含地表示任一说话风格,比如语调、语速、语气、重度等等,或者还可以为以上说话风格中的一种或几种因素的有机组合,在此不进行限定。
98.可选的,本公开中,可以采用无监督的方式训练风格识别模型,比如可以生成一种风格向量词典,进而使用多种无监督的数据训练模型,进而使得风格向量词典中的各个子向量可以自主的去吸收不同的说话风格。
99.步骤103,基于风格特征向量,利用预先训练生成的语音识别模型对语音数据进行识别,以生成语音数据对应的识别结果。
100.本公开中,引入了风格特征向量,也即可以使用风格识别模型输出的风格特征向量为语音数据识别做指导,从而提高识别的准确度。比如,可以将风格特征向量与语音特征参数进行融合,进而可以通过预先训练生成的语音识别模型对融合的结果进行识别,以生成与语音数据对应的识别结果。由此,语音识别模型可以基于风格特征向量,更好的识别语音数据中的内容信息部分,进而对内容信息部分进行识别,从而使得识别结果更加准确、可靠。
101.本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,之后基于风格特征向量,利用预先训练生成的语音识别模型对语音数据进行识别,以生成语音数据对应的识别结果。由此,在语音识别过程中,通过基于语音识别数据对应的风格特征向量,对语音数据进行识别,从而避免了说话风格对于语音识别的影响,提升了语音识别结果的准确性和可靠性。
102.图2是根据本公开实施例提供的另一种语音识别方法的流程示意图。
103.如图2所示,该语音识别方法可以包括以下步骤:
104.步骤201,对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数。
105.步骤202,利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量。
106.需要说明的是,步骤201、202的具体实现方式可以参照上述实施例,在此不做赘述。
107.步骤203,按照预设的规则,将风格特征向量与语音特征参数进行融合,以生成待识别的向量。
108.本公开中,风格识别模型,可以针对语音数据,输出一个整体的风格特征向量,或者,也可以针对语音数据中的每帧音频,输出其对应的风格特征向量,即,风格识别模型输出的风格特征向量,可以包含一个用于表征整体语音数据的频域特征的第一子向量,或者,也可以包括多个分别用于表征每帧音频的频域特征的第一子向量。相应的,本公开中,可以根据风格特征向量中第一子向量的数量以及维度,利用不同的规则,将风格特征向量与语音特征参数进行融合。
109.可选的,若风格特征向量中包含的第一子向量数量为1、且第一子向量的维度与待融合的语音特征参数对应的音频向量中第二子向量的维度相同,其中,音频向量为与语音特征参数对应的向量。则可以通过以下任一项预设的规则将风格特征向量与语音特征参数进行融合:
110.将风格特征向量置于待融合的音频向量之后;
111.将风格特征向量分别置于待融合的音频向量中每个第二子向量之后;
112.将风格特征向量与待融合的音频向量中每个第二子向量进行拼接;以及,
113.将风格特征向量与待融合的音频向量中每个第二子向量进行相加。
114.可以理解的是,本公开中,待融合的音频向量中包含语音数据中每帧音频对应的向量,即其可以看作为一个时间序列,且该时间序列由多个一定维度的第二子向量组成。可理解的是,每个第二子向量都对应语音数据中的一帧音频。
115.示例1:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为1,记为k1,第二子向量的数量为5,按照时间顺序分别记a1,a2,a3,a4,a5,如图2a所示,可以将风格特征向量置于待融合的音频向量之后,从而生成当前融合后待识别的向量:[a1、a2、a3、a4、a5、k1]。
[0116]
示例2:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为1,记为k1,第二子向量的数量为3,按照时间顺序分别记a1,a2,a3,如图2b所示,可以将风格特征向
量分别置于待融合的音频向量中每个第二子向量之后,从而生成当前融合后待识别的向量:[a1、k1、a2、k1、a3、k1]。
[0117]
示例3:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为1,记为k1,第二子向量的数量为3,按照时间顺序分别记a1,a2,a3,如图2c所示,可以将风格特征向量与待融合的音频向量中每个第二子向量进行拼接,从而生成当前融合后待识别的向量:[a1k1、a2k1、a3k1]。
[0118]
示例4:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为1,记为k1,第二子向量的数量为3,按照时间顺序分别记a1,a2,a3,如图2d所示,可以将风格特征向量与待融合的音频向量中每个第二子向量进行相加,从而生成当前融合后待识别的向量:[a1+k1、a2+k1、a3+k1]。
[0119]
需要说明的是,上述示例仅为本公开的一种示意性说明,而不作为对本公开的限定。
[0120]
可选的,若风格特征向量中包含的第一子向量与待融合的音频向量中包含的第二子向量数量相同、且第一子向量的维度与第二子向量的维度相同,则可以通过以下任一项预设的规则将风格特征向量与语音特征参数进行融合:
[0121]
将风格特征向量置于待融合的音频向量之后;
[0122]
将每个第一子向量分别置于对应第二子向量之后;
[0123]
将每个第一子向量分别与对应的第二子向量进行拼接;以及,
[0124]
将每个第一子向量分别与对应的第二子向量进行相加。
[0125]
根据上述各个预设规则,本公开提出了以下示例进行解释性说明,而不作为对本公开的限定。
[0126]
示例5:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为3,按照时间顺序分别记为m1、m2、m3、第二子向量的数量为3,按照时间顺序分别记为n1、n2、n3,如图2e所示,可以将风格特征向量置于待融合的音频向量之后,从而生成当前融合后待识别的向量:[n1、n2、n3、m1、m2、m3]。
[0127]
示例6:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为3,按照时间顺序分别记为m1、m2、m3、第二子向量的数量为3,按照时间顺序分别记为n1、n2、n3,如图2f所示,可以将风格特征向量置于待融合的音频向量之后,从而生成当前融合后待识别的向量:[n1、m1、n2、m2、n3、m3]。
[0128]
示例7:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为3,按照时间顺序分别记为m1、m2、m3、第二子向量的数量为3,按照时间顺序分别记为n1、n2、n3,如图2g所示,可以将风格特征向量置于待融合的音频向量之后,从而生成当前融合后待识别的向量:[n1m1、n2m2、n3m3]。
[0129]
示例8:若当前第一子向量和第二子向量的维度相同,第一子向量的数量为3,按照时间顺序分别记为m1、m2、m3、第二子向量的数量为3,按照时间顺序分别记为n1、n2、n3,如图2h所示,可以将风格特征向量置于待融合的音频向量之后,从而生成当前融合后待识别的向量:[n1+m1、n2+m2、n3+m3]。
[0130]
可选的,若风格特征向量的维度与待融合的音频向量的维度不同,则可以将风格特征向量与音频向量进行拼接,从而生成待识别的向量。
[0131]
示例9:若当前第一子向量的维度为h1,第二子向量的维度为h2,且h1不同于h2,第一子向量的数量为3,按照时间顺序分别记为p1、p2、p3、第二子向量的数量为3,按照时间顺序分别记为q1、q2、q3,如图2i所示,可以将风格特征向量与音频向量进行拼接,从而生成当前融合后待识别的向量:[p1q1、p2q2、p3q3]。
[0132]
需要说明的是,通过以上各个融合方式,可以使得待识别的向量能够同时包含说话风格特征以及音频特征。
[0133]
步骤204,利用语音识别模型对向量进行识别,以生成语音数据对应的识别结果。
[0134]
需要说明的是,由于向量是由风格特征向量与音频向量融合生成的,因而可以将语音数据对应的说话风格信息引入到识别过程中作为参考,从而可以利用语音识别模型更好的根据风格特征向量的信息对语音数据进行准确的语音识别。可选的,可以结合注意力机制和解码器模块对向量对应的编码信息进行解码,从而可以提高语音识别模型的性能。
[0135]
图3示出了一种语音识别模型的整体架构图,如图3所示,可以将音频,也即语音数据分别输入到识别编码器(encoder)和说话风格编码器(style encoder),之后采用了注意力模块(attention)对说话风格特征进行计算,然后将说话风格特征(style embedding)和音频一起输入识别编码器,之后再通过编码状态(encoder state)模块和注意力模块进行计算,最后通过识别解码器(decoder)输出识别结果。
[0136]
本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,然后按照预设的规则,将风格特征向量与语音特征参数进行融合,以生成待识别的向量,之后利用语音识别模型对向量进行识别,以生成语音数据对应的识别结果。由此,通过按照预设的规则,将语音数据对应的风格特征向量与语音特征参数进行融合,从而使得语音识别模型可以尽可能的基于语音数据的说话风格,对语音数据进行识别解码,从而提高了语音识别的准确度和有效性。
[0137]
图4是根据本公开实施例提供的又一种语音识别方法的流程示意图。
[0138]
如图4所示,该语音识别方法可以包括以下步骤:
[0139]
步骤301,对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数。
[0140]
步骤302,利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量。
[0141]
需要说明的是,步骤301、302的具体实现方式可以参照上述实施例,在此不做赘述。
[0142]
步骤303,利用语音识别模型中的编码器对语音特征参数进行编码处理,以生成语音数据对应的音频向量。
[0143]
需要说明的是,本公开中,可以通过编码器采用卷积神经网络对语音特征参数进行时域的下采样,从而可以降低计算的复杂度。其中编码器可以由输入层和输出层以及多个隐状态层组成。
[0144]
可选的,可以在编码器中使用transformer的结构,由此可以提高模型计算的并行能力,并缓解顺序计算过程中的信息丢失问题。
[0145]
可以理解的是,通过对语音特征参数进行编码处理,以生成语音数据对应的音频
向量,可以为之后将风格特征向量与音频向量进行融合,提供数据支持。
[0146]
步骤304,按照预设的规则,将风格特征向量与音频向量进行融合,以生成第一向量。
[0147]
其中,第一向量可以为由风格特征向量与音频向量融合得到的,待识别的向量。
[0148]
需要说明的是,本实施例中按照预设的规则将风格特征向量与音频向量进行融合的过程可以参照上述实施例,在此不进行赘述。
[0149]
步骤305,利用语音识别模型中的识别模块对第一向量进行识别,以生成语音数据对应的识别结果。
[0150]
需要说明的是,本实施例中利用语音识别模型中的识别模块对第一向量进行识别以生成语音数据对应的识别结果的过程可以参照上述实施例,在此不进行赘述。
[0151]
图5示出了又一种语音识别模型的整体架构图,如图5所示,可以将音频,也即语音数据分别输入到识别编码器和说话风格编码器,之后采用了注意力模块对说话风格特征进行计算,也即风格特征向量,然后将其和识别编码器输出的数据一起输入编码状态模块,之后再通过注意力模块和识别解码器的计算,最后输出识别结果。
[0152]
本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,之后利用语音识别模型中的编码器对语音特征参数进行编码处理,以生成语音数据对应的音频向量,然后按照预设的规则,将风格特征向量与音频向量进行融合,以生成第一向量,最后利用语音识别模型中的识别模块对第一向量进行识别,以生成语音数据对应的识别结果。由此,通过按照预设的规则将风格特征向量与音频向量进行融合后,再利用语音识别模型进行识别,从而使得风格特征向量可以指导语音识别模型的整个识别过程,使得识别结果的准确性和可靠性更高。
[0153]
图6是根据本公开实施例提供的又一种语音识别方法的流程示意图。
[0154]
如图6所示,该语音识别方法可以包括以下步骤:
[0155]
步骤401,对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数。
[0156]
步骤402,利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量。
[0157]
需要说明的是,步骤401、402的具体实现方式可以参照上述实施例,在此不做赘述。
[0158]
步骤403,按照预设的规则,将风格特征向量与语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量。
[0159]
其中,第二向量可以是由风格特征向量与编码器中的任一隐状态层输出的隐状态向量融合生成的向量。其中,隐状态向量可以是由任一隐状态层输出的向量。
[0160]
其中,隐状态层可以由一系列的卷积层、池化层和全连接层组成。本公开中,可以将风格特征向量与语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,比如池化层或者全连接层,在此不进行限定。
[0161]
需要说明的是,本实施例中按照预设的规则将风格特征向量与语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合的过程可以参照上述任一实施例,在此
不进行赘述。
[0162]
本实施例中,由于隐状态向量为经过了下采样处理后的向量,从而通过将风格特征向量与任一隐状态向量进行融合,不仅使得风格特征向量,可以指导语音识别模型的识别过程,而且尽量减少了语音识别模型处理的数据量。
[0163]
步骤404,利用编码器中的剩余层对第二向量进行编码,以获取第三向量。
[0164]
其中,剩余层可以为编码器中隐状态层外的各个网络层,通过利用剩余层对第二向量进行编码,可以获取待识别的第三向量。
[0165]
步骤405,利用语音识别模型中的识别模块对第三向量进行识别,以生成语音数据对应的识别结果。
[0166]
需要说明的是,本实施例中利用语音识别模型中的识别模块对第三向量进行识别以生成语音数据对应的识别结果的过程可以参照上述任一实施例,在此不进行赘述。
[0167]
图7示出了另一种语音识别模型的整体架构图,如图7所示,可以将音频,也即语音数据分别输入到识别编码器和说话风格编码器,之后采用了注意力模块对说话风格特征,也即风格特征向量进行计算,然后将其和语音数据一起输入识别编码器,再经过编码状态模块以及注意力模块进行计算,最后通过识别解码器输出识别结果。
[0168]
本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,然后按照预设的规则,将风格特征向量与语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量,利用编码器中的剩余层对第二向量进行编码,以获取第三向量,最后利用语音识别模型中的识别模块对第三向量进行识别,以生成语音数据对应的识别结果。由此,通过将风格特征向量与语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,从而不仅使得风格特征向量,可以指导语音识别模型的识别过程,以提高语音识别结果的准确度和可靠性,而且尽量减少了语音识别模型处理的数据量。
[0169]
为了实现上述实施例,本公开还提出一种语音识别装置。
[0170]
图8为本公开实施例所提供的一种语音识别装置的结构示意图。
[0171]
如图8所示,该语音识别装置800,包括第一确定模块810,第二确定模块820以及识别模块830:
[0172]
第一确定模块810,用于对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;
[0173]
第二确定模块820,用于利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量;
[0174]
识别模块830,用于基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。
[0175]
可选的,所述识别模块,具体用于:
[0176]
按照预设的规则,将所述风格特征向量与所述语音特征参数进行融合,以生成待识别的向量;
[0177]
利用所述语音识别模型对所述向量进行识别,以生成所述语音数据对应的识别结果。
[0178]
可选的,所述识别模块,具体用于:
[0179]
利用所述语音识别模型中的编码器对所述语音特征参数进行编码处理,以生成所述语音数据对应的音频向量;
[0180]
按照预设的规则,将所述风格特征向量与所述音频向量进行融合,以生成第一向量;
[0181]
利用所述语音识别模型中的识别模块对所述第一向量进行识别,以生成所述语音数据对应的识别结果。
[0182]
可选的,所述识别模块,具体用于:
[0183]
按照预设的规则,将所述风格特征向量与所述语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量;
[0184]
利用所述语音识别模型中的识别模块对所述第二向量进行识别,以生成所述语音数据对应的识别结果。
[0185]
可选的,所述风格特征向量中包含的第一子向量数量为1、且所述第一子向量的维度与待融合的语音特征参数对应的音频向量中第二子向量的维度相同,所述预设的规则,包括以下任一项:
[0186]
将所述风格特征向量置于所述待融合的音频向量之后;
[0187]
将所述风格特征向量置于所述待融合的音频向量中每个第二子向量之后;
[0188]
将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行拼接;以及,
[0189]
将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行相加。
[0190]
可选的,所述风格特征向量中包含的第一子向量与待融合的音频向量中包含的第二子向量数量相同、且所述第一子向量的维度与所述第二子向量的维度相同,所述预设的规则,包括以下任一项:
[0191]
将所述风格特征向量置于所述待融合的音频向量之后;
[0192]
将每个所述第一子向量分别置于对应第二子向量之后;
[0193]
将每个所述第一子向量分别与对应的第二子向量进行拼接;以及,
[0194]
将每个所述第一子向量分别与对应的第二子向量进行相加。
[0195]
可选的,所述风格特征向量的维度与待融合的音频向量的维度不同,所述预设的规则为:将所述风格特征向量与所述音频向量进行拼接。
[0196]
本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,之后基于风格特征向量,利用预先训练生成的语音识别模型对语音数据进行识别,以生成语音数据对应的识别结果。由此,在语音识别过程中,通过基于语音识别数据对应的风格特征向量,对语音数据进行识别,从而避免了说话风格对于语音识别的影响,提升了语音识别结果的准确性和可靠性。
[0197]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0198]
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字
助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0199]
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0200]
设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0201]
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如语音识别方法。例如,在一些实施例中,语音识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的语音识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音识别方法。
[0202]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0203]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0204]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0205]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0206]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、互联网和区块链网络。
[0207]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0208]
本公开实施例中,首先对待识别的语音数据进行预处理,以确定语音数据对应的语音特征参数,然后利用预先训练生成的风格识别模型,对语音特征参数进行识别,以确定语音数据对应的风格特征向量,之后基于风格特征向量,利用预先训练生成的语音识别模型对语音数据进行识别,以生成语音数据对应的识别结果。由此,在语音识别过程中,通过基于语音识别数据对应的风格特征向量,对语音数据进行识别,从而避免了说话风格对于语音识别的影响,提升了语音识别结果的准确性和可靠性。
[0209]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0210]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:


1.一种语音识别方法,其特征在于,包括:对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量;基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。2.如权利要求1所述的方法,其特征在于,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:按照预设的规则,将所述风格特征向量与所述语音特征参数进行融合,以生成待识别的向量;利用所述语音识别模型对所述向量进行识别,以生成所述语音数据对应的识别结果。3.如权利要求1所述的方法,其特征在于,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:利用所述语音识别模型中的编码器对所述语音特征参数进行编码处理,以生成所述语音数据对应的音频向量;按照预设的规则,将所述风格特征向量与所述音频向量进行融合,以生成第一向量;利用所述语音识别模型中的识别模块对所述第一向量进行识别,以生成所述语音数据对应的识别结果。4.如权利要求1所述的方法,所述基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果,包括:按照预设的规则,将所述风格特征向量与所述语音识别模型中编码器中的任一隐状态层输出的隐状态向量进行融合,以生成第二向量;利用所述编码器中的剩余层对所述第二向量进行编码,以获取第三向量;利用所述语音识别模型中的识别模块对所述第三向量进行识别,以生成所述语音数据对应的识别结果。5.如权利要求2-4任一所述的方法,其特征在于,所述风格特征向量中包含的第一子向量数量为1、且所述第一子向量的维度与待融合的语音特征参数对应的音频向量中第二子向量的维度相同,所述预设的规则,包括以下任一项:将所述风格特征向量置于所述待融合的音频向量之后;将所述风格特征向量置于所述待融合的音频向量中每个第二子向量之后;将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行拼接;以及,将所述风格特征向量与所述待融合的音频向量中每个第二子向量进行相加。6.如权利要求2-4任一所述的方法,其特征在于,所述风格特征向量中包含的第一子向量与待融合的音频向量中包含的第二子向量数量相同、且所述第一子向量的维度与所述第二子向量的维度相同,所述预设的规则,包括以下任一项:将所述风格特征向量置于所述待融合的音频向量之后;将每个所述第一子向量分别置于对应第二子向量之后;
将每个所述第一子向量分别与对应的第二子向量进行拼接;以及,将每个所述第一子向量分别与对应的第二子向量进行相加。7.如权利要求2-4任一所述的方法,其特征在于,所述风格特征向量的维度与待融合的音频向量的维度不同,所述预设的规则为:将所述风格特征向量与所述音频向量进行拼接。8.一种语音识别装置,其特征在于,包括:第一确定模块,用于对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;第二确定模块利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量;识别模块,用于基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。9.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

技术总结


本公开公开了一种语音识别方法、装置、设备及存储介质,涉及计算机技术领域,具体涉及语音技术和深度学习等人工智能技术领域,具体实现方案为:对待识别的语音数据进行预处理,以确定所述语音数据对应的语音特征参数;利用预先训练生成的风格识别模型,对所述语音特征参数进行识别,以确定所述语音数据对应的风格特征向量;基于所述风格特征向量,利用预先训练生成的语音识别模型对所述语音数据进行识别,以生成所述语音数据对应的识别结果。由此,在语音识别过程中,通过基于语音识别数据对应的风格特征向量,对语音数据进行识别,从而避免了说话风格对于语音识别的影响,提升了语音识别结果的准确性和可靠性。识别结果的准确性和可靠性。识别结果的准确性和可靠性。


技术研发人员:

贾杨 夏龙 蒋栋蔚 高强 谢戚鑫 李昕 魏文琦

受保护的技术使用者:

北京猿力未来科技有限公司

技术研发日:

2021.09.18

技术公布日:

2023/3/24

本文发布于:2023-03-31 07:21:25,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/83876.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:向量   所述   特征   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图