1.本发明涉及
语音识别技术领域,尤其涉及一种
语音识别方法及语音识别装置。
背景技术:
2.语音识别具备最接近人机自然交互方式的优点,是非常好的人机控制及获取所需服务的方式。当前的语音识别采用神经网络技术后,语音识别的效果大幅提升到90%以上,具备了商用的基础条件,已经广泛用于各类电子产品中。
3.目前基于神经网络的语音识别,需要事先训练语音识别模型,模型的效果直接影响到语音识别的性能。语音识别模型的效果和其训练时采用的语料,以及训练和解码方法有关,当前语音识别特别是云端语音识别需要支持多个语音功能,如播放歌曲、查询天气等等,因为功能涉及比较多,因此需要事先搜集各种场景下的对话语料,进行处理后训练生产符合这些功能的模型,再放到计算载体上进行实际应用。
4.但是目前的语音识别出的文字有可能与我们想表达的意思并不相同,因为部分使用者由于方言的困扰导致其识别出来的文字不够准确,因此,目前亟待提出一种具有较高识别准确率的语音识别方法。
技术实现要素:
5.本发明公开一种语音识别方法及语音识别装置,旨在解决背景技术中提出的但是目前的语音识别出的文字有可能与我们想表达的意思并不相同,因为部分使用者由于方言的困扰导致其识别出来的文字不够准确的技术问题。
6.为了实现上述目的,本发明采用了如下技术方案:一种语音识别方法,具体包括以下步骤:s1:进行数据预处理,使用者首先根据其需求创建语音文件,
所述语音文件包括语音数据预处理和文本数据预处理,其中所述语音数据预处理用于获取语音文件中的
特征数据,所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典;s2:构建语音识别模型,其中所述语音识别模型基于ctc算法进行语音序列的切分;所述语音识别模型基于注意力机制对切分的片段进行识别;s3:获取使用者的身份识别结果;采集使用者的声音信息获取与所述操作者相对应的语音特征参数;进而获得与之相匹配的身份识别结果;s4:获取待识别的语音信号;提取所述语音信号的特征,得到所述语音信号的特征序列;将所述特征序列输入至训练后的语音识别模型中进行语音识别。
7.在一个优选的方案中,所述语音识别方法还包括:判断环境状态;以及所述获取操作者的身份识别结果的步骤还包括:根据所述环境状态,获取操作者的身份识别结果,所述语音特征参数包括:声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数,所述s1步骤中对数据预处理即为对原始语音进行处理:对所述元时运银处理具
体包括以下步骤:对所述原始语音进行预加重处理;对所述原始语音进行分帧处理;对所述原始语音进行加窗处理;对所述原始语音进行端点检测处理。
8.一种语音识别装置,应用于语音识别模型,其特征在于,包括有语音获取模块、数据处理模块、特征提取模块、识别模块和检测模块,所述语音获取模块用于获取待识别的语音信号;所述特征提取模块,用于提取所述语音信号的特征,得到所述语音信号的特征序列;所述语音识别模块,用于将所述语音信号的特征输入至训练后的语音识别模型,以使得所述训练后的语音识别模型识别所述语音信号,得到所述语音识别模型输出的第一信号,所述第一信号用于表示所述语音信号的文字信息。
9.在一个优选的方案中,所述数据处理模块还被配置为:接收所述操作者的语音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集,对声音信号进行处理并识别,用于在预设时段内未获得身份识别的结果时,发出身份识别提醒,所述识别模块在根据所述语音特征参数对所述语音信息进行语音识别时,具体用于:获取所述语音信息中的语音特征参数;若获取到的语音特征参数与预设的使用者的语音特征参数相匹配,则根据所述预设的使用者的语音特征参数对所述语音信息进行语音识别。
10.在一个优选的方案中,所述检测模块用于检测并分析预设的数据处理模块,以获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于语音识别模型中,所述检测模块用于根据声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数或者它们的组合获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于所述语音识别模型中,所述识别模块用于经由已训练的多方言语音识别模型,对方言嵌入特征进行高维特征提取,获得待识别语音数据对应的方言深度特征;基于多方言语音识别模型中的语音识别网络,将方言深度特征与所述声学编码特征进行组合拼接,获得待识别语音数据对应的拼接特征;基于所述拼接特征进行预测,获得待识别语音数据对应的目标文本信息,以及目标方言类别。
11.由上可知,一种语音识别方法,具体包括以下步骤:s1:进行数据预处理,使用者首先根据其需求创建语音文件,所述语音文件包括语音数据预处理和文本数据预处理,其中所述语音数据预处理用于获取语音文件中的特征数据,所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典;s2:构建语音识别模型,其中所述语音识别模型基于ctc算法进行语音序列的切分;所述语音识别模型基于注意力机制对切分的片段进行识别;s3:获取使用者的身份识别结果;采集使用者的声音信息获取与所述操作者相对应的语音特征参数;进而获得与之相匹配的身份识别结果;s4:获取待识别的语音信号;提取所述语音信号的特征,得到所述语音信号的特征序列;将所述特征序列输入至训练后的语音识别模型中进行语音识别。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息,同时该模型结构也采用了判断环境状态的技术,能够进一步简化语音识别的流程,通过上述方法不仅提高了语音识别的准确率,而且也提高了语音识别的效率的技术效果。
附图说明
12.图1为本发明提出的一种语音识别方法的整体流程图。
13.图2为本发明提出的一种语音识别方法的语音特征参数的示意图。
14.图3为本发明提出的一种语音识别装置的示意图。
具体实施方式
15.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
16.参照图1和图2,一种语音识别方法,具体包括以下步骤:s1:进行数据预处理,使用者首先根据其需求创建语音文件,所述语音文件包括语音数据预处理和文本数据预处理,其中所述语音数据预处理用于获取语音文件中的特征数据,所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典;s2:构建语音识别模型,其中所述语音识别模型基于ctc算法进行语音序列的切分;所述语音识别模型基于注意力机制对切分的片段进行识别;s3:获取使用者的身份识别结果;采集使用者的声音信息获取与所述操作者相对应的语音特征参数;进而获得与之相匹配的身份识别结果;s4:获取待识别的语音信号;提取所述语音信号的特征,得到所述语音信号的特征序列;将所述特征序列输入至训练后的语音识别模型中进行语音识别。
17.通过对语音特征参数进行采集,可以对使用者的语音特征进行采集后,可以智能识别使用者语音特征信息,可有效的提高云银识别的准确度。
18.在一个优选的实施方式中,所述语音识别方法还包括:判断环境状态;以及所述获取操作者的身份识别结果的步骤还包括:根据所述环境状态,获取操作者的身份识别结果。
19.通过对环境进行判断后,可以通过周围环境来判断具体的操作使用者身份,有效的提高语音识别效果。
20.在一个优选的实施方式中,所述语音特征参数包括:声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数。
21.语音特征信息包括有多种语音特,可进一步的在语音识别中提高语音识别的准确度。
22.在一个优选的实施方式中,所述s1步骤中对数据预处理即为对原始语音进行处理:对所述元时运银处理具体包括以下步骤:对所述原始语音进行预加重处理;对所述原始语音进行分帧处理;对所述原始语音进行加窗处理;对所述原始语音进行端点检测处理。
23.参照图3,一种语音识别装置,应用于语音识别模型,包括有语音获取模块、数据处理模块、特征提取模块、识别模块和检测模块,所述语音获取模块用于获取待识别的语音信号;所述特征提取模块,用于提取所述语音信号的特征,得到所述语音信号的特征序列;所述语音识别模块,用于将所述语音信号的特征输入至训练后的语音识别模型,以使得所述训练后的语音识别模型识别所述语音信号,得到所述语音识别模型输出的第一信号,所述第一信号用于表示所述语音信号的文字信息。
24.在一个优选的实施方式中,所述数据处理模块还被配置为:接收所述操作者的语
音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集,对声音信号进行处理并识别,用于在预设时段内未获得身份识别的结果时,发出身份识别提醒。
25.在一个优选的实施方式中,所述识别模块在根据所述语音特征参数对所述语音信息进行语音识别时,具体用于:获取所述语音信息中的语音特征参数;若获取到的语音特征参数与预设的使用者的语音特征参数相匹配,则根据所述预设的使用者的语音特征参数对所述语音信息进行语音识别。
26.在一个优选的实施方式中,所述检测模块用于检测并分析预设的数据处理模块,以获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于语音识别模型中。
27.在一个优选的实施方式中,所述检测模块用于根据声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数或者它们的组合获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于所述语音识别模型中。
28.在一个优选的实施方式中,所述识别模块用于经由已训练的多方言语音识别模型,对方言嵌入特征进行高维特征提取,获得待识别语音数据对应的方言深度特征;基于多方言语音识别模型中的语音识别网络,将方言深度特征与所述声学编码特征进行组合拼接,获得待识别语音数据对应的拼接特征;基于所述拼接特征进行预测,获得待识别语音数据对应的目标文本信息,以及目标方言类别。
29.语音识别装置既可以通过多方言对语音进行准确识别,并且可以通过对语音数据的处理来提高语音识别的准确度。
30.以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明,因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
31.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
技术特征:
1.一种语音识别方法,其特征在于,具体包括以下步骤:s1:进行数据预处理,使用者首先根据其需求创建语音文件,所述语音文件包括语音数据预处理和文本数据预处理,其中所述语音数据预处理用于获取语音文件中的特征数据,所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典;s2:构建语音识别模型,其中所述语音识别模型基于ctc算法进行语音序列的切分;所述语音识别模型基于注意力机制对切分的片段进行识别;s3:获取使用者的身份识别结果;采集使用者的声音信息获取与所述操作者相对应的语音特征参数;进而获得与之相匹配的身份识别结果;s4:获取待识别的语音信号;提取所述语音信号的特征,得到所述语音信号的特征序列;将所述特征序列输入至训练后的语音识别模型中进行语音识别。2.根据权利要求1所述的一种语音识别方法,其特征在于,所述语音识别方法还包括:判断环境状态;以及所述获取操作者的身份识别结果的步骤还包括:根据所述环境状态,获取操作者的身份识别结果。3.根据权利要求1所述的一种语音识别方法,其特征在于,所述语音特征参数包括:声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数。4.根据权利要求1所述的一种语音识别方法,其特征在于,所述s1步骤中对数据预处理即为对原始语音进行处理:对所述元时运银处理具体包括以下步骤:对所述原始语音进行预加重处理;对所述原始语音进行分帧处理;对所述原始语音进行加窗处理;对所述原始语音进行端点检测处理。5.一种语音识别装置,应用于语音识别模型,其特征在于,包括有语音获取模块、数据处理模块、特征提取模块、识别模块和检测模块,所述语音获取模块用于获取待识别的语音信号;所述特征提取模块,用于提取所述语音信号的特征,得到所述语音信号的特征序列;所述语音识别模块,用于将所述语音信号的特征输入至训练后的语音识别模型,以使得所述训练后的语音识别模型识别所述语音信号,得到所述语音识别模型输出的第一信号,所述第一信号用于表示所述语音信号的文字信息。6.根据权利要求5所述的一种语音识别装置,其特征在于,所述数据处理模块还被配置为:接收所述操作者的语音;向服务器发送所接收的语音;以及从服务器接收与所述操作者相对应的声学特征集,对声音信号进行处理并识别,用于在预设时段内未获得身份识别的结果时,发出身份识别提醒。7.根据权利要求6所述的一种语音识别装置,其特征在于,所述识别模块在根据所述语音特征参数对所述语音信息进行语音识别时,具体用于:获取所述语音信息中的语音特征参数;若获取到的语音特征参数与预设的使用者的语音特征参数相匹配,则根据所述预设的使用者的语音特征参数对所述语音信息进行语音识别。8.根据权利要求7所述的一种语音识别装置,其特征在于,所述检测模块用于检测并分析预设的数据处理模块,以获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于语音识别模型中。9.根据权利要求7所述的一种语音识别装置,其特征在于,所述检测模块用于根据声学特征参数、声纹信息参数、语音的音参数、音高参数、音长参数和音强参数或者它们的组合获取使用者的语音特征参数,并将获取到的所述使用者的语音特征参数存储于所述语音
识别模型中。10.根据权利要求9所述的一种语音识别装置,其特征在于,所述识别模块用于经由已训练的多方言语音识别模型,对方言嵌入特征进行高维特征提取,获得待识别语音数据对应的方言深度特征;基于多方言语音识别模型中的语音识别网络,将方言深度特征与所述声学编码特征进行组合拼接,获得待识别语音数据对应的拼接特征;基于所述拼接特征进行预测,获得待识别语音数据对应的目标文本信息,以及目标方言类别。
技术总结
本发明公开了一种语音识别方法及识别装置,具体包括以下步骤:S1:进行数据预处理,使用者首先根据其需求创建语音文件,所述语音文件包括语音数据预处理和文本数据预处理,其中所述语音数据预处理用于获取语音文件中的特征数据,所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典;S2:构建语音识别模型,其中所述语音识别模型基于CTC算法进行语音序列的切分。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息,同时该模型结构也采用了判断环境状态的技术,能够进一步简化语音识别的流程,通过上述方法不仅提高了语音识别的准确率,而且也提高了语音识别的效率的技术效果。果。果。
技术研发人员:
胡世民
受保护的技术使用者:
深圳市捌零零在线科技有限公司
技术研发日:
2022.10.24
技术公布日:
2023/3/7