1.本技术涉及语音技术领域,尤其涉及一种语音交互方法、服务器及存储介质。
背景技术:
2.随着汽车工业和人机交互技术的不断发展,智能汽车也为用户提供了语音交互功能。
3.语音交互功能依赖于语音识别技术。目前,待识别的语音数据可能并不只是单一语种的语音,还可能为双语种的混合语音或多语种的混合语音等,因此语音识别方法也有所差异。以欧洲为例,语种众多且存在多个语系,语种数目超过十个。相关技术中一般采用上下文相关的
音节建模方式来构建声学模型,但场景依赖性强,无法做到多语种统一建模,不利于不同语种的语音识别和语音交互。如果为每个语种都部署一套语音识别系统,将极大增加成本,也造成机器资源浪费。
技术实现要素:
4.为解决或部分解决相关技术中存在的问题,本技术提供一种语音交互方法、服务器及存储介质,能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。
5.本技术第一方面提供一种语音交互方法,包括:获取不同语种的
音素,根据
发音学规则将所述不同语种的音素合并为第一音节;利用不同语种的训练材料识别出发音的
组合音节,根据发音黏着度从所述组合音节中筛选出第二音节;将所述第一音节和所述第二音节进行合并,得到建模音节;根据所述建模音节生成声学模型;接收车辆转发的车辆座舱内用户发出的语音请求;根据所述声学模型对所述语音请求进行识别,生成识别结果下发至车辆完成语音交互。本技术根据发音学规则将不同语种的音素合并为第一音节,根据发音黏着度从不同语种的训练材料的组合音节中筛选出第二音节,然后合并得到建模音节,这些音节与上下文无关,这样就可以使得各种不同语种可以使用同一套建模系统,从而能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。
6.所述根据发音学规则将所述不同语种的音素合并为第一音节,包括:根据万国音标规则将所述不同语种的音素进行预合并;根据发音学规则将所述进行预合并后的音素合并为第一音节。本技术基于ipa进行音素合并,可以减少音素数量,可以使得数十个语种混合可以使用一个输出层,可以降低计算量和延时。
7.所述根据发音学规则将所述进行预合并后的音素合并为第一音节,包括:从进行预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。本技术将音素合并为音节可以参考发音学规则进行合并,使得合并的音节更符合发音习惯。
8.所述利用不同语种的训练材料识别出发音的组合音节,包括:利用不同语种的音
频和/或视频的训练材料识别出发音的组合音节。本技术可以充分利用音频和/或视频作为不同语种的训练材料。
9.所述根据发音黏着度从所述组合音节中筛选出第二音节,包括:将所述组合音节进行强制帧对齐,获得对齐后的所述组合音节的平均发音持续时长和所有组合音节的平均发音持续时长;将所述组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将所述发音黏着度小于设定阈值的组合音节作为第二音节。本技术参考发音黏着度筛选音节,可以使得筛选的音节更准确。
10.所述将所述组合音节进行强制帧对齐之前还包括:从所述组合音节中筛选出符合音节合并规则的组合音节;所述将所述组合音节进行强制帧对齐包括:将所述符合音节合并规则的组合音节进行强制帧对齐。本技术进行强制帧对齐之前先利用音节合并规则进行过滤,可以减少后续进行筛选的工作量,提高处理效率。
11.所述音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。本技术的音节合并规则可以应用于多种情形。
12.所述组合音节的平均发音持续时长,根据进行强制帧对齐后的总发音持续时长与所述组合音节在所述训练音频中出现的次数的比值确定。通过均值处理得到平均发音持续时长,可以使得参数更为精准。
13.所述将所述组合音节进行强制帧对齐,包括:将所述组合音节以韵母为核心进行强制帧对齐。通过以韵母为核心进行强制帧对齐,更符合发音的实际情况。
14.本技术第二方面提供一种服务器,包括:音素处理模块,用于获取不同语种的音素,根据发音学规则将所述不同语种的音素合并为第一音节;训练处理模块,用于利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从所述组合音节中筛选出第二音节;音节合并模块,用于将所述音素处理模块得到的第一音节和所述训练处理模块得到的第二音节进行合并,得到建模音节;模型生成模块,用于根据建模音节生成声学模型;请求接收模块,用于接收车辆转发的车辆座舱内用户发出的语音请求;语音识别模块,用于根据所述模型生成模块生成的声学模型对所述请求接收模块接收的语音请求进行识别,生成识别结果下发至车辆完成语音交互。本技术根据发音学规则将不同语种的音素合并为第一音节,根据发音黏着度从不同语种的训练材料的组合音节中筛选出第二音节,然后合并得到建模音节,这些音节与上下文无关,这样就可以使得各种不同语种可以使用同一套建模系统,从而能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。
15.所述音素处理模块包括:预合并子模块,用于根据万国音标规则将所述不同语种的音素进行预合并;音素合并子模块,用于根据发音学规则将所述进行预合并后的音素合并为第一音节。本技术基于ipa进行音素合并,可以减少音素数量,可以使得数十个语种混合可以使用一个输出层,可以降低计算量和延时。
16.所述训练处理模块包括:对齐及统计模块,用于将所述组合音节进行强制帧对齐,获得对齐后的所述组合音节的平均发音持续时长和所有组合音节的平均发音持续时长;音节筛选模块,用于将所述组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将所述发音黏着度小于设定阈值的组合音节作为第二音节。本技术参考发音黏着度筛选音节,可以使得筛选的音节更准确。
17.本技术第三方面提供一种服务器,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
18.本技术第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
19.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
20.通过结合附图对本技术示例性实施方式进行更详细地描述,本技术的上述以及其他目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
21.图1是本技术示出的语音交互方法的流程示意图;
22.图2是本技术另一示出的语音交互方法的流程示意图;
23.图3是本技术一示出的语音交互方法中进行语音建模的流程示意图;
24.图4是本技术示出的应用语音建模进行语音识别的应用框架示意图;
25.图5是本技术示出的上下文相关建模与上下文无关建模的对比示意图;
26.图6是本技术示出的建模单元示意图;
27.图7是本技术示出的服务器的结构示意图;
28.图8是本技术另一示出的服务器的结构示意图;
29.图9是本技术示出的服务器的另一结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
31.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
32.应当理解,尽管在本技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
33.相关技术中一般采用上下文相关的音节建模方式来构建声学模型,无法做到多语种统一建模,不利于不同语种的语音识别和语音交互。本技术提供一种语音交互方法,能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资
源浪费。
34.以下结合附图详细描述本技术的技术方案。
35.图1是本技术示出的语音交互方法的流程示意图。该方法可以应用于服务器。
36.参见图1,该方法包括:
37.s101、获取不同语种的音素,根据发音学规则将不同语种的音素合并为第一音节。
38.其中,可以根据万国音标规则将不同语种的音素进行预合并。例如,英语音素和法语音素利用ipa合并之后,只有56个音素,从而通过合并处理减少了音素数量。然后,可以根据发音学规则将进行预合并后的音素合并为第一音节。例如,可以从进行预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。
39.s102、利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从组合音节中筛选出第二音节。
40.其中,可以利用不同语种的音频和/或视频的训练材料识别出发音的组合音节。本技术可以充分利用音频和/或视频作为不同语种的训练材料。
41.其中,可以将组合音节进行强制帧对齐;确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长;将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。发音黏着度越小,说明组合音节中的音素越应该分到一起。
42.其中,音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。
43.组合音节的平均发音持续时长,根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。
44.将组合音节进行强制帧对齐,包括:将组合音节以韵母为核心进行强制帧对齐。
45.需说明的是,s101与s102之间没有顺序关系。
46.s103、将第一音节和第二音节进行合并,得到建模音节。
47.将上述不同步骤分别得到的第一音节和第二音节进行合并,可以生成最终的音节即建模音节。
48.s104、根据建模音节生成声学模型。
49.在得到建模音节后,利用已有的相关技术可以根据建模音节生成声学模型。
50.s105、接收车辆转发的车辆座舱内用户发出的语音请求。
51.服务器可以接收车辆转发的车辆座舱内用户发出的语音请求。该语音请求,可能是法语的语音请求,也可能是德语的语音请求等。
52.s106、根据声学模型对语音请求进行识别,生成识别结果下发至车辆完成语音交互。
53.服务器接收到用户发出的语音请求后,根据声学模型对语音请求进行识别,生成识别结果下发至车辆完成语音交互。根据声学模型识别语音请求的方法可以采用相关技术已有的识别方法,本技术不加以限定。
54.本技术方案,根据发音学规则将不同语种的音素合并为第一音节,根据发音黏着度从不同语种的训练材料的组合音节中筛选出第二音节,然后合并得到建模音节,这些音
节与上下文无关,这样就可以使得各种不同语种可以使用同一套建模系统,从而能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。
55.图2是本技术另一示出的语音交互方法的流程示意图。该方法可以应用于服务器。图2方法中以不同语种的训练材料为音频训练材料(简称为训练音频)为例但不局限于此,也可以是视频训练材料(简称为训练视频)。
56.参见图2,该方法包括:
57.s201、获取不同语种的音素,根据万国音标规则将不同语种的音素进行预合并;根据发音学规则将进行预合并后的音素合并为第一音节。
58.其中,可以从进行预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。
59.s202、获取不同语种的训练音频,从训练音频中识别出发音的组合音节,从组合音节中筛选出符合音节合并规则的组合音节。
60.其中,音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。
61.需说明的是,s201与s202之间没有顺序关系。
62.s203、将符合音节合并规则的组合音节进行强制帧对齐,确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长。
63.其中,可以将组合音节以韵母为核心进行强制帧对齐。
64.其中,组合音节的平均发音持续时长,根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。
65.s204、将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。
66.s205、将第一音节和第二音节进行合并,得到建模音节。
67.其中,s205可以参见s103的描述,此处不再赘述。
68.s206、根据建模音节生成声学模型。
69.其中,s206可以参见s104的描述,此处不再赘述。
70.s207、接收车辆转发的车辆座舱内用户发出的语音请求。
71.服务器可以接收车辆转发的车辆座舱内用户发出的语音请求。该语音请求,可能是法语的语音请求,也可能是德语的语音请求等。
72.s208、根据声学模型对语音请求进行识别,生成识别结果下发至车辆完成语音交互。
73.服务器接收到用户发出的语音请求后,根据声学模型对语音请求进行识别,生成识别结果下发至车辆完成语音交互。根据声学模型识别语音请求的方法可以采用相关技术已有的识别方法,本技术不加以限定。
74.本技术方案,基于ipa进行音素合并,可以使得数十个语种混合可以使用一个softmax(逻辑回归)输出层,可以降低计算量和延时。本技术通过融合发音学规则和训练音频数据统计结果来生成音节,可以使得单一语种的建模单元从40量级增加到500量级,从而大大降低了学习难度,提升语音识别率,更方便不同语种的语音识别和语音交互。
75.图3是本技术一示出的语音交互方法中进行语音建模的流程示意图。该方法可以应用于服务器。图3方法中以不同语种的训练材料为音频训练材料(简称为训练音频)为例。本技术中不同语种的训练材料可以是音频训练材料或视频训练材料,或者是音频训练材料和视频训练材料一起使用。
76.参见图3,该方法包括:
77.s301、获取不同语种的音素。
78.以欧洲为例,欧洲语种众多且存在好几个语系,语种数目超过十个。
79.该步骤可以获取不同语种的音素,例如获取法语音素、英语音素、德语音素等。例如,获取的法语音素包括:brem
…
;获取的德语音素包括:kam
…
。
80.音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素可以分为元音与辅音两大类。如汉语音节“啊”(
ā
)只有一个音素,“爱”(
à
i)有两个音素,“代”(d
à
i)有三个音素等。音素也是构成音节的最小单位或最小的语音片段。国际音标(也称为“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
81.音节(syllable)是语言中单个元音音素和辅音音素组合发音的最小语音单位,音节在语音学上指由一个或数个音素组成的语音结构基本单位;而音素是最小的语音单位。例如,汉字“好”的音节为h_ao3,其中的3表示声调。需说明的是,音节也可以不加声调。
82.s302、根据ipa将不同语种的音素进行预合并。
83.欧洲不同语种之间,很多语种其实属于同一个语系,发音上有很多共同点。本技术充分考虑了欧洲不同语种之间的相关性,利用ipa(international phonetic alphabet,万国音标,也称为国际音标)这个国际统一标准对不同语种的音素进行合并。ipa是一套用来标音的系统,以拉丁字母为基础,由国际语音学学会设计来作为口语声音的标准化标示方法。ipa的特性是越相似的语种,重合的音素越多。例如ipa中,英语有39个音素,法语有36个音素,但其中有19个音素是重合的,因此英语音素和法语音素利用ipa合并之后,只有56个音素,从而通过合并处理减少了音素数量。
84.由于是将多个不同语种的音素进行了合并,多个语种就可以直接混合建模在一个模型里面,只有1个输出层,但包含了所有语种,因此就不需要再进行语种判别的处理。通过基于ipa的音素合并,使得多语种之间可以共享建模单元,进而共享部分数据,使得不同语种可以相互提升效果。
85.s303、根据发音学规则将进行预合并后的音素合并为第一音节。
86.在s303中,可以从通过ipa进行音素预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。
87.本技术的发音学规则可以是将声母+韵母合并作为一个音节,将合并之后剩下单个声母和单个韵母,也单独作为一个音节。基于发音学规则进行合并后得到音节中,一般可以包含1-2个音素。声母,即是韵母前的辅音,与韵母一起构成一个完整的音节。辅音则是发声时,气流在口腔中受到各种阻碍所产生的声音。由一个元音构成的韵母叫单韵母,又叫单元音韵母。有些音节开头部分没有声母,只有一个韵母也可以独立成为音节。
88.举例说明:salad(包含的5个音素为:s ae l ax d)合并-》(3个音节:s_ae l_ax d),因此将5个音素合并成3个音节。
89.例如,将获取的法语音素brem
…
和获取的德语音素kam
…
等根据发音学规则进行音素合并得到音节b_e、r_e、k_a等作为第一音节。第一音节中,一般包含1-2个音素。
90.本技术基于ipa进行音素合并,且与上下文无关,使得可以从上下文相关的三音素转成了上下文无关的音节,可以使得发音单元数目足够多,相互之间区分性更大,更容易学习,同时兼顾了上下文无关的音节的数目,且更大的发音单元具有更强的抗噪声能力。
91.上下文相关,是指建模单元和它所处的上下文有关,不同上下文情况下的同一个发音符号,也是不同的建模单元。上下文无关,是指只要发音符号相同,不管上下文,都是一个相同的建模单元。
92.使用上下文相关的建模方式,区分性强,同一个建模单元具有相同的上下文语境,建模单元容易学习,但其中一个缺点是建模单元数量多,例如假设有10个语种,每个语种有30个音素,那么双音素的建模单元是300*300=90000个,三音素的建模单元是300*300*300,系统一般很难接受数量过大的建模单元数量。因此,多语种一般无法使用上下文相关的建模单元。上下文相关的建模方式的另一个缺点是迁移性差,如果与训练语料高度绑定,例如用音乐的语料训练的模型则很难迁移到导航上使用。所以,相关技术使用上下文相关的建模方式,场景依赖性强,无法做到多语种统一建模。
93.图5是本技术示出的上下文相关建模与上下文无关建模的对比示意图。参见图5所示,以ae发音符号为例,对于英语单词happy,其音素包括haepiy,对于英语单词salad,其音素包括saelaxd。如果是使用上下文相关建模方式,则包括h_ae和p_iy两个建模单元,如果是使用本技术的与上下文无关建模方式,则只包括ae一个建模单元。
94.进一步参见图6,图6是本技术示出的建模单元示意图。如图6所示,左边方框内是上下文相关的音素,x代表上下文;中间的方框内是上下文无关的音素,两个ae代表同一个建模单元;右边的方框内是将上下文无关的音素进行合并后的上下文无关的音节。
95.s304、获取不同语种的训练音频,从训练音频中识别出发音的组合音节。
96.该步骤可以获取不同语种的训练音频,例如获取法语训练音频、英语训练音频、德语训练音频等。
97.利用已有的语音识别相关技术,可以从训练音频中识别出发音的组合音节,例如b_r_e、b_e_m、r_e_m、r_e_b等。
98.需说明的是,s304与s301之间没有顺序关系。
99.s305、从组合音节中筛选出符合音节合并规则的组合音节。
100.从训练音频中识别出发音的组合音节后,判断这些组合音节是否符合音节合并规则,根据判断结果筛选出符合音节合并规则的组合音节。
101.音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。
102.1)声母+声母+韵母
103.2)声母+声母+韵母+特殊声母【n/m】
104.例如b_r_i_n,b_r_e_m,其中特殊声母n/m是单音素统计中,普遍发音较短的具有黏着性的单音素。
105.3)声母+韵母+特殊声母【n/m】
106.从训练音频中识别出发音的组合音节例如b_r_e、b_e_m、r_e_m、r_e_b后,根据音
节合并规则进行筛选,可以筛选出符合音节合并规则的组合音节b_r_e、b_e_m、r_e_m,其中r_e_b因为是声母结尾,不是韵母或特殊声母结尾,因此不符合音节合并规则被排除。
107.s306、将符合音节合并规则的组合音节进行强制帧对齐。
108.从训练音频中,将符合音节合并规则的组合音节进行强制帧对齐,获得强制帧对齐的结果。
109.强制帧对齐,是指已知音频以及对应的文本标注,获得每一帧对应的标注的过程。其中,训练音频中的组合音节可以是以韵母为核心进行强制帧对齐。
110.例如:对于200帧的音频,文本标注为n i3 h ao3(其中3表示声调),进行强制帧对齐,对齐结果为:n(1-30)i3(31-100)h(101-120)ao3(121-200)。也就是第1-30帧是n,第31-100帧是i3,第101-120帧是h,第121-200帧是ao3。
111.需说明的是,在语音建模时,可以是带声调建模,也可以不带声调建模。
112.s307、确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长。
113.获得强制帧对齐的结果后,对于对齐后的组合音节,统计在不同上下文语境中所有长度为3和4的组合音节(包含音素组合)的发音持续时长,取平均值作为该组合音节(属于声韵母组合)的平均发音持续时长。组合音节的平均发音持续时长,可以根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。另外也统计所有组合音节的平均发音持续时长。
114.例如,组合音节b_r_e的b、r、e这三个音素在训练音频中连着共出现了1000次,对齐后(b+r+e)总发音持续时长500s,那么b、r、e这3个音素组合的平均发音持续时长为n(b_r_e)=500/1000=0.5s。
115.又例如,a_b音素组合,在10000个句子里面出现了1000次,将1000次的时长加起来除以1000,就可以得到a_b音素组合的平均发音持续时长。
116.s308、确定发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。
117.其中,可以将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。发音黏着度越小,表示组合音节中的音素越应该分到一起。
118.假设设定阈值为0.5,当发音黏着度小于0.5时,输出黏着性的组合音节作为第二音节。
119.以下以音节合并规则中不同情形下的发音黏着度的确定过程举例说明,其中相关公式中的xym表示声母,z表示韵母,s表示任意声母/韵母,n表示发音持续时长的平均值,p表示发音黏着度,t表示发音持续时长。
120.1)声母+声母+韵母:x,y,z的发音黏着度
[0121][0122]
2)声母+声母+韵母+特殊声母:x,y,z,m的发音黏着度
[0123][0124]
3)声母+韵母+特殊声母:x,z,m的发音黏着度
[0125][0126]
其中,以x,y,z的发音黏着度为例,公式中的分母表示所有出现的音素组合x,s,z(所有组合音节)的平均值(平均发音持续时长);分子表示音素组合x,y,z(对齐后的组合音节)的平均值(平均发音持续时长)。发音黏着度p越小,表示x,y,z这三个音素出现时,持续时间越短,越黏着,越应该分到一起。
[0127]
举例说明:
[0128]
组合音节b_r_e的发音黏着度为:
[0129]
p(b_r_e)=n(b_r_e)/n(b_*_e)
[0130]
其中,*代表所有声母,n表示发音持续时长的平均值,n(b_r_e)表示组合音节b_r_e的平均发音持续时长,n(b_*_e)表示所有声母与b、e组合后的所有组合音节的平均发音持续时长。
[0131]
b_r_e如果黏着性很高,则b_r_e的平均发音持续时长一般就短于b_*_e的平均发音持续时长。
[0132]
组合音节r_e_m的发音黏着度为:
[0133]
p(r_e_m)=n(r_e_m)/n(r_e_*)
[0134]
其中,*代表所有声母,n表示发音持续时长的平均值,n(r_e_m)表示组合音节r_e_m的平均发音持续时长,n(r_e_*)表示所有声母与r、e组合后的所有组合音节的平均发音持续时长。
[0135]
例如,上述符合音节合并规则的组合音节b_r_e、b_e_m、r_e_m,经过发音黏着度判断后,得到符合条件的组合音节b_r_e、b_e_m作为第二音节。经过发音黏着度判断后的第二音节中,一般包含3-4个音素。
[0136]
s309、将第一音节和第二音节进行合并,得到建模音节。
[0137]
其中,将上述不同步骤分别得到的第一音节和第二音节进行合并,可以生成最终的音节即建模音节。
[0138]
例如,将上述得到的第一音节b_e、r_e、k_a和第二音节b_r_e、b_e_m进行合并,得到最终的建模音节b_e、r_e、k_a、b_r_e、b_e_m
…
。
[0139]
本技术的建模方法,可以与上下文无关,这样可以压缩建模单元的数量,不同的上下文可以共享同一个建模单元,使得数十个语种可以使用同一套建模系统,从而能够实现多语种统一建模,更方便不同语种的语音识别和语音交互。本技术可以实现数据共享,同一个建模单元,可能在不同的语种都存在,可以大大减少单一语种的数据量的依赖。本技术基于ipa将音素合并成音节,通过融合发音学规则和训练音频数据统计结果来生成建模音节,可以使得单一语种的建模单元从40量级增加到500量级,从而大大降低了学习难度,提升识别率。本技术通过基于ipa的音节建模技术,使得数十个语种混合可以使用一个softmax输出层,这样不仅降低了计算量和延时,同时也使得不同语种之间的比较可以在模型内部进行,变成了一个可以学习的目标,而不需人工给予不同语种权重去比较。本技术基于ipa的与上下文无关的音节建模技术,使得建模单元从上下文相关的三音素转成了上下文无关的音节,可以使得发音单元数目足够多,相互之间区分性更大,更容易学习,同时兼顾了上下文无关的音节的数目,且更大的发音单元具有更强的抗噪声能力。
[0140]
图4是本技术示出的应用语音建模进行语音识别的应用框架示意图。
[0141]
参见图4,车辆的车载系统在接收座舱内用户的待识别的语音请求(query)后发送给服务器,服务器接收车辆转发的车辆座舱内用户发出的语音请求后,利用本技术根据建模音节所建立的声学模型和相关解码器对语音请求进行语音识别,得到语音识别结果,将语音识别结果下发至车辆完成语音交互。其中,声学模型的构建过程可以参见图4右侧所示,对于用户发出的语音音频,可以采用神经网络层例如lstm(long short-term memory,长短期记忆网络)隐含层进行处理输出音素特征向量,然后基于ipa将不同语种的音素例如德语音素、英文音素、法语音素等进行音素合并,数十个不同语种混合可以使用一个softmax输出层,后续不需要再进行语种判别的处理。本技术的声学模型的更详细构建过程,可以参见图3流程所描述。本技术通过基于ipa的音素合并,使得多语种之间可以共享建模单元,进而共享部分数据,使得不同语种可以相互提升效果。
[0142]
与前述应用功能实现方法相对应,本技术还提供了一种服务器。
[0143]
图7是本技术示出的服务器的结构示意图。
[0144]
参见图7,本技术提供的服务器70,包括:音素处理模块71、训练处理模块72、音节合并模块73、模型生成模块74、请求接收模块75、语音识别模块76。
[0145]
音素处理模块71,用于获取不同语种的音素,根据发音学规则将不同语种的音素合并为第一音节。音素处理模块71可以根据万国音标规则将不同语种的音素进行预合并;根据发音学规则将进行预合并后的音素合并为第一音节。
[0146]
训练处理模块72,用于获取不同语种的训练音频,利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从组合音节中筛选出第二音节。训练处理模块72可以将组合音节进行强制帧对齐;确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长;将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。本技术可以利用不同语种的音频和/或视频的训练材料识别出发音的组合音节。
[0147]
音节合并模块73,用于将音素处理模块71得到的第一音节和训练处理模块72得到的第二音节进行合并,得到建模音节。
[0148]
模型生成模块74,用于根据建模音节生成声学模型。
[0149]
请求接收模块75,用于接收车辆转发的车辆座舱内用户发出的语音请求。
[0150]
语音识别模块76,用于根据模型生成模块74生成的声学模型对请求接收模块75接收的语音请求进行识别,生成识别结果下发至车辆完成语音交互。
[0151]
图8是本技术另一示出的服务器的结构示意图。
[0152]
参见图8,本技术提供的服务器70,包括:音素处理模块71、训练处理模块72、音节合并模块73、模型生成模块74、请求接收模块75、语音识别模块76。
[0153]
其中,音素处理模块71包括:预合并子模块711、音素合并子模块712。
[0154]
预合并子模块711,用于根据万国音标规则将不同语种的音素进行预合并。
[0155]
音素合并子模块712,用于根据发音学规则将进行预合并后的音素合并为第一音节。例如,音素合并子模块712可以从进行预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。
[0156]
其中,训练处理模块72包括:对齐及统计模块721、音节筛选模块722。
[0157]
对齐及统计模块721,用于将组合音节进行强制帧对齐,获得对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长。
[0158]
音节筛选模块722,用于将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将发音黏着度小于设定阈值的组合音节作为第二音节。组合音节的平均发音持续时长,可以根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。
[0159]
训练处理模块72还可以包括:规则筛选模块723。
[0160]
规则筛选模块723,从组合音节中筛选出符合音节合并规则的组合音节;对齐及统计模块721将符合音节合并规则的组合音节进行强制帧对齐。
[0161]
其中,音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。
[0162]
本技术的服务器,根据发音学规则将不同语种的音素合并为第一音节,根据发音黏着度从训练音频的组合音节中筛选出第二音节,然后合并得到建模音节,这些音节与上下文无关,这样就可以使得各种不同语种可以使用同一套建模系统,从而能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。
[0163]
关于上述实施例中的服务器,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
[0164]
图9是本技术示出的服务器的另一结构示意图。
[0165]
参见图9,服务器1000包括存储器1010和处理器1020。
[0166]
处理器1020可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0167]
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(rom)和永久存储装置。其中,rom可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0168]
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处
理器1020执行上文述及的方法中的部分或全部。
[0169]
此外,根据本技术的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
[0170]
或者,本技术还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
[0171]
以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
技术特征:
1.一种语音交互方法,其特征在于,包括:获取不同语种的音素,根据发音学规则将所述不同语种的音素合并为第一音节;利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从所述组合音节中筛选出第二音节;将所述第一音节和所述第二音节进行合并,得到建模音节;根据所述建模音节生成声学模型;接收车辆转发的车辆座舱内用户发出的语音请求;根据所述声学模型对所述语音请求进行识别,生成识别结果下发至车辆完成语音交互。2.根据权利要求1所述的方法,其特征在于,所述根据发音学规则将所述不同语种的音素合并为第一音节,包括:根据万国音标规则将所述不同语种的音素进行预合并;根据发音学规则将所述进行预合并后的音素合并为第一音节。3.根据权利要求2所述的方法,其特征在于,所述根据发音学规则将所述进行预合并后的音素合并为第一音节,包括:从进行预合并后的音素中,将声母和韵母的音素合并得到第一音节,将剩下的单个声母的音素和单个韵母的音素单独作为第一音节。4.根据权利要求1所述的方法,其特征在于,所述利用不同语种的训练材料识别出发音的组合音节,包括:利用不同语种的音频和/或视频的训练材料识别出发音的组合音节。5.根据权利要求1所述的方法,其特征在于,所述根据发音黏着度从所述组合音节中筛选出第二音节,包括:将所述组合音节进行强制帧对齐;确定对齐后的所述组合音节的平均发音持续时长和所有组合音节的平均发音持续时长;将所述组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度,将所述发音黏着度小于设定阈值的组合音节作为第二音节。6.根据权利要求5所述的方法,其特征在于,所述将所述组合音节进行强制帧对齐之前还包括:从所述组合音节中筛选出符合音节合并规则的组合音节;所述将所述组合音节进行强制帧对齐包括:将所述符合音节合并规则的组合音节进行强制帧对齐。7.根据权利要求5所述的方法,其特征在于,所述音节合并规则,包括以下至少一项规则:声母+声母+韵母;声母+声母+韵母+特殊声母;声母+韵母+特殊声母。8.根据权利要求5所述的方法,其特征在于:所述组合音节的平均发音持续时长,根据进行强制帧对齐后的总发音持续时长与所述
组合音节在所述训练音频中出现的次数的比值确定。9.根据权利要求5所述的方法,其特征在于,所述将所述组合音节进行强制帧对齐,包括:将所述组合音节以韵母为核心进行强制帧对齐。10.一种服务器,其特征在于,包括:音素处理模块,用于获取不同语种的音素,根据发音学规则将所述不同语种的音素合并为第一音节;训练处理模块,用于利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从所述组合音节中筛选出第二音节;音节合并模块,用于将所述音素处理模块得到的第一音节和所述训练处理模块得到的第二音节进行合并,得到建模音节;模型生成模块,用于根据所述建模音节生成声学模型;请求接收模块,用于接收车辆转发的车辆座舱内用户发出的语音请求;语音识别模块,用于根据所述模型生成模块生成的声学模型对所述请求接收模块接收的语音请求进行识别,生成识别结果下发至车辆完成语音交互。11.一种服务器,其特征在于,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-9中任一项所述的方法。12.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-9中任一项所述的方法。
技术总结
本申请提供一种语音交互方法、服务器及存储介质。该语音交互方法,包括:获取不同语种的音素,根据发音学规则将所述不同语种的音素合并为第一音节;利用不同语种的训练材料识别出发音的组合音节,根据发音黏着度从所述组合音节中筛选出第二音节;将所述第一音节和所述第二音节进行合并,得到建模音节;根据所述建模音节生成声学模型;接收车辆转发的车辆座舱内用户发出的语音请求;根据所述声学模型对所述语音请求进行识别,生成识别结果下发至车辆完成语音交互。本申请提供的方案,能够实现多语种统一建模,更方便不同语种的语音识别和语音交互,降低部署成本,避免机器资源浪费。避免机器资源浪费。避免机器资源浪费。
技术研发人员:
张辽
受保护的技术使用者:
广州小鹏汽车科技有限公司
技术研发日:
2022.06.27
技术公布日:
2022/9/30