1.本公开的实施例涉及
数据处理领域,并且更具体地,涉及处理语音数据的方法、模型生成方法、装置、和电子设备,以及计算机程序产品。
背景技术:
2.对于各国语言的发音而言,用户能够获知自己跟读或朗读发音是否标准是十分重要的。随着在线交互技术的逐渐普及,计算机辅助发音教学(computer-aided pronunciation training,capt)在用户的发音尝试中得到越来越多的应用。发音质量评估作为计算辅助发音教学的一个重要技术,主要用于评价用户口语发音的准确程度。在技术实践过程中,人们发现传统的发音质量评价的模型或应用存在鲁棒性不佳的问题,使得用户体验亟待完善。
技术实现要素:
3.本公开的实施例提供了处理语音数据的方案和模型生成方案。
4.在本公开的第一方面中,提供了一种用于处理语音数据的方法。该方法可以包括确定与
所述语音数据中的语音帧相对应的声学特征。该方法还可以包括从所述声学特征中提取与所述语音帧相对应的特征数据。此外,该方法可以进一步包括至少基于所述声学特征,确定与所述语音帧相对应的
音素数据。该方法还可以包括基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
5.在本公开的第二方面中,提供了一种模型生成方法。该方法可以包括确定与
样本语音数据中的样本语音帧相对应的样本声学特征。该方法还可以包括确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级。此外,该方法可以包括从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分。并且,该方法可以包括基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级。该方法可以进一步包括至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
6.在本公开的第三方面中,提供了一种用于处理语音数据的装置。该装置包括:声学特征确定模块,被配置为确定与所述语音数据中的语音帧相对应的声学特征;特征数据提取模块,被配置为从所述声学特征中提取与所述语音帧相对应的特征数据;音素数据确定模块,被配置为至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及质量等级确定模块,被配置为基于所述音素数据和所述多层特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
7.在本公开的第四方面中,提供了一种模型生成装置。该装置包括:样本声学特征确定模块,被配置为确定与样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述样本语音数据中选择至少两个音素,作为
附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
8.在本公开的第五方面中,提供了一种电子设备,包括至少一个处理器;以及存储装置,用于存储至少一个程序,当至少一个程序被至少一个处理器执行,使得至少一个处理器实现根据本公开的第一、第二方面的方法。
9.在本公开的第六方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一、第二方面的方法。
10.提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
11.通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同或相似的参考标号通常代表相同或相似的部件。在附图中:
12.图1图示了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100的示意图;
13.图2图示了根据本公开的实施例的用于训练和应用模型的详细示例环境的示意图;
14.图3图示了根据本公开的实施例的用于处理语音数据的过程300的流程图;
15.图4图示了根据本公开的实施例的用于确定音素数据的过程400的流程图;
16.图5图示了根据本公开的实施例的用于生成声学模型的示例过程500的示意图;
17.图6图示了根据本公开的实施例的用于确定质量等级的过程600的流程图;
18.图7图示了根据本公开的实施例的用于确定语音数据的质量等级的示例过程700的示意图;
19.图8图示了根据本公开的实施例的模型生成的过程800的流程图;
20.图9图示了根据本公开实施例的用于处理语音数据的装置900的示意性框图;
21.图10图示了适于用来实施本公开内容的实施例的示例设备1000的示意性框图。
22.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
23.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
24.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存
储介质等软件或硬件提供个人信息。
25.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
26.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
27.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
28.下面将参考附图中示出的若干示例实施例来描述本公开的原理。
29.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“一组示例实施例”。术语“另一实施例”表示“一组另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
30.如以上提及的,传统的发音质量评估系统通常会利用自动语音识别技术提取用户(或称为“二语”用户)语音中的发音特征利用经训练的发音质量评估模型将提取的发音特征映射为发音质量分数进行口语打分。然而,发音特征的提取以及发音质量的评估均需要大量用户的二语发音语料库进行训练获得,由于用户的二语发音收集困难,并且标注成本高昂,二语语料库的稀缺影响了模型的训练,从而限制了发音质量评估系统的性能。因此,如何在有限的二语发音语料库上构建一个高性能的发音质量评估系统是一个挑战。
31.有鉴于此,本公开的实施例提出了一种处理语音数据的方案。在该方案中,首先确定语音数据中的每个语音帧的声学特征。之后,在帧级别上,从声学特征中提取每个语音帧的特征数据,并且基于声学特征确定每个语音帧的音素数据。最后,基于确定的帧级别的特征数据和音素数据确定整个语音数据的质量等级。以此方式实现了帧级别的语音质量评估,从而优化了质量等级的确定过程。
32.此外,本公开的实施例还提出了一种模型生成的方案。在该方案中,首先确定样本语音数据中的每个样本语音帧的样本声学特征。之后,在帧级别上,确定每个样本语音帧的每个样本音素的特征数据和质量等级。进而,从样本语音数据中选择至少两个音素,组成增广的样本语音数据,并且基于与该至少两个音素相对应的质量等级和特征数据,确定增广的样本语音数据的附加质量等级。最后,基于增广的样本语音数据以及附加质量等级以及原有的训练数据来训练模型。以此方式训练出的模型可以输出更准确的测评结果。
33.下面将进一步结合附图来详细描述本公开的实施例,其中图1示出了本公开的实施例的设备和/或方法可以在其中被实施的示例环境100。
34.在环境100中包括计算设备104,计算设备104用于对语音数据102进行处理来确定语音数据102中的用户的发音的质量等级106。
35.计算设备104的示例包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(pda)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境
等。
36.计算设备104接收的语音数据102是包括用户的语音数据。该语音数据的示例包括但不限于学习英语的用户说的英语语音、学习汉语的用户说的汉语语音。图1示出了计算设备104接收语音数据102。其仅是示例,而非对本公开的限定。计算设备104也可以生成语音数据102或者语音数据102存储在计算设备104的本地存储器中。
37.计算设备104在获得了语音数据102后,可以对语音数据102进行处理来获得语音数据中的语音帧的声学特征1041。在一个示例,该声学特征为梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)特征,其是通过对语音数据进行分帧、加窗,并进行变换得到的。在另一个示例中,该声学特征为能够表示语音帧的任意合适的特征,例如快速傅里叶变换特征。上述示例仅是用于描述本公开,而非对本公开的具体限定。本领域技术人员可以采用任意合适的方法来获得语音数据的特征。
38.计算设备104利用声学特征1401来获得帧级别的特征数据1042和音素数据1043。在本公开中,音素是指是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。例中,英语国际音标共有48个音素,其中元音音素20个、辅音音素28个。
39.例如,对于一段语音,如果其包括50个语音帧,则会生成针对50帧的mmfc特征。然后,确定与该50个语音帧中的每个语音帧对应的音素数据。在一些实施例中,利用声学特征来确定音素数据是利用训练好的声学模型来获得的。在一个示例中,该声学模型为dnn-hmm模型,在另一个示例中该声学模型为cnn-hmm。上述示例仅是用于描述本公开,而非对本公开的具体限定。本领域技术人员可以设置任意合适的模型来确定音素数据。
40.计算设备104然后利用各语音帧的特征数据和对应的音素数据来确定语音数据102的质量等级160。在一些实施例中,计算设备104利用声学模型来获得音素,同时还获得在该声学模型的输出层之前的层中的模型相关特征。然后利用模型相关特征和音素来确定语音数据102的质量等级160。上述示例仅是用于描述本公开,而非对本公开的具体限定。
41.上文描述的技术方案仅用于示例,而非限制本发明。应理解,还可以按照其他方式和连接关系来布置系统。为了更清楚地解释上述方案的原理,下文将参考图2来更详细描述模型的训练和应用的过程。
42.图2图示了根据本公开的实施例的用于训练和应用模型的详细示例环境200的示意图。与图1类似地,示例环境200可以包含计算设备220、输入计算设备220的用户语音数据210和从计算设备220输出的与用户语音数据210对应的质量等级230。区别在于,示例环境200总体上可以包括模型训练系统260和模型应用系统270。作为示例,模型训练系统260和/或模型应用系统270可以在如图1所示的计算设备104或如图2所示的计算设备220中实现。应当理解,仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。
43.如前所述,对输入的用户语音数据210进行处理以确定质量等级230的过程可以分为两个阶段:模型训练阶段和模型应用阶段。作为示例,在模型训练阶段中,模型训练系统260可以利用训练数据集250来训练用于执行相应功能的模型240。应理解,训练数据集250可以是多个样本数据(作为模型240的输入)以及相应的被标注的监督信息(或称为“标签”、“真值结果”)的组合。在模型应用阶段中,模型应用系统270可以接收经训练的模型240。由
此,载入到模型应用系统270的计算设备220中的模型240可以基于用户语音数据210来确定质量等级230。
44.在其他实施例中,模型240可以被构建为学习网络。在一些实施例中,该学习网络可以包括多个网络,其中每个网络可以是一个多层神经网络,其可以由大量的神经元组成。通过训练过程,每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为模型240的参数。
45.模型240的训练过程可以以迭代方式来被执行,直至模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数,由此获得最终的模型参数。
46.上文描述的技术方案仅用于示例,而非限制本公开。应理解,还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理,下文将参考图3来更详细描述语音数据的处理过程。
47.图3图示了根据本公开的实施例的用于处理语音数据的过程300的流程图。在某些实施例中,过程300可以在图1中的计算设备104或其他计算设备中实现。现参照图3并结合图1描述根据本公开实施例的语音数据处理的过程300。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。
48.在302,计算设备104可以确定与语音数据102中的语音帧相对应的声学特征1041。作为示例,计算设备104对接收的语音数据102进行处理来确定声学特征1041。在一些实施例中,计算设备104对语音数据进行分帧处理来获得语音帧。通过该方式,可以便于准确地获取语音数据的信息。在一些实施例中,计算设备104对语音数据进行处理来获得mfcc特征作为声学特征。在一些实施例中,该声学特征为快速傅里叶变换(fast fourier transform,fft)特征。上述示例仅是描述本公开,而非对本公开的具体限定。
49.在304,计算设备104可以从声学特征1041中提取与各语音帧相对应的特征数据1042。在某些实施例中,为了提取特征数据,计算设备104可以从预先训练的声学模型的多个层中提取相应的特征数据,作为特征数据1042。
50.作为示例,声学模型可以是预训练的wav2vec2模型,其可以利用大量的语音数据进行自学习来获得。预训练的wav2vec2由三部分组成:由卷积神经网络组成的编码器、transformer组成的上下文处理器和一个量化器构成。其输入为原始的语音信号,编码器能够将采样率为16khz的语音信号每隔20ms将25ms的音段编码成一个隐向量,上下文处理器可以在当前音段上再考虑整条语音中来自其他音段的信息,将隐向量进一步处理成上下文相关的音段表征。量化器只在wav2vec2预训练时使用。该预训练的wav2vec2模型可以是由另外的提供方提供的,也可以是由用户自己利用语音数据训练得到的。应理解,上文所述的声学模型的多个层可以是指预训练的wav2vec2模型中的transformer中的多个层。在某些实施例中,计算设备104可以从声学模型的每个层中均提取相应的特征数据,作为特征数据1042。
51.在306,计算设备104可以至少基于声学特征1041,确定与语音帧相对应的音素数据1043。在本公开中,音素是指是根据语音的自然属性划分出来的最小语音单位。作为示例,对于一段语音数据,如果其包括50个语音帧,则会生成针对50帧的mmfc特征。然后,确定与该50个语音帧中的每个语音帧对应的音素数据。这里,需要确定每个语音帧的位置所对应的音素数据,因此通常需要结合每个语音帧的音素似然值与整个语音数据的文本数据来
进行确定。图4详细地示出了确定音素数据的过程,下文将具体就此进行描述。
52.在308,计算设备104可以基于特征数据1042和音素数据1043来确定语音数据102的质量等级106,该质量等级106通常指示语音数据102的语音质量。在一个示例中,该目标质量等级为分数。在另一个示例中,该目标质量等级为不同的级别,如好、中、差或a、b、c、d。上述示例仅是用于描述本公开,而非对本公开的具体限定。图6详细地示出了确定质量等级的过程,下文将具体就此进行描述。
53.通过上述实施例,可以在帧级别上确定语音数据的特征数据和音素数据,并基于这些数据确定语音数据的质量等级。以此方式,提高了系统的鲁棒性以及对用户的语音的评价准确性,从而提升了用户体验。
54.进一步地,图4图示了根据本公开的实施例的用于确定音素数据的过程400的流程图。在某些实施例中,过程400可以在图1中的计算设备104或其他计算设备中实现。现参照图4并结合图1描述根据本公开实施例的用于确定音素数据的过程400。为了便于理解,在下文描述中提及的具体实例均是示例性的,并不用于限定本公开的保护范围。
55.在402,计算设备104可以将声学特征1041应用于预先训练的声学模型。应理解,该声学模型可以是计算设备104训练得到的,也可以是由其他计算设备训练并发送至计算设备104。进而,计算设备104可以基于声学特征1041确定与各语音帧相对应的音素似然值。音素似然值被配置为用于描述该语音帧与每个音素对应的概率,其也可以用于指示语音帧对应的音素,例如,对应于具有最大概率的音素。除音素似然值之外,计算设备104还可以获取与语音数据相对应的文本数据,即,语音数据的转写文本。基于该文本数据与音素似然值,计算设备104可以确定音素数据1043。
56.下面结合图5描述根据本公开的实施例的用于生成声学模型的示例过程500。生成模型的示例过程可以在图1的计算设备104或其他计算设备处执行。
57.在502处,计算设备104可以获取语音数据。然后在504处,计算设备104对语音数据进行处理来获得mfcc特征。接下来计算设备104利用mfcc特征训练混合高斯模型-隐马尔可夫模型(gmm-hmm)506,在训练好gmm-hmm模型506后,利用gmm-hmm处理语音数据,然后在508处结合样本文本进行对齐操作来确定语音帧的标签。通过确定好的语音帧标签和对应的mfcc特征来训练深层神经网络-隐马尔科夫dnn-hmm模型510。训练好的dnn-hmm模型可以基于mfcc特征来确定对应的音素。因此,训练好的dnn-hmm模型可以作为声学模型。
58.如图5所示,dnn-hmm包括针对dnn的多个层512、514、516和针对hmm的层518,层512为输入层,层516为输出层,层514为隐藏层,隐藏层可以为一个或多个层。图5仅是示例,而非对本公开的具体限定。还可以训练诸如cnn-hmm的声学模型或其他任意合适的声学模型。
59.上面结合图5描述了根据本公开的实施例的用于生成声学模型的示例过程500。下面结合图6描述根据本公开的实施例的用于确定质量等级的过程600的示意图。过程600可以在图1的计算设备104或其他计算设备处执行。
60.在602处,计算设备104可以将音素数据和特征数据应用于预先训练的质量等级确定模型。在604处,计算设备104可以基于预先确定的注意力机制对多层的特征数据进行加权处理。应理解,注意力机制下的权重在训练的每次迭代中基本均会发生变化。备选地或附加地,使用预先确定的权重对每层的特征数据进行加权处理。在606处,计算设备104可以基于经加权的特征数据和音素数据确定质量等级。
61.下面结合图7描述根据本公开的实施例的用于确定语音数据的质量等级的示例过程700的示意图。
62.将输入音频702送入特征提取模块704进行处理。特征提取模块704获取输入音频的语音帧中的声学特征。然后将声学特征输入声学模型706来获取音素似然值708以及提取自声学模型706中的每一层的特征710。声学模型可以是预训练的wav2vec2模型。因此,wav2vec2模型可以被训练为从声学特征中确定每个音素的音素似然值以及wav2vec2模型中的每一层的特征。音素似然值708描述该语音帧与每个音素对应的概率,其也可以用于指示语音帧对应的音素,例如,对应于具有最大概率的音素。
63.然后,将音素似然值708和与输入音频相关的输入文本712输入解码器714。解码器714对输入音频的多个语音帧的多个音素似然值与输入文本的音素序列进行匹配,来确定与文本中的音素序列中每个音素对应的一个或多个语音帧,从而形成音素时间戳716。音素时间戳716包括音素标识及对应的一个或多个语音帧。进而,计算设备104可以将每一层特征710以及音素时间戳716输入质量等级确定模型718,以确定质量等级720。通过该方式,可以有效利用了语音数据的声学信息和音素,提高了评测的准确性和系统性能,改进了用户体验。
64.在一些实施例中,计算设备104从其他计算设备接收训练好的声学模型。
65.在一些实施例中,计算设备104训练声学模型706。作为示例,计算设备104可以获取第一组样本语音数据,并且利用第一组样本语音数据预训练所述声学模型。作为示例,第一组样本语音数据可以是约6万小时的母语无标签发音数据。作为示例,第一组样本语音数据可以是时长大于6万小时的母语无标签发音数据。作为示例,第一组样本语音数据可以是约1万至10万小时的母语无标签发音数据。作为示例,第一组样本语音数据可以是约1千至50万小时的母语无标签发音数据。
66.进而,计算设备104可以获取第二组样本语音数据和对应的样本文本,并且利用第二组样本语音数据和相应的样本文本微调声学模型。作为示例,第二组样本语音数据可以是约1000小时的母语音频数据和10小时的二语音频数据(即,用户的根据音频数据)以及这些数据对应的转写文本(即,对应于这些音频数据的文本)。作为示例,第二组样本语音数据可以是约500至5000小时的母语音频数据和5至50小时的二语音频数据以及这些数据对应的转写文本。
67.在一些实施例中,首先提取音频梅尔倒谱系数特征,训练高斯混合模型-隐马尔可夫模型,利用转写文本对音频进行对齐,得到帧级别标签。利用帧级别标签和音频的原始信号训练wav2vec2模型作为声学模型。应理解,上述关于音频数据时长的描述仅是示例性的,可以根据实际情况和需要对这些数据进行调整。以此方式,仅需要对少量(例如,上述10小时)的二语音频数据进行专家标注,从而节约了标注成本,同时提升了模型的训练质量。
68.在一些实施例中,计算设备104训练质量等级确定模型718。作为示例,计算设备104可以利用第三组样本语音数据和对应的跟读文本预训练质量等级确定模型,作为示例,第三组样本语音数据可以是上述10小时的二语音频数据或其他二语音频数据以及这些数据对应的跟读文本(即,用户的跟读语音的识别文本)。具体地,可以利用声学模型和解码器对有限的上述10小时的打分训练数据进行特征映射和对齐,得到每条音频的在声学模型中的中间层的每一层的输出特征、最后一层的音素似然矩阵以及音素时间戳。对于10小时的
真实数据,利用音素似然矩阵以及音素时间戳计算句子内每个音素的gop(发音优度)分数,然后通过平均得到句子级别的gop分数。利用该分数作为监督信息,利用声学模型中间层的每一层的输出作为特征,训练基于特征加权的质量等级确定模型718。
69.进而,计算设备104可以获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级,并且利用第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级微调质量等级确定模型。第四组样本语音数据可以是约4小时或其他时长的二语音频及其跟读文本以及语言专家按照发音评测规则对每个音频进行的打分。
70.在某些实施例中,还可以通过如下过程进行训练数据增广。例如,计算设备104可以确定与上述第三组样本语音数据中的样本语音帧相对应的样本声学特征,并且确定与样本语音帧相对应的每个样本音素的多层特征数据和质量等级,从而可以形成由多个音素、其对应的质量等级(例如,gop分数)、以及其对应的多层特征数据组成的特征池。
71.进而,计算设备104可以从第三组样本语音数据中任意选择至少两个音素,以便组成增广的样本语音数据的至少一部分。由此,计算设备104可以基于与该至少两个音素相对应的质量等级和多层特征数据,确定增广的样本语音数据的附加质量等级。作为示例,当选择了上述特征池中的至少两个音素后,可以对这些音素所对应的特征数据进行组合,形成一个增广的特征数据,并且基于这些音素所对应的质量等级确定增广的质量等级。由此,计算设备104可以至少基于增广的样本语音数据所对应的增广的特征数据以及经确定的增广的质量等级训练质量等级确定模型。
72.在某些实施例中,为了确定与样本语音帧相对应的每个样本音素的质量等级,计算设备104可以将样本声学特征应用于预先训练的声学模型,以确定与样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据,并且可以基于第三组样本语音数据的跟读文本与样本音素似然值确定样本音素时间戳。进而,计算设备104可以基于样本音素似然值和样本音素时间戳确定第三组样本语音数据中的每个样本音素的质量等级,并且从第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分。进一步地,计算设备104可以基于与该至少两个音素相对应的质量等级和多层特征数据,确定附加样本语音数据的质量等级。
73.图8图示了根据本公开的实施例的模型生成的过程800的流程图。下面结合图8描述根据本公开的实施例的模型生成的过程800的示意图。过程800可以在图1的计算设备104或其他计算设备处执行。
74.在802处,计算设备104可以确定与样本语音数据中的样本语音帧相对应的样本声学特征。此过程与模型应用过程类似,在此不再赘述。
75.在804处,计算设备104可以确定与样本语音帧相对应的每个样本音素的特征数据和质量等级。在某些实施例中,计算设备104可以通过确定训练数据中的每个样本音素的特征数据和质量等级来形成由多个音素、其对应的质量等级(例如,gop分数)、以及其对应的多层特征数据组成的特征池。
76.在806处,计算设备104可以从样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分。作为示例,计算设备104可以从上述第三组样本语音数据中任意选择至少两个音素,以便组成增广的样本语音数据的至少一部分。作为示例,当选择了上述特征池中的至少两个音素后,可以对这些音素所对应的特征数据进行组合,形成一个增广的
特征数据,并且基于这些音素所对应的质量等级确定增广的质量等级。由此,计算设备104可以至少基于增广的样本语音数据所对应的增广的特征数据以及经确定的增广的质量等级训练质量等级确定模型。
77.在808处,计算设备104可以基于与上述至少两个音素相对应的质量等级和特征数据,确定附加样本语音数据的附加质量等级,进而在810处,计算设备104可以至少基于附加样本语音数据以及附加质量等级训练所述模型。应理解,数据增广的对象可以是样本语音数据本身,也可以是其对应的特征。换言之,计算设备104可以基于附加样本语音数据对应的特征数据和质量等级执行模型训练,也可以基于附加样本语音数据本身和作为监督信息的质量等级执行模型训练。
78.在某些实施例中,为了确定与样本语音帧相对应的每个样本音素的质量等级,计算设备104可以将样本声学特征应用于预先训练的声学模型,以确定与样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据。进而,计算设备104可以基于样本语音数据的跟读文本与样本音素似然值确定样本音素时间戳。之后,计算设备104可以所述样本音素似然值和样本音素时间戳确定样本语音数据中的每个样本音素的质量等级,由此修改特征池。
79.进而,计算设备104可以从特征池中的样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分,并且基于与至少两个音素相对应的质量等级和多层特征数据,确定附加样本语音数据的质量等级。
80.通过上述各实施例,本公开首先实现了帧级别的特征数据和音素数据的确定,从而使确定的质量等级更加准确。进而,本公开利用了开源的大规模无标注母语数据对wav2vec2模型进行预训练,再利用带标注的少量母语和二语数据进行微调,从而进一步提升了系统的鲁棒性。此外,本公开有效地利用了声学模型中的每一层输出的特征,从而使得提取的用户的二语语音的表征更加全面。更重要地,本公开创建了音素级别的特征库,从而可以通过自由组合的方式增广更多的训练数据,并且可以确定这些增广的训练数据的特征和质量等级,从而低成本地扩充了训练数据集,提升了模型的质量。
81.本公开还提供了一种用于处理语音数据的装置。具体地,图9示出了根据本公开的实施例的用于处理语音数据的装置900的示意图。如图9所示,装置900至少可以包括:声学特征确定模块902,被配置为确定与所述语音数据中的语音帧相对应的声学特征;特征数据提取模块904,被配置为从所述声学特征中提取与所述语音帧相对应的特征数据;音素数据确定模块906,被配置为至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及质量等级确定模块908,被配置为基于所述音素数据和所述多层特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
82.在某些实施例中,音素数据确定模块906可以被配置为:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。
83.在某些实施例中,特征数据提取模块904可以被配置为:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。
84.在某些实施例中,质量等级确定模块908可以被配置为:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特
征数据进行加权处理;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。
85.在某些实施例中,装置900还可以包括:第一样本数据获取模块,被配置为获取第一组样本语音数据;第一预训练模块,被配置为利用所述第一组样本语音数据预训练所述声学模型;第二样本数据获取模块,被配置为获取第二组样本语音数据和对应的样本文本;以及第一微调模块,被配置为利用所述第二组样本语音数据和所述样本文本微调所述声学模型。
86.在某些实施例中,所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。
87.在某些实施例中,装置900还可以包括:第三样本数据获取模块,被配置为获取第三组样本语音数据和对应的跟读文本;第二预训练模块,被配置为利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;第四样本数据获取模块,被配置为获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及第二微调模块,被配置为利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。
88.在某些实施例中,所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。
89.在某些实施例中,装置900还可以包括:样本声学特征确定模块,被配置为确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。
90.在某些实施例中,音素信息确定模块906被配置为:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述第三组样本语音数据中的每个样本音素的质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
91.此外,虽然未示出,本公开还提供了一种模型生成装置,包括:样本声学特征确定模块,被配置为确定与样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述模
型。
92.在某些实施例中,音素信息确定模块被配置为包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述样本语音数据中的每个样本音素的质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
93.图10示出了能够实施本公开的多个实施例的计算设备1000的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
94.如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(rom)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(ram)1003中的计算机程序,来执行各种适当的动作和处理。在ram 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
95.设备1000中的多个部件连接至i/o接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
96.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如过程300、500、600、800。例如,在一些实施例中,过程300、500、600、800可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时,可以执行上文描述的过程300、500、600、800的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程300、500、600、800。
97.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
98.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
99.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
100.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
101.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
102.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
103.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
104.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
105.根据本公开的一个或多个实施例,示例1.一种用于处理语音数据的方法,包括:确定与所述语音数据中的语音帧相对应的声学特征;从所述声学特征中提取与所述语音帧相
对应的特征数据;至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
106.示例2.根据示例1所述的方法,其中确定所述音素数据包括:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。
107.示例3.根据示例1所述的方法,其中提取所述特征数据包括:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。
108.示例4.根据示例3所述的方法,其中确定所述质量等级包括:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特征数据进行加权处理;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。
109.示例5.根据示例2所述的方法,还包括:获取第一组样本语音数据;利用所述第一组样本语音数据预训练所述声学模型;获取第二组样本语音数据和对应的样本文本;以及利用所述第二组样本语音数据和所述样本文本微调所述声学模型。
110.示例6.根据示例5所述的方法,其中所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。
111.示例7.根据示例4所述的方法,还包括:获取第三组样本语音数据和对应的跟读文本;利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。
112.示例8.根据示例7所述的方法,其中所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。
113.示例9.根据示例8所述的方法,还包括:确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。
114.示例10.根据示例9所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述第三组样本语音数据中的每个样本音素的质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
115.示例11.一种模型生成方法,包括:确定与样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
116.12.根据示例11所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述样本语音数据中的每个样本音素的质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
117.13.一种用于处理语音数据的装置,包括:声学特征确定模块,被配置为确定与所述语音数据中的语音帧相对应的声学特征;特征数据提取模块,被配置为从所述声学特征中提取与所述语音帧相对应的特征数据;音素数据确定模块,被配置为至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及质量等级确定模块,被配置为基于所述音素数据和所述多层特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
118.示例14.根据示例13所述的装置,其中所述音素数据确定模块被配置为:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。
119.示例15.根据示例13所述的装置,其中所述特征数据提取模块被配置为:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。
120.示例16.根据示例15所述的装置,其中所述质量等级确定模块被配置为:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特征数据进行加权处理;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。
121.示例17.根据示例14所述的装置,还包括:第一样本数据获取模块,被配置为获取第一组样本语音数据;第一预训练模块,被配置为利用所述第一组样本语音数据预训练所述声学模型;第二样本数据获取模块,被配置为获取第二组样本语音数据和对应的样本文本;以及第一微调模块,被配置为利用所述第二组样本语音数据和所述样本文本微调所述声学模型。
122.示例18.根据示例17所述的装置,其中所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。
123.示例19.根据示例16所述的装置,还包括:第三样本数据获取模块,被配置为获取第三组样本语音数据和对应的跟读文本;第二预训练模块,被配置为利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;第四样本数据获取模块,被配置为获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及第二
微调模块,被配置为利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。
124.示例20.根据示例19所述的装置,其中所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。
125.示例21.根据示例20所述的装置,还包括:样本声学特征确定模块,被配置为确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。
126.示例22.根据示例21所述的装置,其中音素信息确定模块被配置为:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述第三组样本语音数据中的每个样本音素的质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
127.23.一种模型生成装置,包括:
128.样本声学特征确定模块,被配置为确定与样本语音数据中的样本语音帧相对应的样本声学特征;
129.音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;
130.附加样本语音数据确定模块,被配置为从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;
131.附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及
132.模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。
133.24.根据示例23所述的装置,其中音素信息确定模块被配置为包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述样本语音数据中的每个样本音素的质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。
134.25.一种电子设备,包括:
135.至少一个处理器;以及
136.存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现根据示例1-12中任一项所述的方法。
137.26.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据示例1-12中任一项所述的方法。
技术特征:
1.一种用于处理语音数据的方法,包括:确定与所述语音数据中的语音帧相对应的声学特征;从所述声学特征中提取与所述语音帧相对应的特征数据;至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。2.根据权利要求1所述的方法,其中确定所述音素数据包括:将所述声学特征应用于预先训练的声学模型;基于所述声学特征,确定与所述语音帧相对应的音素似然值;以及基于与所述语音数据相对应的文本数据与所述音素似然值,确定所述音素数据。3.根据权利要求1所述的方法,其中提取所述特征数据包括:从预先训练的声学模型的多个层中提取相应的特征数据,作为所述特征数据。4.根据权利要求3所述的方法,其中确定所述质量等级包括:将所述音素数据和所述特征数据应用于预先训练的质量等级确定模型;基于预先确定的注意力机制对多层的所述特征数据进行加权;以及基于经加权的所述特征数据和所述音素数据确定所述质量等级。5.根据权利要求2所述的方法,还包括:获取第一组样本语音数据;利用所述第一组样本语音数据预训练所述声学模型;获取第二组样本语音数据和对应的样本文本;以及利用所述第二组样本语音数据和所述样本文本微调所述声学模型。6.根据权利要求5所述的方法,其中所述第二组样本语音数据包含具有第一预定时长的母语语音数据和具有第二预定时长的语言学习语音数据。7.根据权利要求4所述的方法,还包括:获取第三组样本语音数据和对应的跟读文本;利用所述第三组样本语音数据和对应的跟读文本预训练所述质量等级确定模型;获取第四组样本语音数据、对应的跟读文本以及专家标注的样本质量等级;以及利用所述第四组样本语音数据、对应的跟读文本以及专家标注的所述样本质量等级微调所述质量等级确定模型。8.根据权利要求7所述的方法,其中所述第三组样本语音数据是具有第三预定时长的语言学习语音数据,以及所述第四组样本语音数据是具有第四预定时长的语言学习语音数据。9.根据权利要求8所述的方法,还包括:确定与所述第三组样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的多层特征数据和质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的附加质量等级;以及
至少基于所述附加样本语音数据以及所述附加质量等级训练所述质量等级确定模型。10.根据权利要求9所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述第三组样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述第三组样本语音数据中的每个样本音素的质量等级;从所述第三组样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。11.一种模型生成方法,包括:确定与样本语音数据中的样本语音帧相对应的样本声学特征;确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。12.根据权利要求11所述的方法,其中确定与所述样本语音帧相对应的每个样本音素的质量等级包括:将所述样本声学特征应用于预先训练的声学模型,以确定与所述样本语音帧相对应的样本音素似然值和每个样本音素的多层特征数据;基于所述样本语音数据的跟读文本与所述样本音素似然值确定样本音素时间戳;基于所述样本音素似然值和所述样本音素时间戳确定所述样本语音数据中的每个样本音素的质量等级;从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;以及基于与所述至少两个音素相对应的质量等级和多层特征数据,确定所述附加样本语音数据的质量等级。13.一种用于处理语音数据的装置,包括:声学特征确定模块,被配置为确定与所述语音数据中的语音帧相对应的声学特征;特征数据提取模块,被配置为从所述声学特征中提取与所述语音帧相对应的特征数据;音素数据确定模块,被配置为至少基于所述声学特征,确定与所述语音帧相对应的音素数据;以及质量等级确定模块,被配置为基于所述音素数据和所述特征数据,确定所述语音数据的质量等级,所述质量等级指示所述语音数据的语音质量。
14.一种模型生成装置,包括:样本声学特征确定模块,被配置为确定与样本语音数据中的样本语音帧相对应的样本声学特征;音素信息确定模块,被配置为确定与所述样本语音帧相对应的每个样本音素的特征数据和质量等级;附加样本语音数据确定模块,被配置为从所述样本语音数据中选择至少两个音素,作为附加样本语音数据的至少一部分;附加监督信息确定模块,被配置为基于与所述至少两个音素相对应的质量等级和特征数据,确定所述附加样本语音数据的附加质量等级;以及模型训练模块,被配置为至少基于所述附加样本语音数据以及所述附加质量等级训练所述模型。15.一种电子设备,包括:至少一个处理器;以及存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现根据权利要求1-12中任一项所述的方法。16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。
技术总结
本公开的实施例提供了处理语音数据的方法、模型生成方法、装置、和电子设备。该方法可以包括确定与语音数据中的语音帧相对应的声学特征。该方法还可以包括从声学特征中提取与语音帧相对应的特征数据。此外,该方法可以进一步包括至少基于声学特征,确定与语音帧相对应的音素数据。该方法还可以包括基于音素数据和特征数据,确定语音数据的质量等级,其中质量等级指示语音数据的语音质量。本公开实现了帧级别的语音质量评估,从而优化了质量等级的确定过程,提升了用户体验。提升了用户体验。提升了用户体验。
技术研发人员:
付凯奇 顾怡炜 高绍钧 王凯 田霄海 李伟 马泽君
受保护的技术使用者:
脸萌有限公司
技术研发日:
2022.08.22
技术公布日:
2022/11/18