声纹模型训练方法、装置、计算机设备和存储介质与流程

阅读: 评论:0



1.本技术涉及计算机技术领域,特别是涉及一种声纹模型训练方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:



2.随着计算机技术的发展,出现了声纹识别技术,声纹识别技术是语音领域重要的研究方向之一。声纹识别技术是指基于声纹模型,用语音来识别说话人的身份,被广泛应用于各种场景。
3.在传统的声纹识别技术中,往往是通过在损失函数中增加一个固定的边界来训练声纹模型,然而这种训练方式没有考虑样本之间的差异,导致声纹模型提取的声纹特征质量不高,进而导致声纹识别效果不佳。


技术实现要素:



4.基于此,有必要针对上述技术问题,提供一种能够提高声纹特征提取准确性和声纹识别准确性的声纹模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.本技术提供了一种声纹模型训练方法。所述方法包括:
6.获取训练集;训练集包括多个训练语音样本对应的训练语音特征和目标类别;
7.将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;初始声纹模型包括多个候选类别分别对应的类别声纹特征;
8.基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值;
9.基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角;
10.基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失;
11.基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
12.本技术还提供了一种声纹模型训练装置。所述装置包括:
13.训练集获取模块,用于获取训练集;训练集包括多个训练语音样本对应的训练语音特征和目标类别;
14.声纹特征和质量分数获取模块,用于将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;初始声纹模型包括
多个候选类别分别对应的类别声纹特征;
15.夹角调节值确定模块,用于基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值;
16.第一夹角和第二夹角确定模块,用于基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角;
17.目标损失确定模块,用于基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失;
18.目标声纹模型确定模块,用于基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
19.一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述声纹模型训练方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述声纹模型训练方法的步骤。
21.一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述声纹模型训练方法的步骤。
22.上述声纹模型训练方法、装置、计算机设备、存储介质和计算机程序产品,通过获取训练集,训练集包括多个训练语音样本对应的训练语音特征和目标类别,将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数。将从语音样本中提取的语音特征作为声纹模型的输入,能够提高声纹模型输出声纹特征的效率。基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值,这样得到的夹角调节值可以反映训练语音样本的声纹质量。融合同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角和夹角调节值,得到训练语音样本对应的第一夹角。这样计算得到第一夹角的目的是惩罚特征夹角,基于由第一夹角计算得到的损失值,调整模型中的各个模型参数,可以使得声纹模型下一次提取得到的训练声纹特征与目标类别对应的类别声纹特征之间的特征夹角减小,从而使得属于同一类别的语音样本对应的声纹特征更加相似,也就是使得属于同一类别的声纹特征更加聚集,即同一类别的类内紧度增大,同时能够使得属于不同类别的声纹特征更加分散,即不同类别之间的类间差异增大。模型经过模型参数调整之后,提取得到的训练声纹特征会比使用未经过模型参数调整的模型提取得到的训练声纹特征更加具体和完善,训练声纹特征越具体,携带的特征信息会更多更详细,从而能够更加接近对应的类别特征,使得训练声纹特征和对应的类别声纹特征之间的特征夹角减小。初始声纹模型可以根据各个训练语音样本分别对应的声纹质量,动态生成损失函数中的夹角调节值,从而动态调整第一夹角,这样可以使得初始声纹模型损失函数的构建充分考虑到每一个训练语音样本分别对应的声纹质量,从而提高目标声纹模型提取声纹特征的准确性。计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角,基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失,基于目标损失
调整初始声纹模型的模型参数,可以提高声纹模型提取声纹特征的准确性,从而提高声纹识别的准确性。
附图说明
23.图1为一个实施例中声纹模型训练方法的应用环境图;
24.图2为一个实施例中声纹模型训练方法的流程示意图;
25.图3为一个实施例中确定目标损失的流程示意图;
26.图4为一个实施例中判断电话录音中是否存在代接行为的示意图;
27.图5为一个实施例中声纹模型训练装置的结构框图;
28.图6为一个实施例中计算机设备的内部结构图;
29.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
30.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
31.本技术实施例提供的声纹模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集来实现。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
32.终端和服务器均可单独用于执行本技术实施例中提供的声纹模型训练方法。
33.例如,终端获取训练集,训练集包括多个训练语音样本对应的训练语音特征和目标类别。终端将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数,初始声纹模型包括多个候选类别分别对应的类别声纹特征。终端基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值,基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角。终端基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失。终端基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
34.终端和服务器也可协同用于执行本技术实施例中提供的声纹模型训练方法。
35.例如,服务器从终端获取训练集,训练集包括多个训练语音样本对应的训练语音特征和目标类别。服务器将训练集中的训练语音特征输入初始声纹模型,得到各个训练语
音样本分别对应的训练声纹特征和声纹质量分数,初始声纹模型包括多个候选类别分别对应的类别声纹特征。服务器基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值,基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角。服务器基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失。服务器基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。服务器可以将目标声纹模型发送至终端,终端基于目标声纹模型对语音进行声纹识别。服务器也可以获取终端发送的语音,基于目标声纹模型对语音进行声纹识别,将声纹识别结果发送至终端。
36.在一个实施例中,如图2所示,提供了一种声纹模型训练方法,以该方法应用于计算机设备为例进行说明,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。声纹模型训练方法包括以下步骤:
37.步骤s202,获取训练集;训练集包括多个训练语音样本对应的训练语音特征和目标类别。
38.其中,训练集是指由多个训练语音样本和各个训练语音样本对应的类别组成的集合,用于训练声纹模型。训练语音样本是指一段已知类别的语音。语音特征是指将一段语音输入到语音特征提取模块,语音特征提取模块输出的特征信息,用于作为声纹模型的输入,语音特征提取模块是指语音特征工程,语音特征工程能够提取语音中具有辨识性的特征信息。训练语音特征是指训练语音样本对应的语音特征。语音对应的类别是指基于某种要求对各段语音进行划分得到的类别,例如,基于语音对应的说话人对各段语音进行分类;基于语音对应的说话人年龄对各段语音进行分类;等等。目标类别是指训练语音样本对应的类别。
39.示例性地,计算机设备在本地或从其他设备上获取训练集,基于训练集来训练初始声纹模型得到目标声纹模型。
40.步骤s204,将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;初始声纹模型包括多个候选类别分别对应的类别声纹特征。
41.其中,声纹模型是指用于进行声纹识别的模型,声纹模型的输入数据是语音对应的语音特征,输出数据是语音对应的声纹特征和声纹质量分数。初始声纹模型是指没有经过模型训练或者还没有训练完毕的声纹模型。训练声纹特征是指将训练语音特征输入声纹模型,声纹模型输出的声纹特征,用于表征训练语音样本对应的声纹特征信息。声纹质量分数是指衡量一段语音的声纹质量的分数,声纹质量分数越高,说明语音对应的声纹特征更加具体和全面,包含了更多的声纹特征信息。候选类别是指声纹模型中所包含的各个类别。类别声纹特征是指各个候选类别对应的声纹特征,用于表征各个候选类别对应的特征信息、表征各个候选类别在特征空间中对应的位置信息。特征空间是指声纹特征存在的空间。类别声纹特征是声纹模型的一种模型参数,随着声纹模型一起训练更新得到。可以理解,在模型训练时会对模型参数进行调整,从而模型提取到的声纹特征会发生变化。各个类别声
纹特征在特征空间中的分布可以反映各种类别对应的语音样本集合的声纹特征在特征空间中的分布。模型训练完成后,不同类别的语音样本所对应的声纹特征在特征空间中通常是位于不同区域的,同一类别的语音样本所对应的声纹特征在特征空间中通常是位于同一区域的,也就是,模型已经具备了特征区分能力,可以有效进行数据分类。类别声纹特征可以是属于同一类别的各个训练语音样本分别对应的训练声纹特征的统计中心,训练语音样本的训练声纹特征是模型对训练语音样本的语音特征进行特征提取得到的。
42.示例性地,计算机设备将训练集中各个训练语音样本对应的训练语音特征输入初始声纹模型,初始声纹模型输出各个训练语音样本分别对应的训练声纹特征和声纹质量分数。
43.步骤s206,基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值。
44.其中,夹角调节值是指用于调整训练语音样本的训练声纹特征和训练语音样本所属目标类别对应的类别声纹特征之间的特征夹角的数值。夹角调节值用于缩小训练语音样本的训练声纹特征和对应的类别声纹特征之间的特征夹角,也就是使声纹模型针对语音样本输出的声纹特征更加接近语音样本所属目标类别对应的类别声纹特征。
45.示例性地,计算机设备获取训练语音样本对应的声纹质量分数,对声纹质量分数进行调整得到训练语音样本对应的夹角调节值,夹角调节值与声纹质量分数呈正相关。
46.在一个实施例中,为了保证夹角调节值可以有效调节同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角,也就是避免夹角调节值和特征夹角所处的数量级相差过大,可以计算声纹质量分数和预设倍数的乘积作为夹角调节值,预设倍数的取值和声纹质量分数的取值上限呈负相关。例如,当特征夹角为0.5,声纹质量分数的取值上限为100时,可以将预设倍数设为0.01,此时夹角调节值小于等于1,从而保证了夹角调节值和特征夹角所处的数量级更加接近。
47.在一个实施例中,为了缩短声纹模型的训练时长,可以将声纹质量分数和预设倍数的乘积加上一个起始值。例如,当特征夹角为0.5,声纹质量分数的取值上限为100,预设倍数为0.01时,可以将起始值设为0.1。
48.在一个实施例中,可以通过以下公式计算夹角调节值:
49.mi=0.01*||xi||+0.1
50.其中,mi为第i个训练语音样本对应的夹角调节值,xi为第i个训练语音样本对应的训练声纹特征,||xi||为第i个训练语音样本对应的训练声纹特征的长度,也就是声纹质量分数,||xi||的取值范围为(0,100]。
51.步骤s208,基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角;
52.其中,特征夹角是指训练声纹特征和类别声纹特征之间的夹角,可以表征训练声纹特征和类别声纹特征之间的相似度。第一夹角是指基于训练语音样本对应的夹角调节值,调整训练语音样本所属目标类别对应的类别声纹特征和训练语音样本的训练声纹特征之间的特征夹角得到的夹角,用于表征基于夹角调节值调整后的训练语音样本对应的训练
声纹特征和目标类别对应的类别声纹特征之间的相似度。第二夹角是指训练语音样本对应的训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,一个训练语音样本和除目标类别之外的每个候选类别之间都存在一个第二夹角,第二夹角可以表征训练语音样本对应的训练声纹特征和其他候选类别对应的类别声纹特征之间的相似度。
53.示例性地,计算机设备计算同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角,融合同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角和夹角调节值,得到各个训练语音样本分别对应的第一夹角。例如,可以将特征夹角和夹角调节值之和作为第一夹角;可以将特征夹角和夹角调节值加权融合得到第一夹角;等等。由于第一夹角是融合特征夹角和夹角调节值得到的,因此第一夹角会大于特征夹角,这样,第一夹角表征的训练声纹特征和目标类别对应的类别声纹特征之间的相似度,会比使用特征夹角表征的相似度更小,因此基于第一夹角得到的目标损失会比基于特征夹角得到的目标损失更大。显然,使用由第一夹角计算得到的目标损失调整模型参数后,将训练语音样本a输入初始声纹模型,模型输出训练声纹特征x,使用由特征夹角计算得到的目标损失调整模型参数后,将训练语音样本a输入初始声纹模型,模型输出训练声纹特征y,训练声纹特征x与目标类别对应的类别声纹特征之间的相似度,会比训练声纹特征y与目标类别对应的类别声纹特征之间的相似度更小。因此,使用第一夹角来计算目标损失,能够使得基于目标损失调整模型参数后得到的声纹模型之后输出的声纹特征更加地接近对应的目标类别的类别声纹特征,也就是声纹模型输出的声纹特征会更加地具体,携带的特征信息会更多更详细,使得声纹特征和对应的类别声纹特征之间的特征夹角减小。得到各个训练语音样本分别对应的第一夹角之后,计算同一训练语音样本对应的训练声纹特征分别和除目标类别之外的其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的各个第二夹角。
54.在一个实施例中,可以通过以下公式计算特征夹角:
[0055][0056][0057][0058]
θ
j,i
=arccos(cos(θ
j,i
))
[0059]
其中,wj为第j个候选类别对应的类别声纹特征,||wj||为第j个候选类别对应的类别声纹特征的长度,为第j个候选类别对应的归一化后的类别声纹特征,为第i个训练语音样本对应的归一化后的训练声纹特征,cos(θ
j,i
)是指第i个训练语音样本对应的训练声纹特征和第j个候选类别对应的类别声纹特征之间的余弦相似度,θ
j,i
是指第i个训练语音样本对应的训练声纹特征和第j个候选类别对应的类别声纹特征之间的特征夹角。
[0060]
步骤s210,基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失。
[0061]
其中,目标损失是指将训练集输入初始声纹模型后,由初始声纹模型中的损失函数计算得到的损失值,可以用于调整初始声纹模型中的模型参数。
[0062]
示例性地,计算机设备基于各个训练语音样本对应的第一夹角和第二夹角生成各个训练语音样本分别对应的初始损失,基于各个训练语音样本分别对应的初始损失和声纹质量分数,得到目标损失。
[0063]
在一个实施例中,基于同一训练语音样本对应的第一夹角和第二夹角,生成训练语音样本在除了目标类别之外的其他候选类别下的异常概率。对训练语音样本对应的异常概率进行对数处理得到各个训练语音样本分别对应的初始损失。融合同一训练语音样本对应的初始损失和声纹质量分数,得到各个训练语音样本对应的中间损失。统计各个训练语音样本对应的中间损失,得到目标损失。
[0064]
步骤s212,基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
[0065]
其中,中间声纹模型是指当前轮次基于目标损失调整初始声纹模型的模型参数得到的声纹模型。收敛条件是指判断初始声纹模型中的模型参数均是否收敛的条件。收敛条件包括但不限于目标损失小于预设阈值、模型迭代次数大于预设迭代次数等中的至少一者。目标声纹模型是指已经训练完毕的声纹模型。
[0066]
示例性地,计算机设备将目标损失进行反向传播来调整初始声纹模型中的模型参数,得到中间声纹模型。将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行以进行模型迭代训练,直至满足收敛条件,得到目标声纹模型。
[0067]
在一个实施例中,计算机设备可以基于目标损失通过梯度下降算法来调整初始声纹模型中的模型参数。上述声纹模型训练方法中,通过获取训练集,训练集包括多个训练语音样本对应的训练语音特征和目标类别,将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数。将从语音样本中提取的语音特征作为声纹模型的输入,声纹模型输出的声纹特征会更加准确。基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值,这样得到的夹角调节值可以反映训练语音样本的声纹质量。融合同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角和夹角调节值,得到训练语音样本对应的第一夹角,这样计算得到第一夹角的目的是惩罚特征夹角,使得同一训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的特征夹角减小,也就是使得初始声纹模型输出的训练声纹特征更加具体和完善,这样,初始声纹模型输出的训练声纹特征才能够更加接近对应的目标类别的类别声纹特征。可见,基于同一训练语音样本对应的夹角调节值对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本对应的第一夹角,可以使得声纹模型输出的声纹特征更加具体,携带更多的特征信息,从而提高声纹识别的准确性。计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角,基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失,基于目标损失调整初始声纹模型的模型参数,可以使得最终得到的目标声纹模型输出的声纹特征更加具体和完善,从而提高声纹识别的准确性。
[0068]
在一个实施例中,将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数,包括:
[0069]
将训练语音样本对应的训练语音特征输入初始声纹模型,得到训练语音样本对应的训练声纹特征;基于训练声纹特征的特征长度,确定训练语音样本对应的声纹质量分数。
[0070]
其中,特征长度是指声纹特征对应的声纹特征向量的长度。
[0071]
示例性地,计算机设备将训练集中的各个训练语音样本对应的训练语音特征输入初始声纹模型,得到各个训练语音样本对应的训练声纹特征。基于各个训练语音样本分别对应的训练声纹特征的特征长度,确定各个训练语音样本分别对应的声纹质量分数。例如,将训练声纹特征的特征长度作为声纹质量分数;将训练声纹特征的特征长度和预设倍数的乘积作为声纹质量分数;等等。
[0072]
上述实施例中,将从训练语音样本中提取的训练语音特征输入初始声纹模型,能够提高初始声纹模型输出的训练声纹特征的效率。由于声纹特征的长度越长,说明声纹特征携带越多的特征信息,间接反映声纹质量越高,因此,基于训练声纹特征的长度确定的声纹质量分数具有较高的可靠性和准确性,从而可以提高声纹识别的准确性。
[0073]
在一个实施例中,如图3所示,基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失,包括:
[0074]
步骤s302,基于同一训练语音样本对应的第一夹角和第二夹角,得到各个训练语音样本在对应的目标类别下的目标概率。
[0075]
步骤s304,基于同一训练语音样本对应的夹角调节值和目标概率,得到各个训练语音样本分别对应的初始损失。
[0076]
步骤s306,基于各个训练语音样本分别对应的声纹质量分数和初始损失,得到目标损失。
[0077]
其中,目标概率是指训练语音样本属于对应的目标类别的概率。初始损失是指训练语音样本对应的基础损失经过对应的损失权重调整后,得到的损失值。各个训练语音样本存在对应的初始损失值,用于计算各个训练语音样本对应的中间损失。
[0078]
示例性地,计算机设备基于同一训练语音样本对应的第一夹角和第二夹角,计算各个训练语音样本分别对应的总相似度,基于同一训练语音样本对应的第一夹角和总相似度,得到各个训练语音样本分别对应的目标概率。基于各个训练语音样本对应的目标概率得到各个训练语音样本对应的基础损失,基于同一训练语音样本对应的夹角调节值和目标概率,调整训练语音样本对应的基础损失得到各个训练语音样本分别对应的初始损失。基于训练语音样本对应的声纹质量分数,调整训练语音样本对应的初始损失,得到各个训练语音样本分别对应的中间损失,统计各个训练语音样本分别对应的中间损失,得到目标损失。
[0079]
上述实施例中,由于第一夹角可以表征训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的相似度,第二夹角可以表征训练语音样本对应的训练声纹特征和其他候选类别对应的类别声纹特征之间的相似度,而特征之间的相似度可以反映训练声纹特征和类别声纹特征的接近程度,因此,基于第一夹角和第二夹角得到的训练语音样本对应的目标概率具有较高的准确性。训练语音样本对应的初始损失充分地利用了各个训练语音样本的夹角调节值和目标概率,基于各个训练语音样本分别对应的初始损失和声纹质量分数得到目标损失,由于目标损失的计算充分利用了各个训练语音样本的夹角调节值、目标概率和声纹质量分数,并且反映了以及三者之间的相互影响的关系,因此使用目标
损失对初始声纹模型中的模型参数进行调整会更加地有效和准确,从而能够提高声纹识别的准确性。
[0080]
在一个实施例中,基于同一训练语音样本对应的第一夹角和第二夹角,得到各个训练语音样本在对应的目标类别下的目标概率,包括:
[0081]
基于训练语音样本对应的第一夹角,计算训练语音样本对应的正相似度,基于训练语音样本对应的第二夹角,计算训练语音样本对应的负相似度;融合同一训练语音样本对应的正相似度和负相似度,得到各个训练语音样本分别对应的总相似度;基于同一训练语音样本对应的正相似度和总相似度的比值,得到各个训练语音样本在对应的目标类别下的目标概率。
[0082]
其中,正相似度是指训练语音样本对应的训练声纹特征和目标类别对应的目标类别声纹特征之间的相似度,可以表征训练语音样本和目标类别的接近程度。负相似度是指训练语音样本对应的训练声纹特征其他候选类别对应的类别声纹特征之间的相似度,一个训练语音样本和除目标类别之外的每个候选类别之间都存在一个负相似度,负相似度可以表征训练语音样本和其他候选类别的接近程度。总相似度是指训练语音样本与各个候选类别之间的相似度之和,用于计算训练语音样本的目标概率。
[0083]
示例性地,计算机设备基于训练语音样本对应的第一夹角计算训练语音样本对应的正相似度,基于训练语音样本对应的第二夹角计算训练语音样本对应的负相似度,夹角越小,相似度越大,特征越相似。例如,计算训练语音样本对应的第一夹角的余弦值为第一余弦值,基于第一余弦值得到训练语音样本对应的正相似度,计算训练语音样本对应的第二夹角的余弦值为第二余弦值,基于第二余弦值得到训练语音样本对应的负相似度。进而,计算机设备融合同一训练语音样本对应的正相似度和各个负相似度得到总相似度,各个训练语音样本可以计算得到各自分别对应的总相似度。最终,计算机设备计算同一训练语音样本对应的正相似度和总相似度的比值,得到各个训练语音样本在对应的目标类别下的目标概率。
[0084]
在一个实施例中,可以通过以下公式计算目标概率:
[0085][0086]
其中,pi为第i个训练语音样本对应的目标概率,s可以为预设倍数,也可以为超参数,第i个训练语音样本属于候选类别yi,mi为第i个训练语音样本对应的夹角调节值,为第i个训练语音样本对应的训练声纹特征和候选类别yi对应的类别声纹特征之间的特征夹角,为第i个训练语音样本对应的第一夹角,θ
j,i
为第i个训练语音样本对应的训练语音特征和第j个候选类别对应的类别声纹特征之间的特征夹角,即第i个训练语音样本和第j个候选类别之间的第二夹角,为第i个训练语音样本对应的正相似度,为第i个训练语音样本和第j个候选类别之间的负相似度,为第i个训练语音样本对应的总相似度。
[0087]
上述实施例中,由于第一夹角可以表征训练语音样本对应的训练声纹特征和目标类别对应的类别声纹特征之间的相似度,第二夹角可以表征训练语音样本对应的训练声纹
特征和其他候选类别对应的类别声纹特征之间的相似度,进而基于第一夹角得到的正相似度可以表征训练语音样本和目标类别的接近程度,基于第二夹角得到的负相似度可以表征训练语音样本和其他候选类别的接近程度。融合训练语音样本对应的正相似度和各个负相似度得到训练语音样本与各个候选类别之间的总相似度,能够表征训练语音样本和各个候选类别的接近程度,因此,将训练语音样本对应的正相似度和总相似度的比值作为目标概率,得到的目标概率可以准确地反映训练语音样本属于目标类别的概率,进而基于目标概率得到的目标损失会更加准确,能够提高模型训练的效果,使得最终得到的目标声纹模型提取的声纹特征更加准确,从而提高声纹识别的准确性。
[0088]
在一个实施例中,基于同一训练语音样本对应的夹角调节值和目标概率,得到各个训练语音样本分别对应的初始损失,包括:
[0089]
对训练语音样本对应的目标概率进行对数处理,得到基础损失;基于训练语音样本对应的目标概率和夹角调节值,得到基础损失对应的损失权重;损失权重与目标概率、夹角调节值呈负相关;基于损失权重,对基础损失进行调整,得到训练语音样本对应的初始损失。
[0090]
其中,对数处理是指对数据进行取对数操作。基础损失是指基于训练语音样本对应的目标概率得到的基础损失,用于计算初始损失。损失权重是指在计算目标损失时,给基础损失赋予的权重,用于缓解模型训练时存在的类不平衡问题和确保初始声纹模型输出的声纹质量分数尽可能地高。
[0091]
示例性地,计算机设备对训练语音样本对应的目标概率进行对数处理,得到训练语音样本对应的基础损失,基础损失和目标概率呈负相关。基于训练语音样本对应的目标概率和夹角调节值,计算基础损失对应的损失权重。融合同一训练语音样本对应的基础损失和损失权重,得到训练语音样本对应的基础损失。通过同样的处理方法,各个训练语音样本可以得到各自对应的初始损失。
[0092]
在一个实施例中,可以通过以下公式计算基础损失:
[0093][0094]
其中,li为第i个训练语音样本对应的基础损失。
[0095]
在一个实施例中,可以通过以下公式计算初始损失:
[0096][0097]
其中,为第i个训练语音样本对应的初始损失,g为超参数,为第i个训练语音样本对应的损失权重。
[0098]
上述实施例中,训练语音样本对应的损失权重与训练语音样本对应的目标概率和夹角调节值呈负相关,这样,当训练集中属于同一候选类别的训练语音样本较多时,在模型训练过程中,初始声纹模型对这一候选类别的训练语音样本的声纹特征提取效果会比其他候选类别的声纹特征提取效果更好,也就是提取得到的训练声纹特征会更加具体和完善,即训练声纹特征长度更长,声纹质量分数会更大,并且属于这一候选类别的训练语音样本输入初始声纹模型得到的基础损失会越小,训练语音样本对应的目标概率越大。并且,由于这一候选类别的训练语音样本对应声纹质量分数更大,基于声纹质量分数得到的夹角调节
值也会更大。由于损失权重与目标概率、夹角调节值呈负相关,这一候选类别的训练语音样本对应的损失权重会更小,也就是给予这一候选类别对应的基础损失更小的梯度更新,若训练集中存在一个候选类别对应的训练语音样本较少时,损失权重能给予这一候选类别对应的基础损失更大的梯度更新,能够缓解模型训练时存在的类不平衡问题,提高模型的训练效率。在初始声纹模型的模型训练过程中,模型提取声纹特征的效果会不断提高,也就是输出的训练声纹特征的长度会不断增加,进而对应的夹角调节值会不断增大,同时,由于模型提取声纹特征的效果会不断提高,训练语音样本对应的目标概率也会不断增大,使得对应的损失权重减小,进而对应的初始损失会不断减小。因此,损失权重可以确保初始声纹模型输出的质量分数不断增加,从而能够提高目标声纹模型对语音片段的声纹特征提取效果,进而提高声纹识别的准确性。但是,若夹角调节值增加的过大,会导致初始声纹模型中的模型参数不能收敛,进而使得各个训练语音样本对应的基础损失值增大,对应的目标概率减小,此时,尽管训练语音样本对应的夹角调节值增加,训练语音样本对应的初始损失也会增大。因此,初始损失限制了夹角调节值的大小,避免夹角调节值不断增大。可以理解,损失权重和基于损失权重得到的初始损失可以确保初始声纹模型输出的声纹质量分数尽可能地高,也就是确保初始声纹模型对训练语音样本的声纹特征提取效果尽可能地好,从而能够提高目标声纹模型对语音片段的声纹特征提取效果,进而提高声纹识别的准确性。
[0099]
在一个实施例中,基于各个训练语音样本分别对应的声纹质量分数和初始损失,得到目标损失,包括:
[0100]
基于训练语音样本对应的声纹质量分数,得到对应的初始损失的损失调整值;基于损失调整值,对初始损失进行调整,得到训练语音样本对应的中间损失;对各个训练语音样本分别对应的中间损失进行统计,得到目标损失。
[0101]
其中,损失调整值是指在计算中间损失时,用于调整初始损失的调整值,可以确保声纹特征向量的长度能够反映声纹特征真实的质量,并且能够确保声纹特征的长度尽可能地大。中间损失是指训练语音样本对应的初始损失经过损失调整值的调整后,得到的损失值,表征训练集中各个训练语音样本对应的损失值,用于计算目标损失。
[0102]
示例性地,计算机设备基于训练语音样本对应的声纹质量分数,计算得到训练语音样本对应的初始损失的损失调整值。当训练语音样本对应的训练声纹特征的长度没有超过上限值时,损失调整值与声纹质量分数呈负相关,当训练声纹特征的长度超过上限值时,损失调整值与声纹质量分数呈正相关。例如,计算声纹质量分数的上限值和声纹质量分数之间的差值,将该差值的平方作为损失调整值;计算声纹质量分数的上限值和声纹质量分数之间的差值,计算该差值与预设倍数与预设倍数的乘积,将该乘积的平方作为损失调整值;等等。融合同一训练语音样本对应的初始损失和损失调整值,得到各个训练语音样本分别对应的中间损失,统计各个训练语音样本对应的中间损失,得到目标损失。
[0103]
在一个实施例中,可以通过以下公式计算目标损失:
[0104][0105]
其中,loss为目标损失,n为训练集中的训练语音样本的数量,λ为超参数,λ(1-0.01*||xi||)2)为第i个训练语音样本对应的损失调整值。
[0106]
上述实施例中,由于当训练声纹特征的长度超过上限值时,损失调整值与声纹质
量分数呈正相关,故损失调整值可以限制声纹特征的长度,避免声纹特征的长度不断增加,当训练声纹特征的长度没有超过上限值时,训练声纹特征对应的声纹质量分数越小,对应的损失调整值会越大,因此损失调整值能够保证训练语音样本的训练质量分数尽可能增大,也就是保证初始声纹模型输出的训练声纹特征尽可能地具体和完善,从而提高目标声纹模型对语音片段的声纹提取效果,进而提高声纹识别的准确性。
[0107]
在一个实施例中,声纹模型训练方法还包括:
[0108]
获取待识别语音,将待识别语音切分成多个初始语音片段,获取各个初始语音片段对应的语音特征;将各个语音特征输入目标声纹模型,得各个语音特征分别对应的声纹特征和声纹质量分数;基于声纹质量分数,对各个初始语音片段进行筛选,得到目标语音片段;计算各个目标语音片段对应的声纹特征之间的声纹相似度;统计各个声纹相似度,基于统计结果确定待识别语音对应的说话人数量。
[0109]
其中,待识别语音是指需要进行声纹识别的语音。初始语音片段是指由待识别语音切分得到的语音片段。目标语音片段是指经过筛选后得到的语音片段。声纹相似度是指是指两个语音片段对应的声纹特征之间的相似度,可以用于判断两个语音片段对应的说话人是否为同一人,例如,当两个语音片段之间的声纹相似度大于或等于预设阈值时,可以判断两个语音片段对应的说话人是相同的,当两个语音片段之间的声纹相似度小于预设阈值时,可以判断两个语音片段对应的说话人是相同的。说话人数量是指一段语音对应的说话人的数量,例如,若待识别语音只有一个人的声音,则这段语音对应的说话人数量为1,若待识别语音中有两个人的声音,则这段语音对应的说话人数量为2。
[0110]
示例性地,计算机设备获取待识别语音,将待识别语音按照预设时间长度,切分成多个初始语音片段,例如,预设时间长度可以为5s。获取各个初始语音片段对应的语音特征,将各个语音特征输入目标声纹模型,得到各个初始语音片段分别对应的声纹特征和声纹质量分数。基于各个初始语音片段对应的声纹质量分数,按照预设的筛选条件,过滤声纹质量不合格的初始语音片段,将剩余的初始语音片段作为目标语音片段。例如,预设筛选条件可以为最低声纹质量分数,将声纹质量分数低于最低声纹质量分数的初始语音样本视为不合格的初始语音片段;筛选条件可以为将初始语音样本对应的声纹质量分数进行升序排序,将前30%的初始语音片段视为质量不合格的初始语音片段;等等。计算各个目标语音片段对应的声纹特征之间的声纹相似度,统计各个声纹相似度,基于统计结果确定待识别语音对应的说话人数量。
[0111]
在一个实施例中,若待识别语音片段为用户的电话录音,确定待识别语音对应的说话人数量是为了判断在这段电话录音中是否存在代接行为,也就是这段电话录音是否只对应一个说话人。首先设置一个预设阈值,若声纹相似度大于预设阈值,则说明两个语音片段中的说话人是相同的,若声纹相似度小于预设阈值,则说明两个语音片段中的说话人是不同的。例如,预设阈值可以设置为0.6。基于预设阈值,确定待识别语音中是否存在代接行为。例如,将各个声纹相似度按照降序排序,若前30%的声纹相似度小于预设阈值,则说明待识别语音对应至少两个说话人,存在代接行为,若前30%的声纹相似度不全小于预设阈值,则说明待识别语音只对应一个说话人,不存在代接行为。
[0112]
上述实施例中,计算机设备获取待识别语音,将待识别语音按照预设时间长度切分成多个初始语音片段,将各个初始语音片段对应的语音特征输入目标声纹模型,得到各
个初始语音片段对应的声纹特征和声纹质量分数。基于目标声纹模型得到的声纹特征能够更加准确地反映初始语音片段的特征信息。基于各个初始语音片段对应的声纹质量分数,过滤声纹质量不合格的初始语音片段,得到目标语音片段。计算各个目标语音片段对应的声纹特征之间的声纹相似度,统计各个声纹相似度,基于统计结果确定说话人数量。基于声纹质量较高的目标语音片段之间的声纹相似度来判断待识别语音中的说话人数量,得到的结果会更加准确。
[0113]
在一个具体的实施例中,本技术的声纹模型训练方法可以应用于识别用户的一通电话录音中是否存在代接行为,也就是判断一通电话录音中是否只有一个说话人的声音。如图4所示,首先将用户语音片段输入语音特征提取模块,得到用户语音片段对应的语音特征,将语音特征输入目标声纹模型,得到语音片段对应的声纹特征和声纹质量分数。基于各个语音片段对应的声纹质量分数,根据设定的最低质量分数过滤低质量的语音片段,计算剩余语音片段对应的声纹特征之间的特征相似度,当相似度大于或等于预设阈值时,则判断两段语音片段分别对应的说话人是相同的,当相似度小于预设阈值时,则判断两端语音片段分别对应的说话人是不同的。基于剩余语音片段之间的特征相似度,判断电话录音中是否存在代接行为。
[0114]
判断电话录音中是否存在代接行为包括以下步骤:
[0115]
1、训练初始声纹模型得到目标声纹模型
[0116]
声纹代接识别系统获取训练集,通过语音特征提取模块获取训练集中各个语音样本对应的语音特征。将各个语音样本分别对应的语音特征输入初始声纹模型,得到各个语音样本分别对应的声纹特征和声纹质量分数。基于语音样本对应的声纹质量分数构建语音样本对应的夹角调节值。基于同一语音样本对应的声纹特征和各个类别之间的特征夹角以及夹角调节值,计算语音样本对应的第一夹角和第二夹角。基于同一语音样本对应的第一夹角和第二夹角,得到各个语音样本在对应的目标类别下的目标概率,对语音样本对应的目标概率进行对数处理,得到语音样本对应的基础损失。基于各个训练语音样本分别对应的夹角调节值、目标概率、基础损失和声纹特征的长度,得到目标损失。基于目标损失调整初始声纹模型中的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
[0117]
声纹代接识别系统可以通过以下公式计算夹角调节值:
[0118]
mi=0.01*||xi||+0.1
[0119]
声纹代接识别系统可以通过以下公式计算特征夹角:
[0120][0121][0122][0123]
θ
j,i
=arccos(cos(θ
j,i
))
[0124]
声纹代接识别系统可以通过以下公式计算基础损失:
[0125][0126]
声纹代接识别系统可以通过以下公式计算目标损失:
[0127][0128]
2、切分电话录音得到语音片段
[0129]
声纹代接识别系统获取用户的电话录音语音流,将电话录音按照预设时间长度切分成多个语音片段,例如,预设时间长度设置为5s,若电话录音长度为60s,则电话录音会被切分成12个语音片段。
[0130]
3、获取每个语音片段的语音特征
[0131]
声纹代接识别系统将各个语音片段输入语音特征提取模块,得到各个语音片段分别对应的语音特征。
[0132]
4、将语音片段输入目标声纹模型
[0133]
声纹代接识别系统将各个初始语音片段输入目标声纹模型,目标声纹模型输出各个语音片段分别对应的声纹特征向量和声纹质量分数。
[0134]
5、过滤低质量的语音片段
[0135]
声纹代接识别系统设定最低质量分数s
min
,根据最低质量分数s
min
过滤低质量的声纹特征及对应的语音片段。
[0136]
6、计算剩余语音片段之间的特征相似度
[0137]
声纹代接识别系统计算各个剩余语音片段分别对应的声纹特征之间的余弦相似度作为特征相似度,当特征相似度大于或等于预设阈值时,判断对应的两个语音片段对应的说话人是相同的。例如,预设阈值可以设置为0.6,当两个语音片段之间的特征相似度大于或等于0.6时,判断两个语音片段对应的说话人是相同的,当两个语音片段之间的特征相似度小于的0.6时,判断两个语音片段对应的说话人是不同的。
[0138]
7、基于各个特征相似度判断电话录音中是否存在代接行为
[0139]
声纹代接识别系统统计各个特征相似度,基于存在代接行为的判断标准,确定电话录音中是否存在代接行为。例如,存在代接行为的判断标准可以是将特征相似度按升序排序,若前30%的特征相似度小于预设阈值时,则说明电话录音对应至少两个说话人,也就是电话录音中存在代接行为,若前30%的特征相似度不全小于阈值时,则判断电话录音只对应一个说话人,不存在代接行为。当确定电话录音中不存在代接行为时,可以将电话录音对应的各个声纹特征与声纹库中的声纹特征进行对比,判断是否存在转接行为。转接行为是指不是由用户本人接听电话,而是由其他人接听电话的行为,当通过声纹代接识别系统判断电话录音只对应一个说话人时,需要将说话人的声纹和声纹库中的声纹中进行对比,判断电话录音对应的说话人是否为用户本人,当电话录音对应的说话人为用户本人时,则不存在转接行为,当电话录音对应的说话人不是用户本人时,则存在转接行为。
[0140]
上述实施例中,声纹模型可以不仅可以输出语音对应的声纹特征,还能够输出声纹质量分数,声纹质量分数可以衡量模型输出的声纹特征的质量。因此,在实际应用过程中,不需要额外的语音质量检测模块对进行语音质量检测,能够降低系统的复杂度。声纹识
别系统可以通过声纹质量分数来确定该语音样本是否满足使用要求,从而剔除低质量样本,提高声纹识别效果。例如,在长录音识别中,可以将长录音切片后识别,通过质量分数进行选择,选择质量最好的语音片段进行声纹对比,从而提高识别效果。并且声纹识别模型输出反映一个语音样本声纹质量的好坏的分数,可以在不需要额外语音质量检测模块的情况下选择是否对该语音片段进行声纹识别和对比。此外,还可以基于声纹质量分数进行不同语音片段对应的结果之间的对比,从而选择质量最好的语音样本对应的结果作为系统最终识别得到的结果。此外声纹模型采用动态边界损失函数进行模型训练,基于语音样本本身的质量(声纹质量分数)动态地改变的损失函数中的边界值(夹角调节值),从而可以为每个语音片段生成一个动态边界值,从而提高声纹模型提取声纹特征的效果。
[0141]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0142]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的声纹模型训练方法的声纹模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个声纹模型训练装置实施例中的具体限定可以参见上文中对于声纹模型训练方法的限定,在此不再赘述。
[0143]
在一个实施例中,如图5所示,提供了一种声纹模型训练装置,包括:训练集获取模块502、声纹特征和质量分数获取模块504、夹角调节值确定模块506、第一夹角和第二夹角确定模块508、目标损失确定模块510和目标声纹模型确定模块512,其中:
[0144]
训练集获取模块502,用于获取训练集;训练集包括多个训练语音样本对应的训练语音特征和目标类别。
[0145]
声纹特征和质量分数获取模块504,用于将训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;初始声纹模型包括多个候选类别分别对应的类别声纹特征。
[0146]
夹角调节值确定模块506,用于基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值。
[0147]
第一夹角和第二夹角确定模块508,用于基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角。
[0148]
目标损失确定模块510,用于基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失。
[0149]
目标声纹模型确定模块512,用于基于目标损失调整初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。
[0150]
上述声纹模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0151]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储类别声纹特征、训练声纹特征、声纹质量分数、夹角调节值等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹模型训练方法。
[0152]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种声纹模型训练方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0153]
本领域技术人员可以理解,图6、7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0154]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0155]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0156]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0157]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户
授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0158]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0159]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0160]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:


1.一种声纹模型训练方法,其特征在于,所述方法包括:获取训练集;所述训练集包括多个训练语音样本对应的训练语音特征和目标类别;将所述训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;所述初始声纹模型包括多个候选类别分别对应的类别声纹特征;基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值;基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角;基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失;基于所述目标损失调整所述初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回所述获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。2.根据权利要求1所述的方法,其特征在于,所述将所述训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数,包括:将训练语音样本对应的训练语音特征输入初始声纹模型,得到训练语音样本对应的训练声纹特征;基于训练声纹特征的特征长度,确定训练语音样本对应的声纹质量分数。3.根据权利要求1所述的方法,其特征在于,所述基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失,包括:基于同一训练语音样本对应的第一夹角和第二夹角,得到各个训练语音样本在对应的目标类别下的目标概率;基于同一训练语音样本对应的夹角调节值和目标概率,得到各个训练语音样本分别对应的初始损失;基于各个训练语音样本分别对应的声纹质量分数和初始损失,得到所述目标损失。4.根据权利要求3所述的方法,其特征在于,所述基于同一训练语音样本对应的第一夹角和第二夹角,得到各个训练语音样本在对应的目标类别下的目标概率,包括:基于训练语音样本对应的第一夹角,计算训练语音样本对应的正相似度,基于训练语音样本对应的第二夹角,计算训练语音样本对应的负相似度;融合同一训练语音样本对应的正相似度和负相似度,得到各个训练语音样本分别对应的总相似度;基于同一训练语音样本对应的正相似度和总相似度的比值,得到各个训练语音样本在对应的目标类别下的目标概率。5.根据权利要求3所述的方法,其特征在于,所述基于同一训练语音样本对应的夹角调节值和目标概率,得到各个训练语音样本分别对应的初始损失,包括:对训练语音样本对应的目标概率进行对数处理,得到基础损失;基于训练语音样本对应的目标概率和夹角调节值,得到基础损失对应的损失权重;所述损失权重与目标概率、夹角调节值呈负相关;
基于损失权重,对所述基础损失进行调整,得到训练语音样本对应的初始损失。6.根据权利要求3所述的方法,其特征在于,所述基于各个训练语音样本分别对应的声纹质量分数和初始损失,得到所述目标损失,包括:基于训练语音样本对应的声纹质量分数,得到对应的初始损失的损失调整值;基于损失调整值,对初始损失进行调整,得到训练语音样本对应的中间损失;对各个训练语音样本分别对应的中间损失进行统计,得到所述目标损失。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待识别语音,将所述待识别语音切分成多个初始语音片段,获取各个初始语音片段对应的语音特征;将各个语音特征输入所述目标声纹模型,得所述各个语音特征分别对应的声纹特征和声纹质量分数;基于声纹质量分数,对所述各个初始语音片段进行筛选,得到目标语音片段;计算各个目标语音片段对应的声纹特征之间的声纹相似度;统计各个声纹相似度,基于统计结果确定所述待识别语音对应的说话人数量。8.一种声纹模型训练装置,其特征在于,所述装置包括:训练集获取模块,用于获取训练集;所述训练集包括多个训练语音样本对应的训练语音特征和目标类别;声纹特征和质量分数获取模块,用于将所述训练集中的训练语音特征输入初始声纹模型,得到各个训练语音样本分别对应的训练声纹特征和声纹质量分数;所述初始声纹模型包括多个候选类别分别对应的类别声纹特征;夹角调节值确定模块,用于基于训练语音样本对应的声纹质量分数构建训练语音样本对应的夹角调节值;第一夹角和第二夹角确定模块,用于基于同一训练语音样本对应的夹角调节值,对目标类别对应的类别声纹特征和训练声纹特征之间的特征夹角进行调整,得到各个训练语音样本分别对应的第一夹角,计算训练声纹特征和其他候选类别对应的类别声纹特征之间的特征夹角,得到各个训练语音样本分别对应的第二夹角;目标损失确定模块,用于基于各个训练语音样本对应的第一夹角、第二夹角和声纹质量分数得到目标损失;目标声纹模型确定模块,用于基于所述目标损失调整所述初始声纹模型的模型参数,得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回所述获取训练集的步骤执行,直至满足收敛条件,得到目标声纹模型。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及一种声纹模型训练方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:将训练集中的训练语音特征输入初始声纹模型,得到训练声纹特征和声纹质量分数;基于声纹质量分数构建夹角调节值;基于夹角调节值对训练声纹特征和目标类别之间的特征夹角进行调整得到第一夹角,计算训练声纹特征和其他候选类别之间的特征夹角,得到各个第二夹角;基于各个第一夹角、第二夹角和声纹质量分数得到目标损失;基于目标损失调整初始声纹模型的模型参数得到中间声纹模型,将中间声纹模型作为初始声纹模型,返回获取训练集的步骤执行直至满足收敛条件,得到目标声纹模型。采用本方法能够提高声纹识别的准确性。本方法能够提高声纹识别的准确性。本方法能够提高声纹识别的准确性。


技术研发人员:

余治伦 巴莉芳 徐伟 林昊 王福海 梁毅

受保护的技术使用者:

招联消费金融有限公司

技术研发日:

2022.10.31

技术公布日:

2023/3/7

本文发布于:2023-03-12 23:10:26,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/68434.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   夹角   样本   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图