1.本发明涉及语音信号处理、声纹识别技术领域,具体涉及一种针对
说话人识别的多
层级音素生成的方法及装置。
背景技术:
2.声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹识别是通过给定的语音信号来识别说话人的身份,具有广泛的应用场景,特别是,在安防领域和智能设备产品上。其中,文本无关的说话人识别由于其不限定语音信号的文本内容,相比于文本相关的声纹识别更容易受到文本变化的影响,造成识别性能的下降。因此,基于音素/音节的声纹识别系统通过对单个音素/音节建模,可以有效地抑制文本变化对识别性能的负面影响。然而,选择合适的语音单元进行建模会直接影响声纹识别系统的性能。首先,要求进行建模的语音单元是高频出现的,系统才可以利用这样的语音单元进行建模和识别。同时,用于建模的语音单元也应该是具备良好的说话人区分性的,才能对声纹识别系统有所增益。然而,目前仍未存在针对说话人识别任务构建最优语音单元集合的方法。
3.目前,利用音素单元进行建模的声纹识别系统通常以语言学定义的音素为单位,并提取其中包含的说话人身份信息,但这些方法通常存在以下问题:
4.1)、对于声纹识别任务而言,语言学定义的音素单元未必是鉴别说话人身份的最优的语音单元;
5.2)、对于语言学定义的音素,大部分音素的持续时间很短,难以提供丰富且充分的说话人身份相关的信息用于后续建模;
6.3)、只对单个音素进行建模,可能会遗漏和损坏音素与音素之间转换时所包含的说话人相关的信息,使得说话人识别系统性能不佳。
技术实现要素:
7.本发明提出一种针对说话人识别的多层级音素生成的方法及装置,为解决现有声纹识别技术的不足之处,包括由于单个音素持续时间太短无法提供充分的说话人身份信息,且可能损坏或遗失存在于音素过渡之间的说话人信息等问题,所造成的基于音素建模的说话人识别系统识别率不佳的问题。
8.为实现上述目的,本发明提供如下技术方案:
9.一种针对说话人识别的多层级音素生成的方法,包括:
10.确定一级音素的集合;
11.获取语音数据库以及每条语音数据所对应的一级音素序列;
12.从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级
频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;
13.从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。
14.进一步的技术方案:所述确定一级音素的方法为:利用语言学所定义的音素类别,或利用无监督学习方法所定义的最小语音单元作为一级音素。
15.进一步的技术方案:所述获取语音数据库以及每条语音数据所对应的一级音素序列,包括:利用人工标注的方式获取音素序列,或利用语音识别、音素识别的模型获取音素序列。
16.进一步的技术方案:获取的所述音素序列为,按照语音信号中音素出现的顺序进行标记的音素类别。
17.进一步的技术方案:所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:
18.从一级音素开始,将包含全部一级音素的集合作为一级音素候选集,由满足频繁条件的一级音素构成一级音素频繁集,并由一级音素频繁集生成二级音素候选集,并选出频繁的二级音素构成二级音素频繁集,以此类推,由k-1级音素频繁集构建k级音素候选集,并从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集,直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集,其中,k级音素是指k个一级音素合并形成的有序组合。
19.进一步的技术方案:所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:
20.当k大于等于2时,所述由k-1级音素频繁集构建k级音素候选集方法为:由k-1级音素频繁集中存在有k-2个交集的两个k-1级音素合并而成。
21.进一步的技术方案:所述从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集中的所述频繁条件为:音素在数据集中出现的频次大于一个预设值,或音素出现语句的数量与数据库中总语句数量的比值大于一个预设值。
22.进一步的技术方案:所述进行各层级强区分性音素的筛选的方法为:
23.从一级音素开始进行,将所获得的k级音素频繁集作为新的候选集,由满足强区分性条件的k级音素构成最终的k级音素集合,以此类推,直至不存在更高层级的候选集。
24.进一步的技术方案:所述由满足强区分性条件的k级音素构成最终的k级音素集合中的强区分性条件,包括:
25.采用一个通用说话人识别模型针对属于一个音素类别的数据来进行说话人识别,使识别的正确率高于一个预设值。
26.同时,本发明的还提供如下技术方案:
27.一种针对说话人识别的多层级音素生成的装置,包括:
28.数据单元,获取并存储语音数据以及每条语音数据所对应的一级音素序列;
29.频繁候选集生成单元,根据所确定的一级音素,将包含全部一级音素的集合作为一级音素候选集,对于二级及以上音素,按照约束条件由k-1级音素频繁集生成k级音素候选集;
30.频繁音素筛选单元,对于生成的k级音素候选集,利用语音数据中的音素序列标记,计算k级音素出现的频次,并依据设置的频繁条件,从k级音素中筛选出满足频繁条件的音素,构成k级音素频繁集;
31.强区分性音素筛选单元,根据所获得的k级音素频繁集作为候选集,计算每个k级
音素的区分性,并按照设置的强区分性条件,筛选出满足条件的音素,构成k级强区分性音素集。
32.与现有技术相比,本发明的有益效果是:
33.1)、本发明提供的多层级音素生成的方法可以同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人的识别作用,选择最优的音素组合来促进说话人识别的性能;
34.2)、本发明提供的多层级音素生成的方法通过多层级地挖掘有价值的音素组合,充分获取语音信号中说话人相关信息,提升说话人识别的准确率。
附图说明
35.图1为本发明实施例中一种针对说话人识别的多层级音素生成的方法流程示意图;
36.图2为本发明实施例中一种针对说话人识别的多层级音素生成的装置结构框图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.实施例一
39.如图1所示,本发明一种针对说话人识别的多层级音素生成的方法流程示意图,包括:
40.步骤1、确定一级音素的集合。
41.所确定一级音素,可以为利用语言学所定义的音素类别,以音素类别作为一级音素;或利用无监督学习等方法所定义的最小语音单元,以最小语音单元作为一级音素。
42.具体实施例中,当一级音素采用语言学所定义的音素类别时,对于中文数据,一共包含了65个音素类别,将所有的音素类别作为一级音素,得到包含65个音素的一级音素的集合。
43.步骤2、获取语音数据库以及每条语音数据所对应的一级音素序列。
44.获取语音数据库以及每条语音数据所对应的一级音素序列,包括利用人工标注的方式获取音素序列,或利用语音识别、音素识别等方式获取音素序列。提取的音素序列,具体为按照语音信号中音素出现的顺序进行标记的音素类别。
45.具体实施例中,作为优选,对语音数据库中的每条语句采用语音识别和强制对齐的方法获取到音素序列,该音素序列对应语音数据中音素的出现顺序。
46.步骤3、从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件。
47.从一级音素开始,将一级音素集合作为候选集;设置频繁条件为音素的频繁支持度不低于r,其中频繁支持度的具体计算方式为:频繁支持度=该音素在语音信号中出现的次数/数据集中语音信号总数;由满足频繁条件的一级音素构成一级音素频繁集;由一级音
素频繁集生成二级音素候选集,具体的生成方式为一级频繁音素两两合并,构成一个二级音素,所有生成的二级音素的集合则为二级音素候选集;同理,满足频繁条件的二级音素构成二级音素频繁集;以此类推,由k-1级音素频繁集构建k级候选集,并从k级候选集中选择满足频繁条件的k级音素构成k级频繁集,直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集,其中k级音素是指k个一级音素的有序组合。k-1级音素频繁集构建k级候选集的方法,可以是由k-1级频繁集中存在有k-2个交集的两个k-1级音素合并而成。
48.具体实施例中,对生成的65个一级音素分别计算频繁支持度,并保留频繁支持度不低于r的一级音素,构成一级音素频繁集。将一级音素频繁集中的音素两两合并,构成二级音素,所有二级音素的集合则为二级音素候选集,计算每个二级音素的支持度,保留频繁支持度不低于r的二级音素,构成二级音素频繁集。类似地,用k-1级音素频繁集构建k级候选集,具体为将两个具有k-2个交集的k-1级音素x和y,x和y分别包含了k-1个一级音素且内部有序,如果x从第2位起到第k-1位和y从第1位起到第k-2位完全一致时,由x的全部一级音素和y的最后一个一级音素合并,构成更高一级的k级音素,并放入k级音素候选集。遍历所有满足构建条件的组合,完成k级音素候选集构建后,从k级候选集中选择满足频繁条件的k级音素构成k级频繁集。直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集时停止,所有层级的频繁集合构成最终的多层级频繁集。
49.步骤4、从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。
50.从一级音素开始,将一级音素频繁集作为候选集;设置强区分性条件为音素的区分性支持度不低于s,其中音素的区分性支持度的具体评估方式可以是训练一个通用模型对训练集中该音素类别的数据进行说话人识别,将识别率作为该音素的区分性支持度;由区分性支持度大于s的一级音素构成最终一级音素集合;同理,k级音素频繁集作为候选集,由满足强区分性条件的k级音素构成最终的k级音素集合;以此类推,直至不存在更高层级的候选集时停止,输出所有层级的最终音素集合。
51.具体实施例中,先利用各层级的频繁音素类对应的音素数据,训练一个通用的说话人识别模型。对于一级音素频繁集中的音素,在验证集上进行说话人识别,计算每个音素对应的识别率。将识别率不低于s的一级频繁音素放入最终的最优一级音素集合中。以此类推,将k级音素频繁集作为候选集,利用通用模型估计每个k级频繁音素的区分性,所有说话人识别率不低于s的k级音素构成最终的最优k级音素集合。直至不存在更高层级的候选集时停止,输出所有层级的最优音素集合。
52.根据本发明提供的方法,能够同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人识别系统的作用,选择最优的音素组合来促进说话人识别系统的效果。同时,通过多层级地挖掘有价值的音素组合,充分获取语音信号中说话人相关信息,提升说话人识别的正确率。
53.实施例二
54.如图2所示,是本发明一种针对说话人识别的多层级音素生成的装置,包括:
55.数据单元,获取并存储语音数据以及每条语音数据所对应的一级音素序列;
56.频繁候选集生成单元,根据所确定的一级音素,将包含全部一级音素的集合作为
一级音素候选集,对于二级及以上音素,按照约束条件由k-1级音素频繁集生成k级音素候选集;
57.频繁音素筛选单元,对于生成的k级音素候选集,利用语音数据中的音素序列标记,计算k级音素出现的频次,并依据设置的频繁条件,从k级音素中筛选出满足频繁条件的音素,构成k级音素频繁集;
58.强区分性音素筛选单元,根据所获得的k级音素频繁集作为候选集,计算每个k级音素的区分性,并按照设置的强区分性条件,筛选出满足条件的音素,构成k级强区分性音素集。
59.需要说明的是,本实施例中的各个单元是逻辑意义上的,在具体实施过程中,一个单元可拆分成多个单元,多个单元也可以合并成一个单元。
60.根据本发明实施例二提供的一种针对说话人识别的多层级音素生成的装置,该装置能够同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人识别系统的作用,并且多层级地挖掘有价值的音素组合,充分获取语音信号中说话人相关信息,提升说话人识别的正确率。
61.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种针对说话人识别的多层级音素生成的方法,其特征在于,包括:确定一级音素的集合;获取语音数据库以及每条语音数据所对应的一级音素序列;从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。2.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述确定一级音素的方法为:利用语言学所定义的音素类别,或利用无监督学习方法所定义的最小语音单元作为一级音素。3.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述获取语音数据库以及每条语音数据所对应的一级音素序列,包括:利用人工标注的方式获取音素序列,或利用语音识别、音素识别的模型获取音素序列。4.根据权利要求3所述一种针对说话人识别的多层级音素生成的方法,其特征在于,获取的所述音素序列为,按照语音信号中音素出现的顺序进行标记的音素类别。5.根据权利要求1所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法,具体为:从一级音素开始,将包含全部一级音素的集合作为一级音素候选集,由满足频繁条件的一级音素构成一级音素频繁集,并由一级音素频繁集生成二级音素候选集,并选出频繁的二级音素构成二级音素频繁集,以此类推,由k-1级音素频繁集构建k级音素候选集,并从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集,直至无法生成更高层级的候选集或没有满足条件的频繁音素可以构建频繁集,其中,k级音素是指k个一级音素合并形成的有序组合。6.根据权利要求5所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述进行各层级频繁音素的筛选并生成更高一层级的音素候选集的方法具体为:当k大于等于2时,所述由k-1级音素频繁集构建k级音素候选集方法为:由k-1级音素频繁集中存在有k-2个交集的两个k-1级音素合并而成。7.根据权利要求5所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述从k级音素候选集中选择满足频繁条件的k级音素构成k级音素频繁集中的所述频繁条件为:音素在数据集中出现的频次大于一个预设值,或音素出现语句的数量与数据库中总语句数量的比值大于一个预设值。8.根据权利要求5所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述进行各层级强区分性音素的筛选的方法为:从一级音素开始进行,将所获得的k级音素频繁集作为新的候选集,由满足强区分性条件的k级音素构成最终的k级音素集合,以此类推,直至不存在更高层级的候选集。9.根据权利要求8所述一种针对说话人识别的多层级音素生成的方法,其特征在于,所述由满足强区分性条件的k级音素构成最终的k级音素集合中的强区分性条件,包括:采用一个通用说话人识别模型针对属于一个音素类别的数据来进行说话人识别,使识别的正确率高于一个预设值。
10.一种针对说话人识别的多层级音素生成的装置,其特征在于,包括:数据单元,获取并存储语音数据以及每条语音数据所对应的一级音素序列;频繁候选集生成单元,根据所确定的一级音素,将包含全部一级音素的集合作为一级音素候选集,对于二级及以上音素,按照约束条件由k-1级音素频繁集生成k级音素候选集;频繁音素筛选单元,对于生成的k级音素候选集,利用语音数据中的音素序列标记,计算k级音素出现的频次,并依据设置的频繁条件,从k级音素中筛选出满足频繁条件的音素,构成k级音素频繁集;强区分性音素筛选单元,根据所获得的k级音素频繁集作为候选集,计算每个k级音素的区分性,并按照设置的强区分性条件,筛选出满足条件的音素,构成k级强区分性音素集。
技术总结
本发明公开了一种针对说话人识别的多层级音素生成的方法及装置,方法包括:确定一级音素的集合;获取语音数据库以及每条语音数据所对应的一级音素序列;从一级音素开始,通过计算音素的出现频次和预设的阈值,进行各层级频繁音素的筛选并生成更高一层级的音素候选集,直至满足停止条件;从一级音素开始,通过计算音素的说话人区分度和设置区分度要求,进行各层级强区分性音素的筛选,直至满足停止条件,获得最终多层级音素集合。本发明提供的方法可以同时考虑音素的普遍性和对于说话人身份的区分性,有助于全面评估音素单元对说话人的识别作用,提升说话人识别的准确率。提升说话人识别的准确率。提升说话人识别的准确率。
技术研发人员:
汪欣 谢川 展华益
受保护的技术使用者:
四川长虹电子控股集团有限公司
技术研发日:
2022.11.15
技术公布日:
2023/3/3