1.本技术涉及数据处理领域,具体而言,涉及一种训练
样本集的生成方法和存储介质。
背景技术:
2.目前,许多智能设备内置的语音命令系统给我们的生活带来了更大的便利,可以毫不费力地通过一个简单的命令来激活设备,比如,可以通过“嘿,小爱同学”,激活手机设备。
3.在相关技术中,智能设备通常是基于语音处理模型(比如,语音唤醒模型)生成语音数据的音频表示,语音处理模型的表现和训练数据呈现正相关,一般语音处理模型需要大量的数据进行训练。然而,随着智能设备个性化的需求不断增长,语音处理模型在低资源的情况下,难以有效训练模型,从而存在无法有效处理训练样本集的技术问题。
4.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
5.本技术实施例提供了一种训练样本集的生成方法和存储介质,以至少解决无法有效处理训练样本集的技术问题。
6.根据本技术实施例的一个方面,提供了一种训练样本集的生成的方法。该方法可以包括:获取待处理的
原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本集进行混合增强,得到第一
目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
7.根据本技术实施例的另一个方面,提供了另一种语音处理模型的确定方法。该方法可以包括:获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到;响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
8.根据本技术实施例的另一个方面,提供了另一种语音处理方法。该方法可以包括:采集向客户端发送的待检测语音;使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到,原始训练样本集相对
于目标训练样本集的相似度大于相似度阈值;基于目标关键词激活客户端。
9.根据本技术实施例的另一个方面,提供了另一种训练样本的生成方法。该方法可以包括:通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值;通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
10.根据本技术实施例的一个方面,提供了一种训练样本集的生成的装置。该装置可以包括:第一获取单元,用于获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;第一处理单元,用于对原始训练样本集进行混合增强,得到第一目标训练样本集;第二处理单元,用于对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;第三处理单元,用于至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
11.根据本技术实施例的另一个方面,提供了另一种语音处理模型的确定装置。该装置可以包括:第二获取单元,用于获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到;训练单元,用于响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
12.根据本技术实施例的另一个方面,提供了另一种语音处理装置。该装置可以包括:采集单元,用于采集向客户端发送的待检测语音;提取单元,用于使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值;激活单元,用于基于目标关键词激活客户端。
13.根据本技术实施例的另一个方面,提供了另一种训练样本的生成装置。该装置可以包括:第三获取单元,用于通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集;第四处理单元,用于对原始训练样本集进行混合增强,得到第一目标训练样本集;第五处理单元,用于对第一目标训练样本集和原始训练样本集进行对比学习,得到对
比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;调整单元,用于至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值;输出单元,用于通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
14.根据本技术实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的训练样本集的生成的方法。
15.根据本技术实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,在程序运行时执行上述任意一项的量训练样本集的生成方法。
16.在本技术实施例中,获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。也就是说,本技术实施例对原始训练样本集进行混合增强,得到第一目标训练样本集,通过对第一目标训练样本集和原始训练样本集进行对比学习,引入辅助的对比损失,以最大化原始训练样本集(原始预混合样本集)与增强样本集(第一目标训练样本集)之间的相似性,从而可以增加语音处理模型对特征内容的认知,达到了在各种大小的低资源条件下都可以提高语音处理模型性能的目的,进而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
17.容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本技术进行举例和解释,并不构成对本技术的限定。
附图说明
18.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
19.图1是根据本技术实施例的一种用于实现训练样本集的生成方法的计算机终端(或移动设备)的硬件结构框图;
20.图2是根据本技术实施例的一种计算环境的结构框图;
21.图3是根据本技术实施例的一种服务网格的结构框图;
22.图4是根据本技术实施例的一种训练样本集的生成方法的流程图;
23.图5是根据本技术实施例的另一种训练样本集的生成方法的流程图;
24.图6是根据本技术实施例的另一种训练样本集的生成方法的流程图;
25.图7是根据本技术实施例的另一种训练样本集的生成方法的流程图;
26.图8是根据本技术实施例的一种计算机设备对私有网络的访问的示意图;
27.图9是根据本技术实施例的一种对比学习语音混合模型架构的示意图;
28.图10是根据本技术实施例的一种比较不同技术的嵌入的降维算法的示意图;
29.图11是根据本技术实施例的一种训练样本集的生成方法的示意图;
30.图12是根据本技术实施例的一种语音处理模型的确定装置的示意图;
31.图13是根据本技术实施例的一种语音处理装置的示意图;
32.图14是根据本技术实施例的另一种训练样本的生成装置的示意图;
33.图15是根据本技术实施例的一种计算机终端的结构框图。
具体实施方式
34.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
35.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
37.语音唤醒(keyword spotting,简称为kws),可以指的是在连续语流中实时检测出说话人的特定片段,语音唤醒可以用于将设备从休眠状态激活至运行状态;
38.数据增强(data augmentation),可以为一种通过利用算法来扩展训练数据的技术,可以为通过利用算法,自动增强训练数据;
39.对比学习,可以为自监督学习的一种,可以指的是通过自动构造相似实例和不相似实例,要求习得一个表示学习模型,通过学习模型,可以使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远;
40.过拟合,可以指的是过于紧密或精确地匹配特定数据集,以至于无法良好地拟合其他数据或预测未来的观察结果的现象;
41.正则化,可以指的是为解决适应性问题或过拟合而加入额外信息的过程,在机器学习和逆问题的优化过程中,正则化可以加在目标函数中。
42.实施例1
43.根据本技术实施例,提供了一种训练样本集的生成方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
44.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运
算装置中执行。图1是根据本技术实施例的一种用于实现训练样本集的生成方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端a(或移动设备)可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(universal serial bus,usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端a还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
45.应当注意到的是上述一个或多个处理器102和/或其他训练样本集的生成电路在本文中通常可以被称为“训练样本集的生成电路”。该训练样本集的生成电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,训练样本的生成电路可为单个独立的处理模块,或全部或部分的结合到计算机终端a(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该训练样本集的生成电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
46.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的训练样本集的生成方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的训练样本集的生成方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
47.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端a的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
48.显示器可以例如触摸屏式的液晶显示器(liquid crystal display,lcd),该液晶显示器可使得用户能够与计算机终端a(或移动设备)的用户界面进行交互。
49.图1示出的硬件结构框图,不仅可以作为上述计算机终端a(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端a(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本技术实施例的一种计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,
…
,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“a”,“d”,“e”和“h”。
50.终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关
230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
51.服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(virtual machine,简称为vm)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(operating system,简称为os),以便多个工作负载可以在单个操作系统实例上运行。
52.在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个pod(例如,kubernetes pod)。举例来说,如图2所示,服务220-2可以配备一个或多个pod240-1,240-2,
…
,240-n(统称为pod)。每个pod可以包括代理245和一个或多个容器242-1,242-2,
…
,242-m(统称为容器)。pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以配备类似于pod的pod。
53.在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能坑你需要调用另一个服务的一个或多个功能。如图2所示,服务“a”220-1从入口网关230接收终端用户202的用户请求,服务“a”220-1可以调用服务“d”220-2,服务“d”220-2可以请求服务“e”220-3执行一个或多个功能。
54.上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
55.另一种可选实施例中,图3以框图示出了使用上述图1所示的计算机终端a(或移动设备)作为服务网格的一种实施例。图3是根据本技术实施例的一种服务网格的结构框图,如图3所示,该服务网格300主要用于方便多个微服务之间进行安全和可靠的通信,微服务是指将应用程序分解为多个较小的服务或者实例,并分布在不同的集/机器上运行。
56.如图3所示,微服务可以包括应用服务实例a和应用服务实例b,应用服务实例a和应用服务实例b形成服务网格300的功能应用层。在一种实施方式中,应用服务实例a以容器/进程308的形式运行在机器/工作负载容器组314(pod),应用服务实例b以容器/进程310的形式运行在机器/工作负载容器组316(pod)。
57.在一种实施方式中,应用服务实例a可以是商品查询服务,应用服务实例b可以是商品下单服务。
58.如图3所示,应用服务实例a和网格代理(sidecar)303共存于机器工作负载容器组314,应用服务实例b和网格代理305共存于机器工作负载容器314。网格代理303和网格代理305形成服务网格300的数据平面层(data plane)。其中,网格代理303和网格代理305分别以容器/进程304,容器/进程306的形式运行,可以接收请求312,以用于进行商品查询服务,并且网格代理303和应用服务实例a之间可以双向通信,网格代理305和应用服务实例b之间可以双向通信。此外,网格代理303和网格代理305之间还可以双向通信。
59.在一种实施方式中,应用服务实例a的所有流量都通过网格代理303被路由到合适
的目的地,应用服务实例b的所有网络流量都通过网格代理305被路由到合适的目的地。需要说明的是,在此提及的网络流量包括但不限于超文本传输协议(hyper text transfer protocol,简称为http),表述性状态传递(representational state transfer,简称为rest)高性能等形式。
60.在一种实施方式中,可以通过为服务网格300中的代理(envoy)编写自定义的过滤器(filter)来实现扩展数据平面层的功能,服务网格代理配置可以是为了使服务网格正确地代理服务流量,实现服务互通和服务治理。网格代理303和网格代理305可以被配置成执行至少如下功能中的一种:服务发现(service discovery),健康检查(health checking),路由(routing),负载均衡(load balancing),认证和授权(authentication and authorization),以及可观测性(observability)。
61.如图3所示,该服务网格300还包括控制平面层。其中,控制平面层可以是由一组在一个专用的命名空间中运行的服务,在机器/工作负载容器组(machine/pod)302中由托管控制面组件301来托管这些服务。如图3所示,托管控制面组件301与网格代理303和网格代理305进行双向通信。托管控制面组件301被配置成执行一些控制管理的功能。例如,托管控制面组件301接收网格代理303和网格代理305传送的遥测数据,可以进一步对这些遥测数据做聚合。这些服务,托管控制面组件301还可以提供面向用户的应用程序接口(application programming interface,简称为api),以便较容易地操纵网络行为,以及向网格代理303和网格代理305提供配置数据等。
62.在上述运行环境下,本技术提供了如图4所示的训练样本集的生成方法。图4是根据本技术实施例的一种训练样本集的生成方法的流程图。如图4所示,该方法可以包括以下步骤:
63.步骤s402,获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型。
64.在本技术上述步骤s402提供的技术方案中,可以获取待处理的原始训练样本集,其中,原始训练样本集可以包括语音数据的样本集,比如,可以为非常小(比如,2.5mins,5mins,10mins)的训练集或较小的用户样本,或者可以为混合得到的预混合个体(预混合样本),也可以为包含语音数据的音频、视频等,可以用xi、xj表示,此处仅为举例说明,不对原始训练样本集的内容和表现形式做具体限制。语音处理模型可以为语音唤醒(keyword spotting,简称为kws)模型,可以用于对语音数据进行处理。
65.可选地,在获取待处理的原始训练样本集之后,可以通过原始训练样本集训练得到语音处理模型。
66.举例而言,可以获取某一客户端的语音命令数据集,该客户端可以为浏览器,该语音命令数据集包含总共105000个话语,其中,有35个独特的单词。数据集中每个音频样本都存储为以16khz频率采样的一秒或者更短的音频格式(比如,wav格式)文件,从而得到待处理的原始训练样本集。
67.步骤s404,对原始训练样本集进行混合增强,得到第一目标训练样本集。
68.在本技术上述步骤s404提供的技术方案中,可以对原始训练样本进行混合增强(mix-up augmentation),得到第一目标训练样本集。其中,混合增强可以用于生成内容丰富的语音编码。第一目标训练样本集可以作为训练样本,可以为得到的增强样本集。
69.可选地,可以对原始训练样本集中的样本通过混合微小噪声失真、时移、时间拉伸和频谱增强(specaugment)等方式进行混合增强,得到第一目标训练样本集,需要说明的是,此处混合增强的方法仅为举例,不对混合增强的方法做具体限制。
70.举例而言,可以对原始训练样本集中的部分原始训练样本进行-100毫秒到100毫秒范围内的随机时间偏移,且可以对随机选取的部分原始训练样本进行0.9至1.1系数之间的随机时间拉伸,可以对原始训练样本进行时间的遮蔽大小为13、频谱的遮蔽大小为7的频谱增强,从而得到第一目标训练样本集。
71.步骤s406,对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度。
72.在本技术上述步骤s406提供的技术方案中,可以对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失。其中,对比损失可以用于表征原始训练样本集相对于第一木匾训练样本集的相似度(相对相似性),可以为辅助对比损失。
73.由于通过混合增强后得到的第一目标训练样本集中的训练样本可能从两个重叠的语音中产生高度失真的信号,比如,会存在噪声数据(模型误差中的特殊尖峰),从而会主导有效梯度并影响语音处理模型的训练。为解决上述问题,在本技术实施例中,对第一目标训练样本集和原始训练样本集进行对比学习,通过使用对比学习,最大化第一目标训练样本集中的样本与原始训练样本集中的样本之间的相对相似性,从而提高语音处理模型训练的准确性。
74.举例而言,可以通过辅助组件,对第一目标训练样本集和原始训练样本集进行对比学习,得对比损失,通过对比学习最大化第一目标训练样本集和原始训练样本集之间的相似性。
75.步骤s408,至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
76.在本技术上述步骤s408提供的技术方案中,可以至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集。其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值。第二目标训练样本集可以用于训练得到语音处理模型。相似度阈值可以为预设的相似度阈值,比如,可以为50%,此处仅为举例,不对相似度阈值的大小做具体限制。
77.在该实施例中,可以基于对比损失对第一目标样本集进行调整,得到更接近原始训练样本集的第二目标训练样本,可以将第二目标训练样本作为训练数据,训练得到语音处理模型。
78.在相关技术中,随着对个性化智能设备的需求不断增长,需要定制的语音处理模型来快速适应有限的原始训练样本集(用户样本)。但是当用户样本数量有限时,容易对语音处理模型训练不到位,导致语音处理模型存在预测准确性低的技术问题。而本技术实施例,通过对原始训练样本集进行混合增强得到第一目标训练样本集,对第一目标训练样本集进行调整,得到第二目标训练样本集,基于原始训练样本集、第一目标训练样本集和第二目标训练样本集,上述三个训练样本集训练得到语音处理模型,以解决语音处理模型在低资源(比如,有限的用户样本、小型训练数据)条件下的推广能力,且通过增强技术为原始训
练样本集(数据实例)注入了微小的可变性,以更好的防止语音处理模型记忆数据集,从而减少了过拟合的问题。
79.通过本技术上述步骤s402至步骤s408,获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。也就是说,本技术实施例对原始训练样本集进行混合增强,得到第一目标训练样本集,通过对第一目标训练样本集和原始训练样本集进行对比学习,引入辅助的对比损失,以最大化原始训练样本集(原始预混合样本集)与增强样本集(第一目标训练样本集)之间的相似性,从而可以增加语音处理模型对特征内容的认知,达到了在各种大小的低资源条件下都可以提高语音处理模型性能的目的,进而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
80.下面对该实施例的上述方法进行进一步的介绍。
81.作为一种可选的实施方式,步骤s406,对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,包括:将由原始训练样本集中语音数据构成的
向量映射为目标维度的第一目标向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,其中,第一目标训练样本中语音数据为对原始训练样本集中语音数据进行混合增强而得到;对第一目标向量和第二目标向量进行对比学习,得到对比损失。
82.在该实施例中,可以对原始训练样本集中的语音数据构成的向量进行映射,得到目标维度的第一目标向量。且可以对原始训练样本集中的语音数据进行混合增强,得到第一目标训练样本集中的第一目标训练样本,可以对第一目标训练样本中的语音数据构成的向量进行映射,得到目标维度的第二目标向量。可以对第一目标向量和第二目标向量进行对比学习,得到对比损失。其中,目标维度可以为根据实际情况选择的维度,比如,可以为128。第一目标向量(f
p
(xr))可以用于表征原始训练样本集中语音数据的内容。第二目标向量可以用于表征第一目标训练样本中语音数据的内容。
83.可选地,可以获取原始训练样本集,可以对原始训练样本集中的语音数据进行混合增强,得到第一目标训练样本集,其中,原始训练样本集和第一目标训练样本集可以为至少包含一个语音数据的样本集合,比如,可以包括多段音频等,此处仅为举例,不对原始训练样本集和第一目标训练样本集中样本的内容作具体限制。可以分别对原始训练样本集和第一目标训练样本集中的语音数据构成的向量(潜在向量)进行映射,得到目标维度的第一目标向量和第二目标向量,可以对第一目标向量和第二目标向量进行对比学习,得到对比损失。
84.举例而言,可以从原始训练样本集中任意选取两个样本(xi和xj),可以对选取的两个样本进行混合增强,得到第一目标训练样本集中的训练样本。可以将xi、xj和传递至一个共享网络编码(shared encoding networks)中,得到上述三个训练样本中的语音数据构成的向量表示,可以对得到的向量进行映射(project),得到目标维度的第一目标
向量和第二目标向量。可以对第一目标向量和第二目标向量进行对比学习,得到对比损失。
85.作为一种可选的实施方式,对第一目标向量和第二目标向量进行对比学习,得到对比损失,包括:获取第一目标向量的范数值和第二目标向量的范数值,其中,第一目标向量的范数值用于表示第一目标向量的长度,第二目标向量的范数值用于表示第二目标向量的长度;基于第一目标向量的范数值和第二目标向量的范数值确定对比损失。
86.在该实施例中,可以获取第一目标向量的范数值和第二目标向量的范数值,可以基于第一目标向量的范数值和第二目标向量的范数值确定对比损失。其中,第一目标向量的范数值(||f
p
(xr))||2)可以用于表示第一目标向量的长度,第二目标向量的范数值可以用于表示第二目标向量的长度。
87.可选地,为了计算对比学习的损失,可以将得到的第一目标向量和第二目标向量执行l2范数,得到第一目标向量的范数值和第二目标向量的范数值,可以基于第一目标向量的范数值和第二目标向量的范数值,确定对比损失。
88.作为一种可选的实施方式,基于第一目标向量的范数值和第二目标向量的范数值确定对比损失,包括:获取第二目标向量和第一目标向量之间的均方误差,其中,均方误差用于表示第一目标向量和第二目标向量之间的差异程度;基于均方误差、第一目标向量的范数值和第二目标向量的范数值,确定对比损失。
89.在该实施例中,可以获取第一目标向量和第二目标向之间的均方误差,可以基于均方误差、第一目标向量的范数值和第二目标向量的范数值,确定对比损失。其中,均方误差可以用于表示第一目标向量和第二目标向量之间的差异程度。
90.可选地,为了确定对比损失,可以对第一目标向量和第二目标向量执行l2范数,可以利用均方误差计算归一化的第一目标向量和第二目标向量之间的相似性,可以通过以下公式确定对比损失
[0091][0092]
其中,fp(.)是语音处理模型和r∈{i,j}的投影。
[0093]
作为一种可选的实施方式,将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,包括:在编码网络模型中,将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,其中,编码网络模型用于将输入向量编码为目标维度的向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,包括:在编码网络模型中,将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量。
[0094]
在实施例中,可以将原始训练样本集、第一目标训练样本集输入至编码网络模型中。在编码网络模型中,将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,且可以将第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,从而得到第一目标向量和第二目标向量。其中,编码网络模型可以为共享编码网络。可以用于将输入向量编码为目标维度的向量。
[0095]
可选地,可以将原始训练样本集中的语音数据、第一目标训练样本集中的语音数据输入至编码网络模型中,在编码网络模型中对语音数据构成的向量进行映射,得到第一
目标向量和第二目标向量。
[0096]
作为一种可选的实施方式,确定原始训练样本中语音数据的交叉熵损失;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,包括:基于交叉熵损失和对比损失,对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0097]
在该实施例中,确定原始训练样本中语音数据的交叉熵损失,可以基于交叉熵损失和对比损失,对第一目标训练样本进行调整,从而得到第二目标训练样本集。
[0098]
举例而言,混合增强可以采用邻位风险最小化的原则来鼓励分类器在训练样本中线性地表现。当对看不见的语音数据执行推理时,邻位风险最小化的这个原则减少了不希望的可变性。在数据预处理过程中,可以从原始训练样本集中随机抽取两个语音数据(音频实例),可以通过如下算式构建一个虚拟的训练示例:
[0099][0100][0101]
其中,i,j∈1;n可以用于表示原始训练样本集的索引;x和y可以分别表示原始输入波形和独热标签编码;λ~beta(α,α),对于α∈(0,∞)可以是确定要线性混合的内容量的插值参数,给定虚拟输入标签对插值参数,给定虚拟输入标签对可以是混合增强后的第一目标样本训练集中样本的短时距傅里叶变换(short time fourier transform,简称为stft)的时间-频谱特征,从而可以计算交叉熵(l
mix
)损失如下:
[0102][0103]
其中,f(.)可以为声学编码模型,ce可以指标准交叉熵损失。
[0104]
可选地,可以基于计算得到的交叉熵损失和对比损失,对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0105]
作为一种可选的实施方式,基于交叉熵损失和对比损失,对第一目标训练样本集进行调整,得到第二目标训练样本集,包括:基于交叉熵损失,将对比损失调整为目标损失;基于目标损失对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0106]
在该实施例中,可以基于交叉熵损失,调整对比损失,达到将对比损失调整为目标损失的目的,可以基于目标损失对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0107]
可选地,可以通过相加的方式,调整对比损失,可以通过以下算式确定目标损失(l):
[0108][0109]
其中,β可以为衡量对比损失贡献的惩罚参数,可以通过测试确定,比如,可以设置为0.5,此处仅为举例,不对惩罚参数的大小做具体限制。λr可以为对比损失所占的权重。
[0110]
可选地,对比损失的权重可以通过以下公式进行计算:
[0111][0112]
作为一种可选的实施方式,对原始训练样本中语音数据进行随机数据增强;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,包括:对第一目标训练样本集和增强后的原始训练样本集进行对比学习,得到对比损失。
[0113]
在该实施例中,可以对原始训练样本中的语音数据进行随机数据增强,可以对增强后的第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失。
[0114]
在本技术实施例中还提出了一种用于混合音频数据的音频混合增强和对比学习的方法,该方法可以使用正面增强样本之间的一致属性来增强内容丰富的语音编码,且通过利用随机数据增强后的第一目标训练样本大于模型进行训练,可以得到具有较低的复杂度和较高的保证度的嵌入,从而使得训练得到的语音处理模型可以生成更有效的表示,且在低资源下也可以获取较大的概化能力,从而解决了无法有效处理训练样本集的技术问题,提高了模型的训练效率。
[0115]
可选地,通过对第一目标训练样本集和原始训练样本进行对比学习的方法,引入相对对比损失,从而可以减少扰动样本的可变性,实现不太复杂的嵌入,从而提高语音处理模型在低资源下的训练效率。
[0116]
作为一种可选的实施方式,对原始训练样本集中语音数据进行数据增强,包括:对原始训练样本中语音数据进行随机数据增强。
[0117]
在该实施例中,可以对原始训练样本中的语音数据进行随机数据增强。其中,随机数据增强可以为对语音数据随机选择数据增强的方法进行数据增强,数据增强的方法可以为时移、时间拉伸等,此处仅为距离,不对数据增强的方法做具体限制。
[0118]
举例而言,可以从原始训练样本集中随机抽取两个语音数据,可以随机从原始训练样本集中选取进行时移、时间拉伸等数据增强的原始训练样本。其中,可以随机选择对原始语音样本进行数据增强的方式,从而增强模型检测的灵活性。
[0119]
作为一种可选的实施方式,对原始训练样本集进行混合增强,得到第一目标训练样本集,包括:对原始训练样本中语音数据进行混合,得到混合语音数据;对混合语音数据进行随机数据增强,得到第一目标训练样本集。
[0120]
在该实施例中,可以对原始训练样本中的语音数据进行混合,得到混合语音数据,可以对混合语音数据进行随机数据增强,从而得到第一目标训练样本集。
[0121]
可选地,第一目标训练样本包括对单个的语音数据进行随机增强得到的语音增强数据和对多个混合语音数据进行随机增强得到的语音增强数据。
[0122]
举例而言,可以对原始训练样本中的语音数据a和语音数据b样本进行随机数据增强,且对语音数据a和语音数据b进行混合,得到混合语音数据ab,对混合语音数据ab进行随机数据增强,从而得到第一目标训练样本集,其中,第一目标训练样本集包括对语音数据a进行随机数据增强后的样本、对语音数据b进行随机增强后的样本和对混合语音数据ab进行随机增强后的样本。
[0123]
作为一种可选的实施方式,原始训练样本集包括数据量小于数据量阈值的标注数
据。
[0124]
在该实施例中,原始训练样本集可以包括数据量小于数据量阈值的标注数据。其中,数据量阈值可以为预先设定的值,比如,可以为每个单词的平均2.5分钟对应的数据量、或每个单词的平均5分钟对应的数据量,此处仅为举例,不对数据量阈值的大小做具体限制。标注数据中的标注可以为基于说话对象得到标注、可以为基于关键词得到的标注等。
[0125]
在本发明实施例中,通过利用不同由不同标注的标注数据对模型进行训练,不仅增加了训练过程中的多样性,还增加了学习难度,从而可以提高模型部署的广泛性和预测结果的准确性。
[0126]
在本技术实施例中,对原始训练样本集进行混合增强,得到第一目标训练样本集,通过对第一目标训练样本集和原始训练样本集进行对比学习,引入辅助的对比损失,以最大化原始训练样本集(原始预混合样本集)与增强样本集(第一目标训练样本集)之间的相似性,从而可以增加语音处理模型对特征内容的认知,达到了在各种大小的低资源条件下都可以提高语音处理模型性能的目的,进而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0127]
本技术实施例还提供了另一种训练样本集的生成方法,该方法可以应用于模型训练侧。图5是根据本技术实施例的另一种训练样本集的生成方法的流程图,如图5所示,该方法可以包括以下步骤。
[0128]
步骤s502,获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本进行混合增强得到。
[0129]
在本技术上述步骤s502提供的技术方案中,获取原始训练样本,可以对原始训练样本进行混合增强得到第一目标训练样本集。可以对第一目标训练样本集和原始训练样本集进行对比学习,得到用于表征第一目标训练样本集和原始训练样本集之间的相似度的对比损失。可以基于对比损失对第一目标训练样本集进行调整,得到目标训练样本集。
[0130]
步骤s504,响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
[0131]
在本技术上述步骤s504提供的技术方案中,判断原始训练样本集对于目标训练样本记得相似度是否大于相似度阈值,响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,则可以基于目标训练样本集训练得到语音处理模型。
[0132]
通过本技术上述步骤s502至步骤s504,获取原始训练样本,可以对原始训练样本进行混合增强得到第一目标训练样本集。可以对第一目标训练样本集和原始训练样本集进行对比学习,得到用于表征第一目标训练样本集和原始训练样本集之间的相似度的对比损失。可以基于对比损失对第一目标训练样本集进行调整,得到目标训练样本集,响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,则可以基于目标训练样本集训练得到语音处理模型,从而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0133]
本技术实施例还提供了另一种训练样本集的生成方法,该方法可以应用于语音识别、语音唤醒等场景下。图6是根据本技术实施例的另一种训练样本集的生成方法的流程
图,如图6所示,该方法可以包括以下步骤。
[0134]
步骤s602,采集向客户端发送的待检测语音。
[0135]
在本技术上述步骤s602提供的技术方案中,可以采集向客户端发送的待检测语音。其中,客户端可以为移动客户端,比如,可以为手机、电脑等。待检测语音可以为人声发出的语音数据、可以为视频发出的语音数据等,此处仅为举例,不对待检测语音的内容做具体限制。
[0136]
举例而言,可以通过麦克风等语音采集设备采集向客户端发送的视频,从而得到待检测语音。
[0137]
步骤s604,使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值。
[0138]
在本技术上述步骤s604提供的技术方案中,可以使用语音处理模型从待检测语音中提取出至少一目标关键词。其中,目标关键词可以为唤醒词,比如,可以为“小爱同学,帮我打开a程序”。
[0139]
可选地,可以对原始训练样本进行混合增强,得到第一目标训练样本集,基于第一目标训练样本集和原始训练样本集进行对比学习,得到用于表征原始训练样本集相对于第一目标训练样本集的对比损失,基于对比损失对第一目标训练样本集进行调整,得到目标训练样本集,基于目标训练样本集训练得到语音处理模型。通过语音处理模型对待检测语音进行处理,提取出待检测语音中至少一目标关键词。其中,目标关键词可以与预设的关键词相同,比如,可以为“小爱同学”、“小杜同学”等,此处仅为举例,不对关键词的内容做具体限制。
[0140]
步骤s606,基于目标关键词激活客户端。
[0141]
在本技术上述步骤s606提供的技术方案中,当捕捉到待检测语音中存在预先设定的目标关键词时,可以基于目标关键词激活客户端。
[0142]
举例而言,当客户端为手机时,摄影时,可以设定目标关键词为“茄子”,可以获取当前环境中的待检测语音,当识别到待检测语音中存在“茄子”时,可以激活手机进行拍照动作。
[0143]
作为一种可选的实施方式,基于目标关键词激活客户端,包括:响应于目标关键词与客户端关联的预定关键词之间的相似度大于预定相似度阈值,激活客户端。
[0144]
在该实施例中,判断目标关键词于客户端关联的预定关键词之间的相似度,响应于目标关键词与客户端关联的预订关键词之间的相似度大于预订相似度阈值,可以激活客户端。其中,预订关键词可以为预先设定的关键词。
[0145]
在本技术实施例中,通过采集向客户端发送的待检测语音;使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样
本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值;基于目标关键词激活客户端,从而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0146]
本技术实施例还提供了另一种训练样本集的生成方法,该方法可以应用于软件服务侧(software-as-a-service,简称为saas)。图7是根据本技术实施例的另一种训练样本集的生成方法的流程图,如图7所示,该方法可以包括以下步骤。
[0147]
步骤s702,通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集。
[0148]
在本技术上述步骤s702提供的技术方案中,第一接口可以是服务器与用户端之间进行数据交互的接口,用户端可以通过调用第一接口获取待处理的原始训练样本集,原始训练样本集作为第一接口的一个第一参数,实现获取到待处理的原始训练样本集的目的。
[0149]
步骤s704,对原始训练样本进行混合增强,得到第一目标训练样本集。
[0150]
步骤s706,对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度。
[0151]
步骤s708,至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值。
[0152]
步骤s710,通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
[0153]
在本技术上述步骤s710提供的技术方案中,第二接口可以是服务器与用户端之间进行数据交互的接口,服务器可以将第二目标训练样本集下发至客户端,使得客户端可以输出第二目标训练样本集至第二接口中,作为第二接口的一个参数,实现将第二目标训练样本集下发至用户端的目的。
[0154]
图8是根据本技术实施例的一种计算机设备对私有网络的访问的示意图,如图8所示,可以通过调用第一接口获取待处理的原始训练样本集,计算机设备执行:步骤s802,通过调用第一接口获取待处理的原始训练样本集;步骤s804,对原始训练样本集进行混合增强,得到第一目标训练样本集;步骤s806,对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失;步骤s808,至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集;步骤s810,通过调用第二接口输出第二目标训练样本集。
[0155]
通过本技术上述步骤s702至步骤s708,通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集;对原始训练样本进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值;通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第
augmentation)模块和加入辅助对比损失的模型训练模块(model training framework)。
[0165]
在该实施例中,混合数据增强模块获取样本1和样本2,通过对样本1和样本2进行混合增强,得到混合样本。
[0166]
可选地,普通混合增强通常是采用邻位风险最小化的原则来鼓励分类器在训练样本中线性地表现,当对看不见的语音数据执行推理时,采用邻位风险最小化的原则减少了不希望的可变性。在数据预处理过程中,可以从训练集中随机抽取两个音频实例(样本1和样本2),可以通过以下算式构建一个虚拟的训练示例:
[0167][0168][0169]
i,j∈1;n可以用于表示原始训练样本集的索引;x和y可以分别表示原始输入波形和独热标签编码;λ~beta(α,α),对于α∈(0,∞)可以是确定要线性混合的内容量的插值参数,给定虚拟输入标签对数,给定虚拟输入标签对可以是混合增强后的第一目标样本训练集中样本的短时距傅里叶变换的时间-频谱特征,从而可以计算交叉熵(l
mix
)损失如下:
[0170][0171]
其中,f(.)可以为声学编码模型,ce可以指标准交叉熵损失。
[0172]
由于混合增强的过程中可能从两个重叠的语音中产生高度失真的信号(噪声),这对于模型在训练过程中是不自然或不利的。输入的高度失真的信号可能会造成模型训练过程中的混乱,从而导致模型误差中的特殊尖峰,可能会造成有效梯度并损害网络收敛。为了解决这个问题,在本技术实施例中提出了对比学习语音混合的学习算法,引入了一个辅助组件,该组件通过使用对比学习(辅助对比损失),最大化原始混合样本和增强样本之间的相对相似性。,从而可以使模型生成更有效的表示,并在低资源条件下获得更大的概化能力。
[0173]
在该实施例中,通过使用两个增强(正面)视图之间的一致属性来增强语音编码内容的丰富性,在这种情况下,可以利用具有前述训练方法的两种混合话语对模型进行训练,从而达到培养最小(即较低的复杂度)和足够(即较高的保真度)的嵌入的目的。
[0174]
可选地,上述方法可以包括,如图9所示,获取随机选取的语音数据样本1(xi)、样本2(xj)和样本1与样本2的混合样本在训练过程利用上述三个并行样本。可以对上述三个并行样本独立执行随机增强,得到增强样本,可以将增强样本和未增强样本传递至共享编码网络中,得到每个样本对应的潜在向量,可以将得到的向量嵌入映射到投影维度128中。可以将混合样本和预混合样本进行对比学习。且可以对混合后的样本进行预测,得到预测的关键词。
[0175]
可选地,为了计算对比学习的损失,可以对所有投影嵌入执行l2范数,然后利用均方误差来测量归一化投影之间的相似性。可以通过以下算式来定义对比损失:
[0176][0177]
其中,fp(.)是模型和r∈{i,j}的投影。
[0178]
可选地,在模型训练的过程中,训练数据可以为分别对未混合和已混合的样本进
行训练,比如,可以为一般训练数据为未混合的数据,一半数据为已混合的数据,从而实现了50%的混合比率。且在训练的过程中,还包括混合样本和预混合样本的对比学习、混合增强样本对模型的参数进行调整,从而减少了扰动样本的可变性,实现不太复杂的嵌入。其中,在目标损失函数中,相对对比损失的权重可以通过以下公式进行计算:
[0179][0180]
完整的训练损失函数(目标损失函数)可以由以下公式进行计算:
[0181][0182]
其中,β可以为衡量对比损失贡献的惩罚参数,可以通过测试确定,比如,可以设置为0.5,此处仅为举例,不对惩罚参数的大小做具体限制。
[0183]
下面以具体数据的方式对上述方法的实施过程进行举例,需要说明的是,下述数据的大小、获取或处理方法仅是为了便于理解方案而做出的举例说明,此处不做具体限制。
[0184]
在该实施例中,可以先获取低资源的训练数据。
[0185]
可以利用某歌中的语音命令数据集(v2),该数据集总共包含105000个话语,其中,有35个独特的单词。语音命令数据集中每个音频样本都存储为以16khz频率采样的一秒(或更短)的格式文件(比如,wav格式文件)。
[0186]
举例而言,可以采用为10个关键字类的子集,用于模型的训练、验证和测试分割,其中,关键字类可以为涵盖了单词:“上”、“下”、“左”、“右”、“是”、“否”、“开”、“关”、“开始”和“停止”。可以根据每个单词的说话者来划分话语,并调整相应训练集的大小,比如,可以用5%、10%、20%、30%和50%的训练集进行实验,调整对应于每个单词的平均2.5分钟、5分钟、10分钟、15分钟和25分钟的训练数据,从而得到训练数据。其中,上述规模的训练数据接近在实际应用中可用于训练个性化语音唤醒模型的数据。
[0187]
可选地,可以通过调整说话人分区,减少了训练数据的多样性,增加了学习难度,更好的模拟了低资源的模型训练场景,从而可以使训练得到的模型可以适应实际部署中更广泛的人。
[0188]
在该实施例中,对训练数据进行处理。
[0189]
可选地,可以将获取到的音频样本转换为64维对数频率(log mel)的滤波器组(fbank),其中,该滤波器组的窗口大小可以为25毫秒,偏移为10毫秒。可以对训练数据进行混合增强处理,可以将滤波器组的分辨率固定为98
×
64(即,相当于话语的1秒),短于1秒的语音数据可以向右补零。
[0190]
可选地,可以通过对数据进行混合增强,达到增加训练样本的目的,比如,-100ms到100ms范围内的数据可以进行随机时间偏移,可以进行0.9到1.1的系数之间的随机时间拉伸。同时,可以应用频谱增强方法,可以将时间和频谱的掩蔽大小分别设置为13和7。
[0191]
在该实施例中,选择合适的神经网络模型,可以基于处理好的训练数据对模型进行训练。
[0192]
可选地,语音唤醒模型可以选择基于变化器(transformer)模型的关键字模型(比
如,kwt-1、kwt-3)和基于卷积的关键字神经视觉模型(比如,keyword convmixer、resnet18)。这些模型代表了具有不同模型尺寸和复杂性的不同调节环境的最新技术水平。其中,轻量级的模型convmixer只包含0.1m的参数。
[0193]
可选地,可以为每个模型添加一个投影,将训练数据的潜在向量嵌入映射到大小为128的投影维度。投影由一个线性密集块组成,其具有线性整流函数(linear rectification function,简称为relu)激活功能。选择的所有模型都可以以128的批量进行训练。初始学习是5e-3,并且可以采用从第5个到第70个时期的每四个时期速率为0.85的阶跃衰减。
[0194]
可选地,在模型训练的过程中可以使用优化器(比如,adam)和二进制交叉熵损失。
[0195]
为了研究不同技术的声学表示的质量,在本发明实施例中通过使用降为算法(t-sne)示意图,在20%的训练数据上,实现可视化嵌入。图10是根据本技术实施例的一种比较不同技术的嵌入的降维算法的示意图,如图10所示,可以设置关键词标签(keyword labels):是(yes)、否(no)、上(up)、下(down)、左(left)、右(right)、开(on)、关(off)、停止(stop)、开始(go)。其中,基线设置设法(base line)将“右”和“是”与其他命令区分开来,然而,该模型未能在其余部分做到这一点。嵌入随着混合增强而改善,类变得稍微间隔开。该实施例的方法(cos-mix)的类是最可分离的,只有短辅音单词被绑在一起,这表明该方法在学习精确和内容丰富的表示方面具有重要作用。
[0196]
表1是语音唤醒模型在不同体系架构中语音唤醒模型的准确性,如表1所示,在不同数据集大小(即,5%、10%、20%、30%、50%)的训练数据上,在确定在各个方法下,关键字分类的准确度。在小数据集上训练时,所有模型的性能都会下降,kwt-3见证了最大的性能下降,在5%训练数据的基线训练下,仅实现了46.5%的准确度。在较少的训练数据(比如,5%大小)下,对比学习语音混合法的性能增益更大,其中,对于kwt-3,性能的相对增加高达21.7%。由于缺乏学习高度复杂的注意机制的训练样本,基于transformer的模型在低资源环境中更容易出现性能下降,但即使在这种情况下,cosmix也可以通过更好的正则化,帮助缓解了低资源的问题。基于卷积的模型表现最好,其中,关键字使用cosmix在5%的训练集上获得了90%准确度的最高分。然而,不管使用什么模型,对比学习语音混合法在各种训练集规模上都取得了满足预定条件的性能。
[0197]
表1语音唤醒模型在不同体系架构中语音唤醒模型的准确性
[0198][0199][0200]
可选地,由于混合比(mixing ratio)和从β分布导出的内插权重的参数对混合算法的性能具有重要影响,可以为当β分布中的α,β(α,α)小于1时,可以获得了凸形曲线,其中,音频混合的量倾向于在一侧占优势;但当α大于1时,曲线变得更凹,两个音频按比例混合的可能性更大。表2是在混合的不同混合比的情况下,基于resnet18的20%训练数据集的测试精度,如表2所示,β(10,10)通常比β(0.5,0.5)的效果好,这表明对于语音唤醒任务,该模型可以利用相等比例混合的音频样本更有效地学习。且数据增强算法和对比学习语音混合算法的混合比不同。数据增强算法的混合比为30%时性能最佳,而对比学习语音混合算法的混合比为50%时效果最佳,则可以设置混合比为50%。
[0201]
表2在混合的不同混合比的情况下,基于resnet18的20%训练数据集的测试精度
[0202][0203]
在本技术实施例中,提出了一种对比学习语音混合算法,可以为用于低资源训练数据增强训练语音唤醒模型的策略。该训练方法可以利用对比损失来减轻由传统混合训练产生的噪声训练信号的不希望的副作用,能够在各种模型大小的低资源条件下提高模型性能,可以广泛应用于智能设备的个性化语音唤醒系统,达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0204]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0205]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用使得得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
[0206]
实施例3
[0207]
根据本技术实施例,还提供了一种用于实施上述图4所示的训练样本集的生成方法的训练样本集的生成装置。
[0208]
图11是根据本技术实施例的一种训练样本集的生成方法的示意图,如图11所示,该训练样本集的生成装置1100可以包括:第一获取单元1102、第一处理单元1104、第二处理单元1106和第三处理单元1108。
[0209]
第一获取单元1102,用于获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型。
[0210]
第一处理单元1104,用于对原始训练样本集进行混合增强,得到第一目标训练样
本集。
[0211]
第二处理单元1106,用于对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度。
[0212]
第三处理单元1108,用于至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
[0213]
此处需要说明的是,上述第一获取单元1102、第一处理单元1104、第二处理单元1106和第三处理单元1108对应于实施例1中的步骤s402至步骤s408,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元可以是存储在存储器(例如,存储器104)中并由一个或多个处理器(例如,处理器102a,102b
……
,102n)处理的硬件组件或软件组件,上述单元也可以作为装置的一部分可以运行在实施例1提供的计算机终端a中。
[0214]
根据本技术实施例,还提供了一种用于实施上述图5所示的语音处理模型的确定方法的语音处理模型的确定装置。
[0215]
图12是根据本技术实施例的一种语音处理模型的确定装置的示意图,如图12所示,该语音处理模型的确定装置1200可以包括:第二获取单元1202和训练单元1204。
[0216]
第二获取单元1202,用于获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到。
[0217]
训练单元1204,用于响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
[0218]
此处需要说明的是,上述第二获取单元1202和训练单元1204对应于实施例1中的步骤s502至步骤s504,两个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元可以是存储在存储器(例如,存储器104)中并由一个或多个处理器(例如,处理器102a,102b
……
,102n)处理的硬件组件或软件组件,上述单元也可以作为装置的一部分可以运行在实施例1提供的计算机终端a中。
[0219]
根据本技术实施例,还提供了一种用于实施上述图6所示的语音处理方法的语音处理装置。
[0220]
图13是根据本技术实施例的一种语音处理装置的示意图,如图13所示,该语音处理装置1300可以包括:采集单元1302、提取单元1304和激活单元1306。
[0221]
采集单元1302,用于采集向客户端发送的待检测语音。
[0222]
提取单元1304,用于使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值。
[0223]
激活单元1306,用于基于目标关键词激活客户端。
[0224]
此处需要说明的是,上述采集单元1302、提取单元1304和激活单元1306对应于实施例1中的步骤s602至步骤s606,三个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元可以是存储在存储器(例如,存储器104)中并由一个或多个处理器(例如,处理器102a,102b
……
,102n)处理的硬件组件或软件组件,上述单元也可以作为装置的一部分可以运行在实施例1提供的计算机终端a中。
[0225]
根据本技术实施例,还提供了一种用于实施上述图7所示的训练样本的生成装置。
[0226]
图14是根据本技术实施例的另一种训练样本的生成装置的示意图,如图14所示,该训练样本的生成装置1400可以包括:第三获取单元1402、第四处理单元1404、第五处理单元1406、调整单元1408和输出单元1410。
[0227]
第三获取单元1402,用于通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集。
[0228]
第四处理单元1404,用于对原始训练样本集进行混合增强,得到第一目标训练样本集。
[0229]
第五处理单元1406,用于对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度。
[0230]
调整单元1408,用于至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值。
[0231]
输出单元1410,用于通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
[0232]
此处需要说明的是,上述第三获取单元1402、第四处理单元1404、第五处理单元1406、调整单元1408和输出单元1410对应于实施例1中的步骤s702至步骤s710,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述单元可以是存储在存储器(例如,存储器104)中并由一个或多个处理器(例如,处理器102a,102b
……
,102n)处理的硬件组件或软件组件,上述单元也可以作为装置的一部分可以运行在实施例1提供的计算机终端a中。
[0233]
在该实施例的训练样本集的生成装置中,对原始训练样本集进行混合增强,得到第一目标训练样本集,通过对第一目标训练样本集和原始训练样本集进行对比学习,引入辅助的对比损失,以最大化原始训练样本集(原始预混合样本集)与增强样本集(第一目标训练样本集)之间的相似性,从而可以增加语音处理模型对特征内容的认知,达到了在各种大小的低资源条件下都可以提高语音处理模型性能的目的,进而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0234]
实施例4
[0235]
本技术的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终
端等终端设备。
[0236]
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0237]
在本实施例中,上述计算机终端可以执行应用程序的训练样本集的生成方法中以下步骤的程序代码:获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
[0238]
可选地,图15是根据本技术实施例的一种计算机终端的结构框图。如图15所示,该计算机终端a可以包括:一个或多个(图中仅示出一个)处理器1502、存储器1504、以及传输装置1506。
[0239]
其中,存储器可用于存储软件程序以及模块,如本技术实施例中的训练样本集的生成方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及预测,即实现上述的训练样本集的生成方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0240]
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
[0241]
可选地,上述处理器还可以执行如下步骤的程序代码:将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,其中,第一目标训练样本中语音数据为对原始训练样本集中语音数据进行混合增强而得到;对第一目标向量和第二目标向量进行对比学习,得到对比损失。
[0242]
可选地,上述处理器还可以执行如下步骤的程序代码:获取第一目标向量的范数值和第二目标向量的范数值,其中,第一目标向量的范数值用于表示第一目标向量的长度,第二目标向量的范数值用于表示第二目标向量的长度;基于第一目标向量的范数值和第二目标向量的范数值确定对比损失。
[0243]
可选地,上述处理器还可以执行如下步骤的程序代码:获取第二目标向量和第一目标向量之间的均方误差,其中,均方误差用于表示第一目标向量和第二目标向量之间的差异程度;基于均方误差、第一目标向量的范数值和第二目标向量的范数值,确定对比损
失。
[0244]
可选地,上述处理器还可以执行如下步骤的程序代码:在编码网络模型中,将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,其中,编码网络模型用于将输入向量编码为目标维度的向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,包括:在编码网络模型中,将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量。
[0245]
可选地,上述处理器还可以执行如下步骤的程序代码:基于交叉熵损失和对比损失,对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0246]
可选地,上述处理器还可以执行如下步骤的程序代码:基于交叉熵损失,将对比损失调整为目标损失;基于目标损失对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0247]
可选地,上述处理器还可以执行如下步骤的程序代码:对第一目标训练样本集和增强后的原始训练样本集进行对比学习,得到对比损失。
[0248]
可选地,上述处理器还可以执行如下步骤的程序代码:对原始训练样本集中语音数据进行随机数据增强。
[0249]
可选地,上述处理器还可以执行如下步骤的程序代码:对原始训练样本集中语音数据进行混合,得到混合语音数据;对混合语音数据进行随机数据增强,得到第一目标训练样本集。
[0250]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到;响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
[0251]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:采集向客户端发送的待检测语音;使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值;基于目标关键词激活客户端。
[0252]
作为一种可选的示例,处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度
大于相似度阈值;通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
[0253]
本技术实施例对原始训练样本集进行混合增强,得到第一目标训练样本集,通过对第一目标训练样本集和原始训练样本集进行对比学习,引入辅助的对比损失,以最大化原始训练样本集(原始预混合样本集)与增强样本集(第一目标训练样本集)之间的相似性,从而可以增加语音处理模型对特征内容的认知,达到了在各种大小的低资源条件下都可以提高语音处理模型性能的目的,进而达到了有效处理训练样本集的技术效果,解决了无法有效处理训练样本集的技术问题。
[0254]
本领域普通技术人员可以理解,图15示的结构仅为示意,计算机终端a也可以是智能手机(如、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图15并不对上述计算机终端a的结构造成限定。例如,计算机终端a还可包括比图15所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图15所示不同的配置。
[0255]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0256]
实施例5
[0257]
本技术的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的训练样本集的生成方法所执行的程序代码。
[0258]
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端中的任意一个计算机终端中,或者位于移动终端中的任意一个移动终端中。
[0259]
可选地,在本实施例中,上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。
[0260]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,其中,第一目标训练样本中语音数据为对原始训练样本集中语音数据进行混合增强而得到;对第一目标向量和第二目标向量进行对比学习,得到对比损失。
[0261]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:获取第一目标向量的范数值和第二目标向量的范数值,其中,第一目标向量的范数值用于表示第一目标向量的长度,第二目标向量的范数值用于表示第二目标向量的长度;基于第一目标向量
的范数值和第二目标向量的范数值确定对比损失。
[0262]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:获取第二目标向量和第一目标向量之间的均方误差,其中,均方误差用于表示第一目标向量和第二目标向量之间的差异程度;基于均方误差、第一目标向量的范数值和第二目标向量的范数值,确定对比损失。
[0263]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:在编码网络模型中,将由原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,其中,编码网络模型用于将输入向量编码为目标维度的向量;将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,包括:在编码网络模型中,将由第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量。
[0264]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于交叉熵损失和对比损失,对第一目标训练样本集进行调整,得到第二目标训练样本集
[0265]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于交叉熵损失,将对比损失调整为目标损失;基于目标损失对第一目标训练样本集进行调整,得到第二目标训练样本集。
[0266]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:对第一目标训练样本集和增强后的原始训练样本集进行对比学习,得到对比损失。
[0267]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:对原始训练样本集中语音数据进行随机数据增强。
[0268]
可选地,上述计算机可读存储介质还可以执行如下步骤的程序代码:对原始训练样本集中语音数据进行混合,得到混合语音数据;对混合语音数据进行随机数据增强,得到第一目标训练样本集。
[0269]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取目标训练样本集,其中,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到;响应于原始训练样本集相对于目标训练样本集的相似度大于相似度阈值,基于目标训练样本集训练得到语音处理模型。
[0270]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采集向客户端发送的待检测语音;使用语音处理模型从待检测语音中提取出至少一目标关键词,其中,语音处理模型为基于目标训练样本集训练得到,目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,对比损失为对第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征原始训练样本集相对于第一目标训练样本集的相似度,第一目标训练样本集为对原始训练样本集进行混合增强得到,原始训练样本集相对于目标训练样本集的相似度大于相似度阈值;基于目标关键词激活客户端。
[0271]
作为一种可选的示例,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型,第一接口包括第一参数,第一参数的参数值为原始训练样本集;对原始训练样本集进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练
样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值;通过调用第二接口输出第二目标训练样本集,其中,输出的第二目标训练样本集用于训练得到语音处理模型,第二接口包括第二参数,第二参数的参数值为第二目标训练样本集。
[0272]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0273]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0274]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0275]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0276]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0277]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0278]
以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
技术特征:
1.一种训练样本集的生成方法,其特征在于,包括:获取待处理的原始训练样本集,其中,所述原始训练样本集用于训练得到语音处理模型;对所述原始训练样本集进行混合增强,得到第一目标训练样本集;对所述第一目标训练样本集和所述原始训练样本集进行对比学习,得到对比损失,其中,所述对比损失用于表征所述原始训练样本集相对于所述第一目标训练样本集的相似度;至少基于所述对比损失对所述第一目标训练样本集进行调整,得到第二目标训练样本集,其中,所述原始训练样本集相对于所述第二目标训练样本集的相似度大于相似度阈值,且所述第二目标训练样本集用于训练得到所述语音处理模型。2.根据权利要求1所述的方法,其特征在于,对所述第一目标训练样本集和所述原始训练样本集进行对比学习,得到对比损失,包括:将由所述原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量;将由所述第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,其中,所述第一目标训练样本中语音数据为对所述原始训练样本集中语音数据进行混合增强而得到;对所述第一目标向量和所述第二目标向量进行对比学习,得到所述对比损失。3.根据权利要求2所述的方法,其特征在于,对所述第一目标向量和所述第二目标向量进行对比学习,得到所述对比损失,包括:获取所述第一目标向量的范数值和所述第二目标向量的范数值,其中,所述第一目标向量的范数值用于表示所述第一目标向量的长度,所述第二目标向量的范数值用于表示所述第二目标向量的长度;基于所述第一目标向量的范数值和所述第二目标向量的范数值确定所述对比损失。4.根据权利要求3所述的方法,其特征在于,基于所述第一目标向量的范数值和所述第二目标向量的范数值确定所述对比损失,包括:获取所述第二目标向量和所述第一目标向量之间的均方误差,其中,所述均方误差用于表示所述第一目标向量和所述第二目标向量之间的差异程度;基于所述均方误差、所述第一目标向量的范数值和所述第二目标向量的范数值,确定所述对比损失。5.根据权利要求2所述的方法,其特征在于,将由所述原始训练样本集中语音数据构成的向量映射为目标维度的第一目标向量,包括:在编码网络模型中,将由所述原始训练样本集中语音数据构成的向量映射为所述目标维度的所述第一目标向量,其中,所述编码网络模型用于将输入向量编码为所述目标维度的向量;将由所述第一目标训练样本中语音数据构成的向量映射为目标维度的第二目标向量,包括:在所述编码网络模型中,将由所述第一目标训练样本中语音数据构成的向量映射为所述目标维度的所述第二目标向量。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述原始训练样本中语音数据的交叉熵损失;
至少基于所述对比损失对所述第一目标训练样本集进行调整,得到第二目标训练样本集,包括:基于所述交叉熵损失和所述对比损失,对所述第一目标训练样本集进行调整,得到所述第二目标训练样本集。7.根据权利要求6所述的方法,其特征在于,基于所述交叉熵损失和所述对比损失,对所述第一目标训练样本集进行调整,得到所述第二目标训练样本集,包括:基于所述交叉熵损失,将所述对比损失调整为目标损失;基于所述目标损失对所述第一目标训练样本集进行调整,得到所述第二目标训练样本集。8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:对所述原始训练样本集中语音数据进行随机数据增强;对所述第一目标训练样本集和所述原始训练样本集进行对比学习,得到对比损失,包括:对所述第一目标训练样本集和增强后的所述原始训练样本集进行对比学习,得到所述对比损失。9.根据权利要求1至7中任意一项所述的方法,其特征在于,对所述原始训练样本进行混合增强,得到第一目标训练样本集,包括:对所述原始训练样本集中语音数据进行混合,得到混合语音数据;对所述混合语音数据进行随机数据增强,得到所述第一目标训练样本集。10.根据权利要求1至7中任意一项所述的方法,其特征在于,所述原始训练样本集包括数据量小于数据量阈值的标注数据。11.一种语音处理模型的确定方法,其特征在于,包括:获取目标训练样本集,其中,所述目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,所述对比损失为对所述第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征所述原始训练样本集相对于所述第一目标训练样本集的相似度,所述第一目标训练样本集为对所述原始训练样本集进行混合增强得到;响应于所述原始训练样本集相对于所述目标训练样本集的相似度大于相似度阈值,基于所述目标训练样本集训练得到语音处理模型。12.一种语音处理方法,其特征在于,包括:采集向客户端发送的待检测语音;使用语音处理模型从所述待检测语音中提取出至少一目标关键词,其中,所述语音处理模型为基于目标训练样本集训练得到,所述目标训练样本集为至少基于对比损失对第一目标训练样本集进行调整得到,所述对比损失为对所述第一目标训练样本集和原始训练样本集进行对比学习得到,且用于表征所述原始训练样本集相对于所述第一目标训练样本集的相似度,所述第一目标训练样本集为对所述原始训练样本集进行混合增强得到,所述原始训练样本集相对于所述目标训练样本集的相似度大于相似度阈值;基于所述目标关键词激活所述客户端。13.根据权利要求12所述的方法,其特征在于,基于所述目标关键词激活所述客户端,包括:响应于所述目标关键词与所述客户端关联的预定关键词之间的相似度大于预定相似度阈值,激活所述客户端。
14.一种训练样本集的生成方法,其特征在于,包括:通过调用第一接口获取待处理的原始训练样本集,其中,所述原始训练样本集用于训练得到语音处理模型,所述第一接口包括第一参数,所述第一参数的参数值为所述原始训练样本集;对所述原始训练样本集进行混合增强,得到第一目标训练样本集;对所述第一目标训练样本集和所述原始训练样本集进行对比学习,得到对比损失,其中,所述对比损失用于表征所述原始训练样本集相对于所述第一目标训练样本集的相似度;至少基于所述对比损失对所述第一目标训练样本集进行调整,得到第二目标训练样本集,其中,所述原始训练样本集相对于所述第二目标训练样本集的相似度大于相似度阈值;通过调用第二接口输出所述第二目标训练样本集,其中,输出的所述第二目标训练样本集用于训练得到所述语音处理模型,所述第二接口包括第二参数,所述第二参数的参数值为所述第二目标训练样本集。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至14中任意一项所述的方法。
技术总结
本申请公开了一种训练样本集的生成方法和存储介质。其中,该方法包括:获取待处理的原始训练样本集,其中,原始训练样本集用于训练得到语音处理模型;对原始训练样本进行混合增强,得到第一目标训练样本集;对第一目标训练样本集和原始训练样本集进行对比学习,得到对比损失,其中,对比损失用于表征原始训练样本集相对于第一目标训练样本集的相似度;至少基于对比损失对第一目标训练样本集进行调整,得到第二目标训练样本集,其中,原始训练样本集相对于第二目标训练样本集的相似度大于相似度阈值,且第二目标训练样本集用于训练得到语音处理模型。本申请解决了无法有效处理训练样本集的技术问题。本集的技术问题。本集的技术问题。
技术研发人员:
黄殿文 张冲 马煜坤 阮成孝 倪崇嘉 叶家祺 马斌
受保护的技术使用者:
阿里巴巴达摩院(杭州)科技有限公司
技术研发日:
2023.01.30
技术公布日:
2023/3/27