1.本发明涉及
语音处理相关领域,具体而言,涉及一种
说话人分割聚类方法、装置、存储介质及电子装置。
背景技术:
2.说话人分割聚类(speaker diarization),是按照说话人的身份,将不同说话人的声音区分开来的技术,解决了“谁在什么时候说了话”的问题。
3.目前,主流的说话人分割系统流程是:输入语音-》前端处理-》语音端点检测(vad/sad)得到语音段-》对检测到的语音段提取说话人embedding信息-》对embedding做聚类得到最终的聚类结果-》后处理(optional)。
4.由于语音段端点检测(vad)错误率高,导致最终聚类错误率高,错误包括语音漏检(miss error),语音误纳(false alarm),混淆错误(confusion)等。假如对话过程中,不同的话说人中间没有停顿,也就是一个
片段内会至少出现两个以上的说话人,那么该片段的聚类结果肯定是错误的。对有强噪音的情况,vad很容易将噪音检测成语音,这样就造成false alarm错误。假如语音的能量很低,vad可能就检测不出语音,这样就会造成miss error
5.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
6.本发明实施例提供了一种说话人分割聚类方法、装置、存储介质及电子装置,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。
7.根据本发明实施例的一个方面,提供了一种说话人分割聚类方法,包括:使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及
所述文本中每个字的开始时间和结束时间;基于所述开始时间和所述结束时间出语音与非语音的分界点,确定所述目标语音中包括的语音片段;将所述语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,所述语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,所述标识信息为用于区分不同说话人的信息;将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
8.可选的,所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段,包括:将所述局部聚类语音片段输入全局聚类模型中,提取所述局部聚类语音片段的语音特征;基于所述语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;将相似度的相反数作为损失函数,进行全局聚类,得到所述说话人分类聚类语音片段。
9.可选的,所述使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果
以及所述文本中每个字的开始时间和结束时间之前,所述方法还包括:获取目标说话人的原始语音片段;对所述原始语音片段进行降噪处理,得到所述目标语音。
10.可选的,所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,所述方法还包括:根据所述说话人分类聚类语音片段,进行语音识别,得到目标语音文本。
11.根据本发明实施例的一个方面,提供了一种说话人分割聚类装置,包括:第一语音识别单元,用于使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间;确定单元,用于基于所述开始时间和所述结束时间出语音与非语音的分界点,确定所述目标语音中包括的语音片段;局部聚类单元,用于将所述语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,所述语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,所述标识信息为用于区分不同说话人的信息;全局聚类单元,用于将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
12.可选的,所述全局聚类单元,包括:提取模块,用于将所述局部聚类语音片段输入全局聚类模型中,提取所述局部聚类语音片段的语音特征;计算模块,用于基于所述语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;全局聚类模块,用于将相似度的相反数作为损失函数,进行全局聚类,得到所述说话人分类聚类语音片段。
13.可选的,所述装置还包括:获取单元,用于所述使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间之前,获取目标说话人的原始语音片段;处理单元,用于对所述原始语音片段进行降噪处理,得到所述目标语音。
14.可选的,所述装置还包括:第二语音识别单元,用于所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,根据所述说话人分类聚类语音片段,进行语音识别,得到目标语音文本。
15.根据本技术实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述说话人分割聚类方法。
16.根据本技术实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述说话人分割聚类方法。
17.在本发明实施例中,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间;基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段;将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息;将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。在本实施例中,使用语音识别引
擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用vad对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。
附图说明
18.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
19.图1是根据本发明实施例的一种可选的说话人分割聚类方法的移动终端的硬件结构框图;
20.图2是根据本发明实施例的一种可选的说话人分割聚类方法的流程图;
21.图3是根据本发明实施例的一种可选的语音片段示意图;
22.图4是根据本发明实施例的一种可选的语音片段局部聚类结果示意图;
23.图5是根据本发明实施例的一种可选的语音片段全局聚类结果示意图;
24.图6是根据本发明实施例的一种可选的深度神经网络声纹模型结构示意图;
25.图7是根据本发明实施例的一种可选的说话人分割聚类装置图。
具体实施方式
26.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
27.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.本技术实施例所提供的说话人分割聚类方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种说话人分割聚类方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
29.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的说话人分割聚类方法对应的计算机程序,处理器102通过运行存储在存储器
104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
30.在本实施例中还提供了一种说话人分割聚类方法,图2是根据本发明实施例的说话人分割聚类方法的流程图,如图2所示,该说话人分割聚类方法流程包括如下步骤:
31.步骤s202,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间。
32.步骤s204,基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段。
33.步骤s206,将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息。
34.步骤s208,将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
35.在本实施例中,在步骤s204中,使用步骤s202中得到的每个字的开始时间和结束时间,出语音与非语音的分界点。这样就得到一个个的语音片段。如图3所示,语音片段示意图,其中,图3中,5s-13s,23s-33s,43s-50s,65s-75s有识别结果,也就是语音片段。0s-5s,13s-23s,33s-43s,50s-65s是非语音片段。
36.在步骤s204中,替代传统说话人分割系统使用vad进行语音端点检测的功能,因为asr引擎的性能远远优于vad的性能,所以这里能够获得比vad准确率高很多的语音片段。
37.在步骤s206中,将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到每个片段的聚类结果。结合图3所示的语音片段,局部聚类的结果如图4所示,语音片段局部聚类结果示意图。
38.5s-13s的语音片段被标出了2个说话人,时间抽上对应的说话人id分别为:s1,s2,s1;
39.23s-33s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s3,s2;
40.43s-50s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s1,s2,s1;
41.65s-75s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s1,s3,s2。
42.上述每个片段被标出的说话人id各自独立编号。这样就得到了更小的语音片段,每个片段是一个独立的说话人。以下称该片段:局部聚类的语音片段。所谓局部聚类的意思是,已经被e2e-sd给出一个speaker id,但是这个id不是全局的。
43.在本实施例中,将局部聚类片段的说话人id统一编号,如图5所示,语音片段全局聚类结果示意图。
44.通过本技术提供的实施例,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间;基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段;将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息;将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。在本实施例中,使用语音识别引擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用vad对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。
45.可选的,将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段,包括:将局部聚类语音片段输入全局聚类模型中,提取局部聚类语音片段的语音特征;基于语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;将相似度的相反数作为损失函数,进行全局聚类,得到说话人分类聚类语音片段。
46.可选的,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间之前,方法还包括:获取目标说话人的原始语音片段;对原始语音片段进行降噪处理,得到目标语音。
47.可选的,将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,方法还包括:根据说话人分类聚类语音片段,进行语音识别,得到目标语音文本。
48.作为一种可选的实施例,本技术还提供了一种说话人分割方法。
49.第1步:使用语音识别引擎对语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间。
50.第2步:出语音的时间点。
51.具有实现过程为:使用第1步中得到的每个字的开始时间和结束时间,出语音与非语音的分界点。这样就得到一个个的语音片段。图3所示:5s-13s,23s-33s,43s-50s,65s-75s有识别结果,也就是语音片段。0s-5s,13s-23s,33s-43s,50s-65s是非语音片段。
52.在步骤2中替代传统说话人分割系统使用vad进行语音端点检测的功能,因为asr引擎的性能远远优于vad的性能,所以这里能够获得比vad准确率高很多的语音片段。
53.第3步:将第2步中得到的语音片段送入端到端说话人日志系统(以下简称:e2e-sd。e2e-sd是事先使用有说话人标注的语音训练的,能够做说话人聚类的模型),得到每个片段的聚类结果。参考图3,结果如图4所示,语音片段局部聚类结果示意图:
54.5s-13s的语音片段被标出了2个说话人,时间抽上对应的说话人id分别为:s1,s2,s1;
55.23s-33s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s3,s2;
56.43s-50s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s1,s2,s1;
57.65s-75s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s1,s2,s1,s3,s2。
58.上述每个片段被标出的说话人id各自独立编号。这样就得到了更小的语音片段,每个片段是一个独立的说话人。以下称该片段:局部聚类的语音片段。所谓局部聚类的意思是,已经被e2e-sd给出一个speaker id,但是这个id不是全局的。
59.第4步:将第3步得到的局部聚类片段的说话人id统一编号,如图5中箭头所示,5s-13s的语音片段被标出了2个说话人,时间抽上对应的说话人id分别为:s1,s2,s1;
60.23s-33s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s11,s12,s13,s12;
61.43s-50s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s21,s22,s21,s22,s21;
62.65s-75s的语音片段被标出了3个说话人,时间抽上对应的说话人id分别为:s41,s42,s41,s43,s42。
63.第5步,将第4步的语音片段送入基于层次聚类的聚类系统中进行全局聚类。过程如下:
64.步骤5.1,提取每个片段的说话人embedding信息。使用基于tdnn的深度神经网络声纹提取器x-vector,如图7所示,度神经网络声纹模型结构示意图,提取语音片段的embedding信息。
65.步骤5.2,使用embedding计算片段之间的相似度(plda score)。
66.步骤5.3,根据局部聚类结果修改片段之间的相似度,假如两个片段在第4步中属于同一类,那么设置其相似度为无穷大,假如两个片段在第4步中属于不同类,那么设置其相似度为无穷小。
67.步骤5.4,全局聚类:用5.2和5.3计算得到的相似度的相反数作为cost,进行ahc聚类,这样就完成将所有语音片段统一分组。
68.通过本技术提供的实施例,使用语音识别引擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用vad对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率。以及使用e2e-sd对语音识别引擎判断出的语音片段进行一个初步的说话人聚类,在全局聚类的过程中,利用初步聚类结果,会极大的降低聚类的混淆错误。在内部数据集上测试,混淆错误从26.5%-》12%。
69.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
70.在本实施例中还提供了一种说话人分割聚类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
71.图7是根据本发明实施例的说话人分割聚类装置的结构框图,如图7所示,该说话人分割聚类装置包括:
72.第一语音识别单元71,用于使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间。
73.确定单元73,用于基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段。
74.局部聚类单元75,用于将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息。
75.全局聚类单元77,用于将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
76.通过本技术提供的实施例,第一语音识别单元71使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间;确定单元73基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段;局部聚类单元75将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息;全局聚类单元77将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。在本实施例中,使用语音识别引擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用vad对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。
77.可选的,上述全局聚类单元77,可以包括:提取模块,用于将局部聚类语音片段输入全局聚类模型中,提取局部聚类语音片段的语音特征;计算模块,用于基于语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;全局聚类模块,用于将相似度的相反数作为损失函数,进行全局聚类,得到说话人分类聚类语音片段。
78.可选的,上述装置还可以包括:获取单元,用于使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间之前,获取目标说话人的原始语音片段;处理单元,用于对原始语音片段进行降噪处理,得到目标语音。
79.可选的,上述装置还可以包括:第二语音识别单元,用于将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,根据说话人分类聚类语音片段,进行语音识别,得到目标语音文本。
80.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
81.本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
82.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
83.s1,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间;
84.s2,基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段;
85.s3,将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息;
86.s4,将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
87.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
88.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
89.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
90.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
91.s1,使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及文本中每个字的开始时间和结束时间;
92.s2,基于开始时间和结束时间出语音与非语音的分界点,确定目标语音中包括的语音片段;
93.s3,将语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,标识信息为用于区分不同说话人的信息;
94.s4,将局部聚类语音片段和标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。
95.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
96.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
97.以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种说话人分割聚类方法,其特征在于,包括:使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间;基于所述开始时间和所述结束时间出语音与非语音的分界点,确定所述目标语音中包括的语音片段;将所述语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,所述语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,所述标识信息为用于区分不同说话人的信息;将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。2.根据权利要求1所述的方法,其特征在于,所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段,包括:将所述局部聚类语音片段输入全局聚类模型中,提取所述局部聚类语音片段的语音特征;基于所述语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;将相似度的相反数作为损失函数,进行全局聚类,得到所述说话人分类聚类语音片段。3.根据权利要求1所述的方法,其特征在于,所述使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间之前,所述方法还包括:获取目标说话人的原始语音片段;对所述原始语音片段进行降噪处理,得到所述目标语音。4.根据权利要求1所述的方法,其特征在于,所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,所述方法还包括:根据所述说话人分类聚类语音片段,进行语音识别,得到目标语音文本。5.一种说话人分割聚类装置,其特征在于,包括:第一语音识别单元,用于使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间;确定单元,用于基于所述开始时间和所述结束时间出语音与非语音的分界点,确定所述目标语音中包括的语音片段;局部聚类单元,用于将所述语音片段输入至语音聚类模型中,对每个语音片段进行聚类,得到局部聚类语音片段以及每个局部聚类语音片段的标识信息,其中,所述语音聚类模型是预先使用说话人标注的语音训练得到的,每个局部聚类语音片段对应一个独立的说话人,所述标识信息为用于区分不同说话人的信息;全局聚类单元,用于将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段。6.根据权利要求5所述的装置,其特征在于,所述全局聚类单元,包括:提取模块,用于将所述局部聚类语音片段输入全局聚类模型中,提取所述局部聚类语
音片段的语音特征;计算模块,用于基于所述语音特征计算每个局部聚类语音片段之间的相似度,其中,两个片段属于同一类,设置其相似度为无穷大,两个片段属于不同类,设置其相似度为无穷小;全局聚类模块,用于将相似度的相反数作为损失函数,进行全局聚类,得到所述说话人分类聚类语音片段。7.根据权利要求5所述的装置,其特征在于,所述装置还包括:获取单元,用于所述使用语音识别引擎对目标语音进行语音识别,得到识别的文本结果以及所述文本中每个字的开始时间和结束时间之前,获取目标说话人的原始语音片段;处理单元,用于对所述原始语音片段进行降噪处理,得到所述目标语音。8.根据权利要求5所述的装置,其特征在于,所述装置还包括:第二语音识别单元,用于所述将所述局部聚类语音片段和所述标识信息输入全局聚类模型中,得到说话人分类聚类语音片段之后,根据所述说话人分类聚类语音片段,进行语音识别,得到目标语音文本。9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4或5任一项中所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4或5任一项中所述的方法。
技术总结
本发明公开了一种说话人分割聚类方法、装置、存储介质及电子装置。其中,该说话人分割聚类方法包括:使用语音识别引擎对输入语音进行分割,能够更准确的区分语音和非语言,改善了使用VAD对语音进行分割错误率高的问题,从而提高后面聚类模块的正确率,从而降低整个说话人分割系统的错误率,以至少解决现有技术中,说话人分割聚类准确率较低的技术问题。说话人分割聚类准确率较低的技术问题。说话人分割聚类准确率较低的技术问题。
技术研发人员:
王明明 梁家恩
受保护的技术使用者:
云知声智能科技股份有限公司
技术研发日:
2022.05.14
技术公布日:
2022/9/2