唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质与流程

阅读: 评论:0


唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质
1.本技术要求于2021年6月9日提交中国国家知识产权局、申请号202110643378.3、申请名称为“唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本技术中。
技术领域
2.本技术涉及人工智能领域中的唇语识别技术,特别是指一种唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质。


背景技术:



3.唇语识别将计算机视觉和自然语言处理相结合,仅通过视频中说话人的面部特征便可解读发言内容。在智能人机交互、音频损坏等领域有良好应用,同时在听障失语者领域和强噪声环境下目标语言的捕获识别具有很重要的现实意义。
4.随着深度学习和大规模数据集的蓬勃发展,基于唇语识别模型的唇语识别技术在词语或者句子级别的识别任务上,相较于传统的唇语识别技术,性能有了大幅提升。然而,因不同硬件设备存在差异,不同人说话时唇部静态、动态特征和语言习惯等方面也存在差异,导致唇语识别模型针对不同人的识别准确率差异较大,导致各类人的唇语识别准确率差异较大。


技术实现要素:



5.鉴于现有技术的以上问题,本技术提供一种唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质,能够自动完成唇语识别样本的标注,提升唇语识别模型的识别准确性,进而提高各类人的唇语识别准确率。
6.为达到上述目的,本技术第一方面提供了一种样本标注方法,应用于电子设备,样本标注方法包括:
7.用户对着电子设备说话的过程中,获取用户的视频和音频;
8.提取视频中的唇动视频片段和音频中的语音片段;
9.选择与语音片段匹配的唇动视频片段;
10.以语音片段的语音识别文本作为标签对唇动视频片段进行标注,得到用户的唇语识别样本。
11.通过同时获取用户说话时的视频和音频,利用音频中语音片段的语音识别结果作为视频中相应唇语视频片段的标签。由此,无需用户参与便可自动完成唇语识别样本的标注,提高样本标注效率、准确性的同时实现了样本的个性化标注。
12.作为第一方面的一种可能的实现方式,方法还包括如下之一或多项:检测环境噪声的音量;获取用户的唤醒语音置信度;检测摄像头的视野范围内是否包含人脸或人嘴;获取视频中的说话人位置和音频的声源定位方向;其中,获取用户的视频和音频,具体包括:
在环境噪声的音量等于或小于预设的噪声阈值、唤醒语音置信度大于或等于预设的第一置信度阈值、摄像头的视野范围内包含人脸或人嘴、和/或视频的说话人位置和音频的声源定位方向匹配时,获取用户的视频和音频。
13.由此,可避免因语音质量欠佳、环境噪声的影响、视频质量欠佳和/或音视频不同步等造成的样本标签不准确的问题,可有效提升样本标注的准确性。
14.作为第一方面的一种可能的实现方式,提取视频中的唇动视频片段和音频中的语音片段,包括:通过唇动人声区间检测方式对视频进行端点检测和切分,得到唇动视频片段和唇动视频片段的人声区间;和/或,通过语音人声区间检测方式对音频进行端点检测和切分,得到语音片段和语音片段的人声区间。由此,通过端点检测来实现视频和音频的切分,可同时获得相应的人声区间,以便确定语音片段和唇动视频片段之间的匹配关系,换言之,以便寻到对应同一说话内容的语音片段和唇动视频片段。
15.作为第一方面的一种可能的实现方式,选择与语音片段匹配的唇动视频片段,包括:根据语音片段的人声区间和唇动视频片段的人声区间,确定语音片段与唇动视频片段在时间维度上的重叠长度;在语音片段与唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,语音片段与唇动视频片段是匹配的。由此,通过人声区间确定语音片段和唇动视频片段在时间维度上的重叠长度,可以高效快速且较为准确地各条语音片段匹配的唇动视频片段,也即,可以高效快速且较为准确地到对应同一说话内容的语音片段和唇动视频片段。
16.作为第一方面的一种可能的实现方式,方法还包括:在与语音片段匹配的唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的唇动视频片段,唇语识别置信度是根据预先获得的唇语识别模型对唇动视频片段进行唇语识别而得到的。由此,可以选取“最不确定”或者“携带最大信息”的唇动视频片段作为唇语识别样本,为后续唇语识别模型的有迁移学习和迭代优化提供了有监督的样本。
17.作为第一方面的一种可能的实现方式,唇动视频片段包括唇动图像序列,唇动图像序列中图像帧为唇部区域图像。
18.本技术第二方面提供了一种模型训练方法,应用于电子设备,包括:利用第一方面的样本标注方法获得的唇语识别样本,更新唇语识别模型的参数。由此,使用语音模态辅助视觉模态进行自动标注和模型优化,实现了唇语识别模型的自监督、个性化和主动学习,提升了唇语识别模型的识别准确率和个性化程度,并且整个过程无需用户参与,提升了用户体验。
19.作为第二方面的一种可能的实现方式,唇语识别模型包括通用特征层和可训练层,唇语识别模型的参数包括可训练层参数和通用特征层参数;更新唇语识别模型的参数,具体为:更新唇语识别模型的可训练层参数。由此,通过对每个用户更新唇语识别模型的可训练层参数,不仅训练效率更高,而且每个用户的唇语识别模型参数数据量相对较少,有利于节省硬件资源。
20.作为第二方面的一种可能的实现方式,模型训练方法还包括:将可训练层参数与用户的预设信息关联后保存。通过将唇语识别模型的可训练层参数与用户的预设信息关联,可以方便地通过用户的预设信息快速到用户的唇语识别模型参数。
21.作为第二方面的一种可能的实现方式,模型训练方法还包括:将用户的预设信息
存储于已注册信息数据库中;将关联预设信息的可训练层参数存储于唇语模型库。由此,可方便地通过用户的预设信息确认用户的唇语识别模型参数是否存在,并通过用户的预设信息快速到用户的唇语识别模型参数。
22.作为第二方面的一种可能的实现方式,更新唇语识别模型的参数之前,还包括:通过对比唇语识别样本的唇语识别文本和唇语识别样本的标签调整唇语识别模型的参数更新率,以得到对应唇语识别样本的参数更新率;其中,唇语识别文本是通过唇语识别模型对唇语识别样本进行唇语识别而获得的;更新唇语识别模型的参数,具体包括:利用唇语识别样本和对应唇语识别样本的参数更新率,更新唇语识别模型的参数。由此,可以提高唇语识别模型的优化效率,降低硬件资源消耗。
23.本技术第三方面提供了一种唇语识别方法,应用于电子设备,包括:检测到用户对着电子设备说话时,获取用户的视频;提取视频中的唇动视频片段;基于第二方面的模型训练方法得到的唇语识别模型的参数运行唇语识别模型,对唇动视频片段进行唇语识别,得到唇语识别文本。由此,可以通过电子设备高效完成各类人的唇语识别,同时提升各类人的唇语识别准确率。
24.作为第三方面的一种可能的实现方式,唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;基于模型训练方法得到的唇语识别模型的参数运行唇语识别模型以对所述唇动视频片段进行唇语识别,包括:获取用户的预设信息;获取与预设信息关联的可训练层参数;加载可训练层参数和预先配置的通用特征层参数,以运行唇语识别模型对唇动视频片段进行唇语识别。由此,通过说话人的预设信息便可快速查到说话人的可训练层参数,利用这些可训练层参数和供各类人共用的通用特征层参数运行唇语识别模型以对说话人进行唇语识别,相当于使用用户的定制唇语识别模型对用户进行唇语识别,从而有效提高唇语在垂域的针对个体的识别准确率。
25.作为第三方面的一种可能的实现方式,预设信息包括人脸id;获取用户的预设信息,具体包括:对视频进行人脸识别以获得用户的人脸特征数据,向已注册人脸数据库中查询对应所述人脸特征数据的人脸id。由此,通过视频即可获得用户的预设信息,有利于提升唇语识别的处理效率,并进一步提升个体的唇语识别准确率。
26.作为第三方面的一种可能的实现方式,基于模型训练方法得到的唇语识别模型的参数运行唇语识别模型以对所述唇动视频片段进行唇语识别,还包括:与预设信息关联的可训练层参数不存在时,加载本地存储的可训练层参数和通用特征层参数,以运行唇语识别模型对唇动视频片段进行唇语识别。由此,可以在用户的可训练层参数不存在时,使用通用的唇语识别模型参数完成唇语识别,相当于使用通用的唇语识别模型对用户进行唇语识别,从而可以通过电子设备高效完成各类人的唇语识别。
27.本技术第四方面提供了一种唇语识别装置,应用于电子设备,唇语识别装置包括:
28.视频获取单元,配置为在用户对着电子设备说话的过程中,获取用户的视频;
29.音频获取单元,配置为在用户对着电子设备说话的过程中,获取用户的音频;
30.唇动提取单元,配置为提取视频中的唇动视频片段;
31.语音提取单元,配置为提取音频中的语音片段;
32.选择单元,配置为选择与语音片段匹配的唇动视频片段;
33.标注单元,配置为以语音片段的语音识别文本作为标签对唇动视频片段进行标注,得到用户的唇语识别样本。
34.作为第四方面的一种可能的实现方式,唇语识别装置还包括如下之一或多项:
35.噪声检测单元,配置为检测环境噪声的音量;
36.唤醒语音置信度获取单元,配置为获取用户的唤醒语音置信度;
37.人脸检测单元,配置为检测摄像头的视野范围内是否包含人脸或人嘴;
38.定位单元,配置为获取视频中的说话人位置和音频的声源定位方向;
39.其中,视频获取单元,具体配置为:在环境噪声的音量等于或小于预设的噪声阈值、唤醒语音置信度大于或等于预设的第一置信度阈值、摄像头的视野范围内包含人脸或人嘴、和/或视频的说话人位置和音频的声源定位方向匹配时,获取用户的视频;和/或,
40.音频获取单元,具体配置为:在环境噪声的音量等于或小于预设的噪声阈值、唤醒语音置信度大于或等于预设的第一置信度阈值、摄像头的视野范围内包含人脸或人嘴、和/或视频的说话人位置和音频的声源定位方向匹配时,获取用户的音频。
41.作为第四方面的一种可能的实现方式,唇动提取单元具体配置为:通过唇动人声区间检测方式对视频进行端点检测和切分,得到唇动视频片段和唇动视频片段的人声区间;和/或,语音提取单元具体配置为通过语音人声区间检测方式对音频进行端点检测和切分,得到语音片段和语音片段的人声区间。
42.作为第四方面的一种可能的实现方式,选择单元具体配置为:根据语音片段的人声区间和唇动视频片段的人声区间,确定语音片段与唇动视频片段在时间维度上的重叠长度;在语音片段与唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,语音片段与唇动视频片段是匹配的。
43.作为第四方面的一种可能的实现方式,选择单元还配置为:在与语音片段匹配的唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的唇动视频片段,唇语识别置信度是根据预先获得的唇语识别模型对唇动视频片段进行唇语识别而得到的。
44.作为第四方面的一种可能的实现方式,唇动视频片段包括唇动图像序列,唇动图像序列中图像帧为唇部区域图像。
45.作为第四方面的一种可能的实现方式,唇语识别装置还包括:参数更新单元,配置为利用标注单元获得的唇语识别样本,更新唇语识别模型的参数。
46.作为第四方面的一种可能的实现方式,唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;参数更新单元具体配置为:更新唇语识别模型的可训练层参数。
47.作为第四方面的一种可能的实现方式,唇语识别装置还包括:存储单元,配置为将可训练层参数与用户的预设信息关联后保存。
48.作为第四方面的一种可能的实现方式,存储单元具体配置为:将用户的预设信息存储于已注册信息数据库中;以及,将关联所述预设信息的所述可训练层参数存储于唇语模型库。
49.作为第四方面的一种可能的实现方式,参数更新单元,具体配置为通过对比唇语识别样本的唇语识别文本和唇语识别样本的标签调整唇语识别模型的参数更新率,以得到对应唇语识别样本的参数更新率;利用唇语识别样本和对应唇语识别样本的参数更新率,
更新唇语识别模型的参数;其中,唇语识别文本是通过唇语识别模型对唇语识别样本进行唇语识别而获得的。
50.作为第四方面的一种可能的实现方式,视频获取单元,还配置为检测到用户对着电子设备说话时,获取用户的视频;唇语识别装置还包括:唇语识别单元,配置为根据参数更新单元更新得到的唇语识别模型的参数运行唇语识别模型以对唇动视频片段进行唇语识别,得到唇语识别文本。
51.作为第四方面的一种可能的实现方式,唇语识别模型包括通用特征层和可训练层,唇语识别模型的参数包括可训练层参数和通用特征层参数;唇语识别装置还包括:预设信息获取单元,配置为获取用户的预设信息;唇语识别单元具体配置为:获取用户的预设信息;获取与预设信息关联的可训练层参数,加载可训练层参数和预先配置的通用特征层参数,以运行唇语识别模型对唇动视频片段进行唇语识别。
52.作为第四方面的一种可能的实现方式,预设信息包括人脸id;预设信息获取单元,具体配置为:对视频中的图像帧进行人脸识别以获得用户的人脸特征数据,向已注册人脸数据库中查询对应所述人脸特征数据的人脸id。
53.本技术第五方面提供了一种电子设备,包括:处理器;以及,存储器,其存储有计算机程序,计算机程序当被处理器执行时使得处理器执行第一方面的样本标注方法、第二方面的模型训练方法和/或第三方面的唇语识别方法。
54.本技术第六方面提供了一种计算机可读存储介质,其上存储有程序指令,其特征在于,程序指令当被计算机执行时使得计算机执行第一方面的样本标注方法、第二方面的模型训练方法和/或第三方面的唇语识别方法。
55.本技术实施例通过同时捕获用户说话时的视频和音频,利用音频中语音片段的语音识别结果作为视频中相应唇语视频片段的标签,从而自动获得用户的唇语识别样本,通过用户的唇语识别样本优化或训练唇语识别模型,进而实现唇语识别模型的用户定制化,再通过唇语识别模型对用户进行唇语识别,最终有效提升了特定用户或特定场景的唇语识别准确率。
附图说明
56.以下参照附图来进一步说明本技术的各个特征和各个特征之间的联系。附图均为示例性的,一些特征并不以实际比例示出,并且一些附图中可能省略了本技术所涉及领域的惯常的且对于本技术非必要的特征,或是额外示出了对于本技术非必要的特征,附图所示的各个特征的组合并不用以限制本技术。另外,在本说明书全文中,相同的附图标记所指代的内容也是相同的。具体的附图说明如下:
57.图1是本技术实施例提供的样本标注方法的流程示意图。
58.图2是本技术实施例中唇动视频片段和语音片段在时间维度上重叠的示意图。
59.图3是本技术实施例提供的模型训练方法的流程示意图。
60.图4是本技术实施例提供的唇语识别方法的流程示意图。
61.图5是本技术实施例提供的唇语识别装置的流程示意图。
62.图6是本技术实施例一示例性应用场景中样本标注、模型训练的实现过程示意图。
63.图7是本技术实施例中唇语识别、模型训练和样本标注的示例性具体实施流程示
意图。
64.图8是本技术实施例提供的电子设备的结构示意图。
65.图9是本技术实施例提供的电子设备的示例性结构示意图。
66.图10是本技术实施例提供的电子设备的示例性软件架构示意图。
具体实施方式
67.说明书和权利要求书中的词语“第一、第二、第三等”或模块a、模块b、模块c等类似用语,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
68.在以下的描述中,所涉及的表示步骤的标号,如s110、s120
……
等,并不表示一定会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行。
69.说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容;它不排除其它的元件或步骤。因此,其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在,但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组。因此,表述“包括装置a和b的设备”不应局限为仅由部件a和b组成的设备。
70.本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例,但可以指同一实施例。此外,在一个或多个实施例中,能够以任何适当的方式组合各特定特征、结构或特性,如从本公开对本领域的普通技术人员显而易见的那样。
71.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。如有不一致,以本说明书中所说明的含义或者根据本说明书中记载的内容得出的含义为准。另外,本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
72.为了准确地对本技术中的技术内容进行叙述,以及为了准确地理解本技术,在对具体实施方式进行说明之前先对本说明书中所使用的术语给出如下的解释说明或定义。
73.语音识别(automatic speech recognition,asr)模型,能够将语音识别为文本的一种机器学习模型。
74.人声区间检测(voice activity detection,vad)模型,利用端点检测算法识别人说话的起始点和结束点,进而将语音或视频切分成为多个连续的片段,可实现人声段和非人声段的判别。通俗来讲,端点检测是为了从带有噪声的语音或视频中准确的定位出人声的开始点和结束点,到一段真正包含人声内容的语音片段或视频片段。
75.声源定位技术,采用声源定位算法确定物体(例如,说话人)的方向或位置的技术。本技术实施例中,声源定位技术采用基于麦克风阵列的声源定位算法,该声源定位算法可以是基于波束形成的声源定位算法、基于高分辨率谱估计的声源定位算法、或者基于声达时延差的声源定位算法。
76.目前,唇语识别模型通常采用基于监督的深度学习网络来实现。为使唇语识别模型适应具体场景的需要或特定用户的个人习惯,往往需要针对特定场景或特定用户采集带
有标签的样本(即标注样本)来对唇语识别模型进行微调,只有带标签的样本规模大,唇语识别模型的性能才可得到有效提高,唇语识别准确率低的情况才能得以解决。然而,目前唇语识别模型的样本通常是人工采集和标注,特定场景或特定用户的样本采集难度大、标注时间成本高、标注准确率低,这导致唇语识别模型优化难,唇语识别模型的性能难以得到有效提升,特定场景或特定用户的唇语识别准确率低的问题也就难以得到解决。此外,因已标注的样本通常携带涉及用户隐私的信息,因此,预先采集大量带有标签的样本,将不利于用户隐私的保护。
77.鉴于此,本技术实施例提供了如下的唇语识别方法、样本识别方法、模型训练方法及装置、设备、计算机可读存储介质,本技术实施例通过同时捕获用户说话时的视频和音频,利用音频中语音片段的语音识别结果作为视频中相应唇语视频片段的标签,从而自动获得用户的唇语识别样本,通过用户的唇语识别样本优化或训练唇语识别模型,进而实现唇语识别模型的用户定制化,再通过唇语识别模型对用户进行唇语识别,最终有效提升了特定用户或特定场景的唇语识别准确率。
78.本技术实施例,无需用户参与便可自动完成唇语识别样本的标注,效率高、准确性高,并且可适应不同场景和不同用户来生成特定的唇语识别样本,实现了样本标注的个性化。此外,本技术实施例的整个过程对用户无感,无须针对特定用户进行提前标定,也无需抛出问题让专家来确定标签,更加友好,可有效提升用户体验。本技术实施例通过样本的自动标注,实现了唇语识别模型的自监督主动学习和个性化,可有效提升唇语识别模型的定制化及其针对特定用户或特定场景的识别准确率,进而提高各类场景、各类人的唇语识别准确率。
79.本技术实施例可适用于各类需要进行唇语识别的场景。具体地,本技术实施例可适用于人对着电子设备说话的各类场景。例如,通过说话唤醒电子设备、使用电子设备通话、使用电子设备进行互动游戏、使用电子设备做家务或其他日常活动、通过向电子设备说话控制电子设备(例如,播放媒体内容等)或其他类似场景。
80.本技术实施例可适用于各类电子设备,关于电子设备的具体细节可参见下文相关描述,此处不再赘述。
81.本技术实施例的下述方法可通过电子设备独立实现,也可通过包含有电子设备和云端服务器的系统来实现。一些实施例中,本技术实施例的样本标注、模型训练和唇语识别均可通过电子设备完成,这样,无需上传用户的唇语识别样本便可进行唇语识别模型的训练和基于唇语识别模型的唇语识别,可以确保数据不出局,有利于保护用户隐私。一些实施例中,本技术实施例的样本标注和唇语识别可通过电子设备完成,电子设备可以将本地得到的唇语识别样本提供给云端服务器,由云端服务器更新唇语识别模型的参数并将唇语识别模型的参数下发到电子设备。这样,可以将模型训练等计算复杂度可能相对较高、数据量可能会较大的处理交由计算能力较强大的云端服务器来实现,有利于提高处理效率,减少电子设备的资源消耗。
82.下面对本技术实施例的具体实施方式进行详细说明。
83.图1示出了本技术实施例提供的样本标注方法的流程示意图。本技术实施例的样本标注方法可通过电子设备执行,关于电子设备的技术细节可参见下文相关描述。参见图1所示,本技术实施例的样本标注方法可以包括如下步骤:
84.步骤s110,用户对着电子设备说话的过程中,获取用户的视频和音频。
85.视频可通过电子设备的摄像头采集。为避免采集到的视频缺失关键帧,用户的嘴部或整个脸部需要在摄像头的视野范围内。一些实施例中,为便于通过视频同时获取用户的预设信息,优选将用户的整个脸部纳入摄像头的视野范围中。用户对着电子设备说话时,电子设备检测到用户在说话,即开始采集用户的视频,视频包含用户说话过程中的嘴部动作,若检测不到唇动则可以停止视频和音频的采集。这里,可以通过对摄像头采集的包含用户嘴部或脸部的图像进行唇动特征检测,来实现用户是否在说话的检测。
86.音频可通过电子设备的麦克风采集。用户对着电子设备说话时,电子设备检测到用户在说话,即控制麦克风采集用户的音频,该音频中至少包含了用户说话的语音。若检测不到唇动则可以停止音频的采集。
87.视频和音频的具体格式、长度等,本技术实施例不予限制。音频可以是短音频或长音频,例如,音频可以是30s的音频、包含一句话的音频、十几分钟的音频、包含一段话的音频、或者包含一篇文章的音频。视频可以是短视频或长视频,例如,视频可以是30s的视频、包含一句话的所有嘴部运动的视频、十几分钟的视频、包含一段话的视频、或者包含一篇文章的视频。
88.举例来说,对于“通过说话唤醒电子设备”或“通过说话控制电子设备”的场景来说,音频可以是包含一句唤醒词或一句语音指令的音频,视频可以包含说唤醒词过程中的嘴部运动图像序列或说语音指令的嘴部运动图像序列。对于“使用电子设备通话”的场景来说,音频可以包含某次通话的完整语音,视频可以包含某次通话过程中的嘴部运动视频。
89.一些实施例中,本步骤采集的视频和音频可以是定长的。这里,可以根据具体应用场景、电子设备的处理能力、vad模型的限制、asr模型的限制、用户需求等各种因素,灵活设置音频和视频的定长长度。这样,每采集一定长度的视频和相应长度的音频之后便跳转到后续步骤进行处理,如此,可以在用户说话的过程中,实时采集音频和视频的同时实时生成唇语识别样本。此外,还便于多段视频和多段音频并行处理,有利于提高处理效率、节省时间和提升电子设备的硬件资源利用率。
90.用户发出的语音质量欠佳的情况下(例如,人声太低、说话含糊不清、识别文本质量不佳等),语音片段的识别准确率将会受到影响,导致其语音识别结果不够准确,进而可能降低唇语识别样本中标签的准确性。为避免该问题,在步骤s120或步骤s110之前,还可以包括:获取用户的唤醒语音置信度。如此,可以将唤醒语音置信度与预设的第一置信度阈值比较,在唤醒语音置信度大于或等于第一置信度阈值时,执行步骤s110,获取用户的视频和音频。如果唤醒语音置信度小于第一置信度阈值,说明用户当前发出的语音质量欠佳,可以不执行唇语识别样本的标注处理,也即可以不执行步骤s110,或者直接舍弃该段视频及其相关音频,不再执行步骤s120及后续处理。由此,通过唤醒语音的置信度和一阈值便可避免因语音质量欠佳而造成标签准确性低的问题,可有效提升样本标注的准确性,而且易于实现,便于根据实际情况灵活调整。
91.唤醒语音是指用户发出的、用于唤醒电子设备的语音。唤醒语音置信度可以通过对唤醒语音进行语音识别而获得。通过唤醒语音唤醒电子设备时,电子设备需要对唤醒语音进行语音识别以获得唤醒语音的内容和唤醒语音置信度。通常,在唤醒语音置信度大于或等于预设的唤醒阈值且唤醒语音的内容中包含预设的唤醒词或唤醒语句时,电子设备被
唤醒。
92.通常,语音置信度越高,语音质量越好。一些实施例中,第一置信度阈值可以是大于唤醒阈值的值,这样,可以在用户语音质量较佳的情况下执行本技术实施例的样本标注,从而获得质量佳且标签准确性较高的唇语识别样本。例如,唤醒置信度阈值通常设置为0.5或更低的数值,本技术实施例的第一置信度阈值可以设置为0.7、0.8、0.85等较高的数值。具体应用中,可以根据具体应用场景、语音端点检测的精度、语音识别的精度、用户需求等一个或多个因素,灵活设置第一置信度阈值的具体取值。对于第一置信度阈值的具体配置方式和确定方式,本技术实施例不予限制。
93.音频中可能包含环境噪声,为避免环境噪声影响语音片段的识别准确率,进而降低样本标签的准确性,在步骤s120或步骤s110之前,还可以包括:检测环境噪声的音量。如此,可以将所述环境噪声的音量与预设的噪声阈值比较,在环境噪声小于或等于该噪声阈值时,执行步骤s110,获取用户的视频和音频。如果环境噪声大于该噪声阈值,说明环境噪声可能对语音片段的语音识别造成干扰,此时,可以不执行唇语识别样本的标注处理,也即可以不执行步骤s110,或者直接舍弃该段视频及其相关的音频,不再执行步骤s120及其之后的处理。由此,通过测量环境噪声音量和设置一阈值便可避免环境噪声对语音片段的语音识别结果造成影响,从而提高唇语识别样本中标签的准确性,该方法易于实现,并且便于根据实际情况灵活调整。
94.环境噪声可以通过电子设备内置的分贝仪或外接的音量检测仪来检测。一些实施例中,可以在步骤s110之前、步骤s120之前或步骤s120之后的预定时段(例如,1秒、2秒、0.5秒)检测环境噪声,这样,检测到的环境噪声音量与用户说话时的环境噪声音量最为接近,准确性更高。
95.实际应用中,可以根据具体应用场景、语音端点检测的精度、步骤s140中语音识别的精度、用户需求等一个或多个因素,灵活设置环境噪声的噪声阈值。一些实施例中,环境噪声的噪声阈值可以是一经验值,通过对语音片段的语音识别结果进行分析和统计来得到。一些实施例中,噪声阈值可以是一动态值、或人为设置的固定值。对于噪声阈值的具体配置方式和确定方式,本技术实施例不予限制。
96.为避免视频中关键帧(例如,用户说话过程中某个关键唇部动作的图像帧)的缺失,确保视频中包含用户脸部或用户嘴部,在步骤s110或者步骤s120之前,还可以包括:检测摄像头的视野范围内是否包含人脸或人嘴,摄像头用于采集步骤s110中的视频。如果人脸或人嘴不在摄像头的视野范围内,很可能会造成关键帧的缺失,此时,可不执行本技术实施例的样本标注,如果人脸或人嘴在摄像头的视野范围内,则可以继续本技术实施例的样本标注,执行步骤s110及其后续步骤。
97.可以采用各种可适用的方式检测摄像头的视野范围内是否包含人脸或人嘴。一些实施例中,可以通过检测摄像头采集的图像中是否包含人的脸部特征或人的嘴部特征,如果包含人的脸部特征,说明摄像头的视野范围内包含,如果包含人的嘴部特征,说明摄像头的视野范围内包含人嘴。这里,人的脸部特征、嘴部特征可以通过通用的人脸特征识别算法、嘴部检测算法或预先训练的神经网络模型来实现。
98.可选地,为便于通过步骤s110中的视频获取用户的预设信息(例如,下文的人脸id),可以在摄像头的视野范围内包含人脸。
99.为确保步骤s110中视频中的说话人和音频的声源相同,在步骤s110或者步骤s120之前,还可以包括:获取视频中的说话人位置和音频的声源定位方向。这里,声源定位方向可以指示说话人相对于电子设备的方位(相对于电子设备中麦克风的方位),说话人位置可以指示说话人相对于电子设备的位置(例如,相对于电子设备中摄像头的位置)。由此,可以将所述说话人位置与所述声源定位方向比较,如果视频中的说话人位置和音频的声源定位方向匹配,说明视频中的说话人和音频的声源相同,此时,可继续本技术实施例的样本标注,即可以执行步骤s110,获取用户的视频和音频。如果视频中的说话人位置和音频的声源定位方向不匹配,说明视频中的说话人和音频的声源不同,此时,可不执行本技术实施例的样本标注,也即可以不执行步骤s110,或者直接舍弃该段视频及其相关的音频,不再执行步骤s120及后续处理。本技术实施例中,在视频中说话人和音频声源一致的前提下进行样本标注,可以提升唇语识别样本的准确性。
100.音频的声源定位方向可以通过声源定位技术来得到。视频中的说话人位置可以是但不限于视频中的人脸位置或人嘴位置,可以通过诸如人体特征检测算法、图像识别算法等对视频进行人脸识别来获得。
101.步骤s120,提取视频中的唇动视频片段和音频中的语音片段。
102.步骤s120之前,还可包括:对视频进行切割。具体地,该切割可以包括:检测并提取视频中嘴部运动时段内图像帧的唇部区域,形成一个或多个嘴部运动视频。实际应用中,可采用各种可适用的方法实现该预处理,例如可通过聚类、基于神经网络的特征提取模型等。由此,可减小视频中图像帧的大小,降低计算复杂度和数据量,提高处理效率,节省硬件资源。
103.具体地,可以通过对视频中各个图像帧进行唇动特征检测,基于唇动特征检测的结果,以每个人脸区域位为单位,提取嘴部运动时段内各图像帧的唇部区域,形成每个人的嘴部运动视频。比如,原始采集的视频中图像帧规格可能是1980*1024,经过切割之后得到的嘴部运动视频中图像帧规格可以是112*112,可见,图像数据得到了大幅缩减。
104.步骤s120中,可以通过唇动人声区间检测方式对视频(例如,切割后的嘴部运动视频)进行端点检测和切分,得到唇动视频片段和唇动视频片段的人声区间。具体地,可以通过唇动vad模型或vad算法来对切割得到的嘴部运动视频进行端点检测和切分,得到唇动视频片段和唇动视频片段的vad值(即唇动视频片段的人声区间)。这里,唇动视频片段的vad值可以指示唇动视频片段的起始点和结束点,唇动视频片段中的图像帧为唇部区域图像。
105.步骤s120中,可以通过语音人声区间检测方式对音频进行端点检测和切分,得到语音片段和语音片段的人声区间。具体地,可以通过语音vad模型或vad算法来对音频进行端点检测和切分,得到语音片段和语音片段的vad值(即语音片段的人声区间)。这里,语音片段的vad值可以指示语音片段的起始点和结束点。
106.本技术实施例中,唇动vad模型或vad算法、对音频进行端点检测和切分的语音vad模型或vad算法,可以采用基于短时能量和过零率的端点检测方法、基于神经网络模型分类语音和非语音的方法或其他可适用的任何端点检测方法。对此,本技术不予限制。
107.本技术实施例中,唇动视频片段和语音片段的长度可以由所采用的vad模型或vad算法来决定。例如,唇动视频片段可以包括但不限于一句话的唇动图像序列或者一个单词的唇动图像序列,语音片段可以包括但不限于一句话的语音段或者一个单词的语音。唇动
视频片段和语音片段的长度可以相同、也可以不同。这里,唇动图像序列中的图像帧是唇部区域图像。
108.步骤s120中,唇动视频片段的提取和语音片段的提取可以同步进行,也可按照一定的先后顺序执行。步骤s120中,使用vad算法,可以在实现视频和音频的切分的同时,获得人声区间值(vad值),以便到对应同一说话内容(例如,用户说出的同一句话或同一词语)的唇动视频片段和语音片段,从而确定各个语音片段和各个唇动视频片段之间的匹配关系。
109.步骤s130,选择与语音片段匹配的唇动视频片段。
110.一些实施例中,可以根据唇动视频片段的人声区间和语音片段的人声区间,确定各个语音片段匹配的唇动视频片段,并将各个语音片段匹配的唇动视频片段作为候选唇动视频片段。
111.通常,只要时间维度上存在一定程度的重叠,即可认为唇动视频片段与语音片段是同步的,也即唇动视频片段与语音片段是对应了同一说话人的同一句话或同一单词。因此,可以通过时间维度上的重叠程度来到与语音片段匹配的唇动视频片段。
112.一些实施例中,步骤s130可以包括:根据唇动视频片段的人声区间(例如,vad值)和语音片段的人声区间(例如,vad值),确定唇动视频片段和语音片段在时间维度上的重叠长度,在语音片段与唇动视频片段在时间维度上的重叠长度大于或等于预先设定的时长阈值时,唇动视频片段与语音片段是匹配的,若语音片段与唇动视频片段在时间维度上的重叠长度小于时长阈值,唇动视频片段与语音片段是不匹配的。换言之,语音片段与其匹配的唇动视频片段满足:在时间维度上的重叠长度大于或等于预先设定的时长阈值。如此,可以高效准确地到各个语音片段匹配的唇动视频片段,或者说可以高效准确地确定唇语视频片段和其同步的语音片段。
113.可以根据具体应用场景、vad模型或vad算法的精度、语音片段的长度、用户需求等一个或多个因素,设置时长阈值的具体取值。一些实施例中,该时长阈值可以为语音片段长度的预定比例。举例来说,语音片段的长度为20s,预定比例是80%,那么该时长阈值即为16s。实际应用中,语音片段的长度通常是动态变化的,因此,通过预定比例和语音片段长度来实时确定时长阈值,可以更高效、准确地到语音片段所匹配的唇动视频片段,有利于提高唇语识别样本的标注准确性。
114.举例来说,图2示出了语音片段与唇动视频片段在时间维度t上的重叠长度的示意图。参见图2所示,假设通过唇动vad模型获取唇动视频片段在时间维度t上的起始点y1、结束点y2,唇动视频片段的人声区间值s1可以表示[y1,y2],通过语言vad模块获取语音片段在时间维度t上的起始点x1、结束点x2,语音片段的人声区间值s2可以表示[x1,x2],当s1和s2在时间维度上的重叠长度s12[x1,y2]大于或等于预先设定的时长阈值时,唇语视频片段与语音片段匹配,也就是说,唇动视频片段可以作为候选的唇动视频片段。
[0115]
步骤s130之后,还可以包括:在与语音片段匹配的唇动视频片段中(也即步骤s130得到的所有候选唇动视频片段中),选择唇语识别置信度小于预设的第二置信度阈值的唇动视频片段,唇语识别置信度是根据预先获得的唇语识别模型对该唇动视频片段进行唇语识别而得到的。这样,可以选取“最不确定”或者“携带最大信息”的唇动视频片段作为唇语识别样本,也即可以选取出负样本,形成负样本集,使得最终获得的唇语识别样本是模型最
难区分的样本或者是对模型提升最大的样本,为后续针对特定唇语识别模型的优化提供了有监督的样本,或者说针对特定人的唇语识别模型的有迁移学习和迭代优化提供了有监督的样本。
[0116]
类似地,步骤s130之后,还可以包括:在与语音片段匹配的唇动视频片段中(也即步骤s130得到的所有候选唇动视频片段中),也可以选择唇语识别置信度大于预设的第三置信度阈值的唇动视频片段。这样,可以选取出正样本,形成正样本集,使得最终获得的唇语识别样本是利于训练出唇语识别模型的样本,为后续针对特定唇语识别模型的优化或新唇语识别模型的训练提供了有监督的样本,或者说针对特定人的唇语识别模型的有迁移学习和迭代优化提供了有监督的样本。
[0117]
这里,可以通过与用户的预设信息关联的唇语识别模型参数对用户的唇动视频片段进行唇语识别来得到唇动视频片段的置信度。或者,可以通过通用的唇语识别模型参数对用户的唇动视频片段进行唇语识别来得到唇动视频片段的置信度。
[0118]
可以根据具体应用场景、vad模型或vad算法的精度、语音片段的长度、用户需求等一个或多个因素,设置第二置信度阈值和/或第三置信度阈值的具体取值。举例来说,第二置信度阈值可以是0.5、0.4、0.3或其他任意小于1的值。第三置信度阈值可以是0.5、0.6、0.7或其他任意小于1的值。
[0119]
步骤s140,以语音片段的识别文本作为标签对唇语识别片段进行标注,得到用户的唇语识别样本。
[0120]
仍以图2为例,步骤s140中,将人声区间值为s2[x1,x2]的语音片段进行语音识别得到一识别文本,将该识别文本作为人声区间值为s1[y1,y2]的唇动视频片段的标签(label)对该唇动视频片段进行标注,便形成了一个唇动识别样本。
[0121]
步骤s140中或之前,可以通过预先获得的asr模型对语音片段进行语音识别,得到语音片段的识别文本,识别文本中包含语音片段中的话语内容。步骤s140中,以语音片段的识别文本作为标签对该语音片段匹配的唇语识别片段进行标注,即可得到用户的唇语识别样本。这里,asr模型可以是基于神经网络的asr模型或其他任何类型的asr模型。
[0122]
实际应用中,语音识别可以通过电子设备来执行。或者,可由电子设备将语音片段上传至云端服务器,由云端服务器对与语音片段进行语音识别、语义解析等处理并将获得的识别文本下发给电子设备,由电子设备对唇语识别片段进行标注。为保护用户的个人隐私,避免数据出局带来的风险,优选通过电子设备完成语音片段的语音识别。
[0123]
步骤s140中,还可以根据语音片段的置信度对唇动视频片段进行筛选。具体地,将语音片段的置信度与预设的第三置信度阈值比较,如果语音片段的置信度大于或等于第三置信度阈值,则保留该语音片段匹配的唇动视频片段,如果语音片段的置信度小于第三置信度阈值,则丢弃该语音片段匹配的唇动视频片段。如此,可以选择语音质量较佳的语音片段对应的唇动视频片段作为唇语识别样本,可以提升唇语识别样本的准确性。
[0124]
本技术实施例中,电子设备可以自动采集说话人的视频和音频,通过vad、语音识别等技术自动切割出说话人的唇动视频片段并标注出正负样本,也即可以使用语音模态辅助视觉模态进行自动标注,为针对说话人的有监督迁移学习和迭代优化提供了唇语识别的样本。此外,上述的整个过程对用户无感,无须针对特定用户进行提前标定,也无需抛出问题让专家确定数据的标签,更加友好,还可有效提升用户体验。
[0125]
图3示出了本技术实施例提供的模型训练方法的流程示意图。本技术实施例的模型训练方法可通过电子设备执行,参见图3所示,本技术实施例的模型训练方法可以包括如下步骤s110~步骤s140,以及步骤s150。
[0126]
步骤s150,利用步骤s140得到的唇语识别样本,更新唇语识别模型的参数。
[0127]
本技术实施例中的唇语识别模型可以是任何类型的模型。特别地,该唇语识别模型可以是但不限于基于神经网络的唇语识别模型、基于序列到序列的唇语识别模型、基于连接主义的时间分类损失模型。可以理解,任何其他可适用于本技术实施例的唇语识别模型均应包含在本技术的范围内,此处不再一一列举。
[0128]
一种实现方式中,步骤s150中,可以利用步骤s140得到的唇语识别样本训练唇语识别模型,来确定唇语识别模型的参数。另一种实现方式中,步骤s150中可以利用步骤s140中得到的唇语识别样本对唇语识别模型进行优化,从而更新唇语识别模型的参数(例如,其可训练层的参数),实现唇语识别模型的用户定制化,提高唇语识别模型对特定用户的识别准确率。
[0129]
步骤s150中,可以采用梯度下降法来更新唇语识别模型的参数。例如,可以采集批量梯度下降、随机梯度下降、或者小批量梯度下降等方法,使用步骤s140得到的唇语识别样本更新唇语识别模型的参数。这里,采用的损失函数可以是交叉熵损失函数或其他任何类型的损失函数。
[0130]
通常,唇语识别模型可以包括通用特征层和可训练层,唇语识别模型的参数可以包括可训练层参数和通用特征层。顾名思义,可训练层参数是指唇语识别模型中可训练层的参数,通用特征层参数是指唇语识别模型中通用特征层的参数。通常,通用特征层参数是固定的,可训练层参数是可以优化的。因此,步骤s150中更新唇语识别模型的参数可以具体为:更新唇语识别模型的可训练层参数。这样,针对每个用户,可以仅更新唇语识别模型的可训练层参数,不仅参数优化效率更高,而且针对每个用户的唇语识别模型参数的数据量相对较少,相当于减小了电子设备中每个用户的唇语识别模型大小,可以节省硬件资源。
[0131]
步骤s150中,可以根据用户的预设信息获取用户的唇语识别模型参数(例如,可训练层参数),利用用户的唇语识别样本更新唇语识别模型参数,进而得到对该用户识别精度更高的唇语识别模型参数,提升唇语识别模型针对个体的识别准确性。也即,步骤s150中,唇语识别模型的参数为与用户的预设信息相匹配或相关联的唇语识别模型参数。这样,利用特定用户的唇语识别样本对该用户的唇语识别模型参数不断进行更新和优化,能够跟随用户自己的动态变化而动态调整其唇语识别模型参数,从而实现唇语识别模型的不断学习和优化,持续提升唇语识别模型针对特定用户的识别准确率,解决了唇语识别模型无法跟随用户持续优化的问题。
[0132]
用户的预设信息可以是但不限于声纹、人脸id、唇纹或其他信息,这些预设信息可以通过电子设备中的相应模块获取。一些实施例中,预设信息可以是人脸id、声纹、唇纹等,这样,可以通过步骤s110中的视频或音频中直接获得用户的预设信息,不仅可以减少数据量,而且可以确保预设信息和唇语识别样本的用户一致,通过这样的唇语识别样本更利于获得对特定用户识别准确率高的唇语识别模型。
[0133]
步骤s150中还可以包括:通过对比唇语识别样本的唇语识别结果及其标签,调整唇语识别模型的超参数以获得各个唇语识别样本的超参数,从而使用唇语识别样本及其对
应的超参数来更新唇语识别模型的参数。这里,超参数可以包括但不限于参数更新率(即,学习率)。
[0134]
参数更新率(即,学习率)是唇语识别模型优化时的重要超参数。在梯度下降法中,参数更新率的取值非常关键,如果过大就不会收敛,如果过小则收敛速度太慢。步骤s150中更新唇语识别模型的参数之前,还可以包括:通过对比唇语识别样本的唇语识别文本和唇语识别样本的标签调整唇语识别模型的参数更新率,以得到对应唇语识别样本的参数更新率;其中,唇语识别文本是通过唇语识别模型对唇语识别样本进行唇语识别而获得的。步骤s150中更新唇语识别模型的参数,具体包括:利用唇语识别样本和对应唇语识别样本的参数更新率,更新唇语识别模型的参数。具体地,在唇语识别样本的唇语识别结果与唇语识别样本的标签一致时,调低唇语识别模型的参数更新率以得到对应该唇语识别样本的参数更新率;在唇语识别样本的唇语识别结果与唇语识别样本的标签不一致时,调高唇语识别模型的参数更新率以得到对应该唇语识别样本的参数更新率。这样,可以提高唇语识别模型的优化效率,降低硬件资源消耗,进一步提升唇语识别模型针对个体的唇语识别准确率。
[0135]
具体应用中,可以通过学习率衰减、学习率预热、周期性学习率调整、或者一些自适应调整学习率的方法来实现参数更新率的调整。
[0136]
在步骤s150中或其之后,还可以包括:将唇语识别模型的可训练层参数与用户的预设信息(例如,下文的人脸id)关联后保存。具体地,可以将用户的预设信息存储于已注册信息数据库(例如,下文的已注册人脸数据库)中,将关联预设信息的可训练层参数存储于唇语模型库。如此,可以方便地通过用户的预设信息快速到用户的可训练层参数,以便利用用户的可训练层参数对用户进行唇语识别,从而提升个体的唇语识别准确率。同时,仅通过查询已注册信息数据库便可获知用户的唇语识别模型参数是否存在,更加快速高效。
[0137]
本技术实施例的模型训练方法,使用语音模态辅助视觉模态进行自动标注和模型优化,实现了唇语识别模型的自监督、个性化和主动学习,可以同时提升唇语识别模型的识别准确率和个性化程度,并且模型训练的整个过程无需用户参与,对用户无感,也无需对特定用户进行提前标定,提升了用户体验。此外,本技术实施例的模型训练方法可由电子设备自动完成,可以利用用户的唇语识别样本对其唇语识别模型进行在线训练,实时更新唇语识别模型的参数,提升唇语识别准确率的同时,实现了唇语识别模型的定制化,并且还可以做到数据不出局,有效保护了用户隐私。
[0138]
图4示出了本技术实施例提供的唇语识别方法的流程示意图。本技术实施例的模型训练方法可通过电子设备执行,参见图4所示,本技术实施例的模型训练方法可以包括如下步骤:
[0139]
步骤s410,检测到用户对着电子设备说话时,采集用户的视频。
[0140]
步骤s420,提取视频中的唇动视频片段。
[0141]
一些实施例中,步骤s420可以包括:步骤a1,通过唇动检测对视频进行切割以得到嘴部运动时段的唇动视频;步骤a2,对唇动视频进行唇动vad检测来得到唇动视频片段,每个唇动视频片段的图像序列中,每帧图像可以仅包含用户的唇部区域。
[0142]
一种实现方式中,步骤a1中,可以根据步骤s410的实时唇动检测结果确定用户的嘴部运动时段,以人脸区域位为单位从视频中提取嘴部运动时段内唇部区域的视频,从而得到唇动视频。每个唇动视频对应一张人脸,且每个唇动视频中的单帧图像仅包含人脸唇
部区域的图像数据。这样,通过唇动视频获得的唇动视频片段,数据量小,有利于降低运算复杂度,同时减少视频中其他人脸及其唇部等数据带来的干扰,从而提高用户唇语识别的处理效率和准确率。
[0143]
举例来说,若视频中包含两个人,如果仅有一个说话人,经切割得到的唇动视频中将仅包含该说话人的唇部区域图像。如果同时有n个说话人(n为大于1的整数),经切割得到的唇动视频将分为n组,每组唇动视频对应一个说话人(例如,可以与说话人的预设信息关联),且每个唇动视频中仅包含相应说话人的唇部区域图像。
[0144]
步骤s430,基于上文模型训练方法得到的唇语识别模型的参数运行唇语识别模型以对唇动视频片段进行唇语识别,得到唇语识别文本,该唇语识别文本可指示用户说话的内容。
[0145]
一些实施例中,步骤s430中可以包括:获取用户的预设信息;获取与所述预设信息关联的可训练层参数;加载可训练层参数和预先配置的通用特征层参数,以运行唇语识别模型对唇语视频片段进行唇语识别。由此,通过说话人的预设信息快速查说话人的可训练层参数,利用说话人的可训练层参数和可供各用户共用的通用特征层参数运行唇语识别模型对说话人进行唇语识别,相当于使用说话人的定制唇语识别模型对说话人进行唇语识别,从而有效提高唇语在垂域的针对个体的识别准确率。
[0146]
具体应用中,可以预先创建一唇语模型库和已注册人脸数据库,将各个用户的唇语识别模型参数(即,唇语识别模型的可训练层参数)存储在唇语模型库中,将已经与唇语识别模型参数关联的预设信息(例如,人脸id)保存在已注册人脸数据库中。如此,对特定用户进行唇语识别时,通过查询已注册人脸数据库中是否存在用户的预设信息便可确定该用户的唇语识别模型参数是否存在,如果存在,便可利用用户的预设信息向唇语模型库快速获取用户的唇语识别模型参数,由此,可使用用户的唇语识别模型参数运行唇语识别模型以对用户进行唇语识别,相当于使用用户的定制唇语识别模型对用户进行唇语识别,实现了用户的定制化唇语识别,进而提高了各类人的唇语识别准确率。
[0147]
一些实施例中,步骤s430中还可以包括:在查询不到与预设信息匹配的唇语识别模型参数时(也即与所述预设信息关联的可训练层参数不存在),说明用户的唇语识别模型参数不存在,可以直接加载预先配置的可训练层参数和通用特征层参数,通过这些参数运行唇语识别模型进行唇语识别,相当于使用通用的唇语识别模型对用户的唇语视频片段进行唇语识别。这样,在用户的唇语识别模型参数不存在时,可以通过通用的唇语识别模型参数对用户进行唇语识别,从而高效完成用户的唇语识别。
[0148]
这里,关于用户的预设信息可以参见上文相关描述,不再赘述。一些实施例中,步骤s410中的预设信息可以是人脸id或唇纹,便于通过对步骤s410中的视频进行人脸识别来获得。
[0149]
本技术实施例的唇语识别方法,可以通过电子设备高效完成各类人的唇语识别且唇语识别准确率较高。
[0150]
图5示出了本技术实施例提供的唇语识别装置50的示例性结构。该唇语识别装置50可应用于电子设备。具体地,唇语识别装置50可设置在电子设备中或直接通过电子设备的软件和/或硬件来实现,关于电子设备的具体细节可参见下文相关描述,不再赘述。参见图5所示,唇语识别装置50可以包括:
[0151]
视频获取单元51,配置为在用户对着电子设备说话的过程中,获取用户的视频;
[0152]
音频获取单元52,配置为在用户对着电子设备说话的过程中,获取用户的音频;
[0153]
唇动提取单元53,配置为提取视频中的唇动视频片段;
[0154]
语音提取单元54,配置为提取音频中的语音片段;
[0155]
选择单元55,配置为选择与语音片段匹配的唇动视频片段;
[0156]
标注单元56,配置为以语音片段的语音识别文本作为标签对唇动视频片段进行标注,得到用户的唇语识别样本。
[0157]
一些实施例中,唇语识别装置50还可以包括如下之一或多项:
[0158]
噪声检测单元57,配置为检测环境噪声的音量;
[0159]
唤醒语音置信度获取单元58,配置为获取用户的唤醒语音置信度;
[0160]
人脸检测单元59,配置为检测摄像头的视野范围内是否包含人脸或人嘴;
[0161]
定位单元510,配置为获取所述视频中的说话人位置和所述音频的声源定位方向。
[0162]
其中,视频获取单元51,具体可以配置为:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的视频;和/或,
[0163]
所述音频获取单元52,具体可以配置为:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的音频。
[0164]
一些实施例中,唇动提取单元53具体可配置为:通过唇动人声区间检测方式对所述视频进行端点检测和切分,得到所述唇动视频片段和所述唇动视频片段的人声区间;和/或,语音提取单元54具体可配置为通过语音人声区间检测方式对所述音频进行端点检测和切分,得到所述语音片段和所述语音片段的人声区间。
[0165]
一些实施例中,选择单元55具体配置为:根据所述语音片段的人声区间和所述唇动视频片段的人声区间,确定所述语音片段与所述唇动视频片段在时间维度上的重叠长度;在所述语音片段与所述唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,所述语音片段与所述唇动视频片段是匹配的。
[0166]
一些实施例中,选择单元55还可以配置为:在与所述语音片段匹配的所述唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的所述唇动视频片段,所述唇语识别置信度是根据预先获得的唇语识别模型对所述唇动视频片段进行唇语识别而得到的。
[0167]
一些实施例中,所述唇动视频片段包括唇动图像序列,所述唇动图像序列中图像帧为唇部区域图像。
[0168]
一些实施例中,唇语识别装置50还可以包括:参数更新单元511,配置为利用所述标注单元56获得的唇语识别样本,更新唇语识别模型的参数。
[0169]
一些实施例中,所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;参数更新单元511具体配置为:更新唇语识别模型的可训练层参数。
[0170]
一些实施例中,唇语识别装置50还可以包括:存储单元512,配置为将唇语识别模型的可训练层参数与用户的预设信息关联后保存。
[0171]
一些实施例中,存储单元512可以具体配置为:将用户的预设信息存储于已注册信息数据库中;以及,将关联所述预设信息的所述可训练层参数存储于唇语模型库。
[0172]
一些实施例中,参数更新单元511可具体配置为:通过对比唇语识别样本的唇语识别文本和所述唇语识别样本的标签调整唇语识别模型的参数更新率,以得到对应所述唇语识别样本的所述参数更新率;利用唇语识别样本和对应唇语识别样本的参数更新率,更新唇语识别模型的参数;其中,唇语识别文本是通过唇语识别模型对唇语识别样本进行唇语识别而获得的。
[0173]
一些实施例中,视频获取单元51还可以配置为检测到用户对着电子设备说话时,获取用户的视频;唇动提取单元53,还可以配置为提取该视频中的唇动视频片段;唇语识别装置50还可以包括:唇语识别单元513,配置为根据参数更新单元511更新得到的唇语识别模型的参数运行唇语识别模型以对唇动视频片段进行唇语识别,得到唇语识别文本。
[0174]
一些实施例中,唇语识别模型可以包括通用特征层和可训练层,唇语识别模型的参数包括可训练层参数和通用特征层参数。唇语识别装置50还可以包括:预设信息获取单元514,配置为获取用户的预设信息;唇语识别单元513具体可以配置为:获取与所述预设信息关联的可训练层参数;加载所述可训练层参数和预先配置的通用特征层参数,以运行唇语识别模型对唇动视频片段进行唇语识别。
[0175]
具体地,唇语识别单元513具体配置为根据参数更新单元511训练得到的唇语识别模型参数对唇动提取单元53得到的唇动视频片段进行唇语识别,得到唇语识别结果,该唇语识别结果可以包括唇语识别文本和唇语识别置信度。关于唇语识别文本和唇语识别置信度可参见上下文相关描述,此处不再赘述。
[0176]
本技术实施例中,唇语识别装置50的其他技术细节可参见上文方法以及下文实施例的相关描述,不再赘述。
[0177]
图6示出了本技术实施例的示例性应用场景及其示例性处理过程。
[0178]
图6的示例中,用户a通过语音控制机器人的播放内容。用户a先向机器人说出包含特定命令词的第一句话“小艺小艺”,再向机器人说出第二句话“不要说了”以控制机器人停止当前播放的内容,最后向机器人说出第三句话“播放音乐”,以控制机器人播放音乐。
[0179]
在用户a与机器人进行上述的面对面交流时,机器人通过自己的摄像头和麦克风分别捕获视频和音频,经过相应的vad处理,得到用户a的三个唇动视频片段及其vad值和三个语音片段及其vad值,这三个唇动视频片段分别对应上述的三句话,即“小艺小艺”、“不要说了”、“播放音乐”,三个唇动视频片段的vad值分别包含相应语句的唇动起始点和唇动结束点。同样地,三个语音片段也分别对应这三句话,其vad值分别包含相应语句的语音起始点和语音结束点。然后,机器人根据vad值的重叠长度到每个语音片段所对应的唇动视频片段,对语音片段进行语音识别得到各语音片段的语音识别文本,语音识别文本即是语音片段对应的唇动视频片段的标签数据,使用这些标签数据对上述三个唇动视频片段进行标注便可得到用户a的三个唇动识别样本class1、class2、class3。
[0180]
如图6所示,唇动识别样本class1的标签是内容为“小艺小艺”的文本、唇动视频片段包括用户a说该语句时的唇部区域图像序列,唇动识别样本class2的标签是内容为“不要
说了”的文本、唇动视频片段包括用户a说该语句时的唇部区域图像序列,唇动识别样本class3的标签是内容为“播放音乐”的文本、视频片段是包括用户a说该语句时的唇部区域图像序列。
[0181]
机器人使用用户a的三个唇动识别样本class1、class2、class3对用户a的可训练层参数或者通用的可训练层参数进行更新,并将该更新后的可训练层参数与用户a的人脸id关联后存储到机器人的唇语模型库中。由此,实现了唇语识别模型的在线优化和主动学习,并且提高了唇语识别模型对用户a的唇语识别准确率,也就是说,得到了用户a的定制化唇语识别模型参数,实现了唇语识别模型的用户定制化。
[0182]
具体地,机器人可以对视频进行唇动识别和人脸识别以获得用户a的人脸特征数据,利用用户a的人脸特征数据查询已注册人脸数据库中是否存在对应的人脸id,如果已注册人脸数据库中存在用户a的人脸id,则利用用户a的人脸id向唇语模型库查询用户a的可训练层参数,机器人使用用户a的三个唇动识别样本class1、class2、class3更新用户a的该可训练层参数并将更新后的可训练层参数存储到唇语模型库中。如果已注册人脸数据库中不存在用户a的人脸id,可以使用用户a的三个唇动识别样本class1、class2、class3更新本地存储的可训练层参数,配置对应用户a的人脸特征数据的人脸id以获得用户a的人脸id,将用户a的人脸id存储于已注册人脸数据库中,将更新后的可训练层参数与用户a的人脸id关联后存储到唇语模型库中。
[0183]
上述过程之后,用户a再对机器人说话时,机器人可以通过对用户a进行人脸识别来获得用户a的人脸id,通过用户a的人脸id获取用户a的可训练层参数,加载用户a的可训练层参数和预先存储在本地的通用特征层参数以运行唇语识别模型对用户a进行唇语识别,相当于使用用户a的定制化唇语识别模型对用户a进行实时地唇语识别,从而有效提升了用户a的唇语识别准确率。
[0184]
图7示出本技术实施例中唇语识别、样本标注、模型训练的示例性具体实现流程。
[0185]
参见图7所示,通过唇语识别模型进行唇语识别的流程可以包括如下步骤:
[0186]
步骤s711,唇动检测,即检测每一时刻说话人是否在说话。
[0187]
步骤s712,视频切割,以得到说话人的唇动视频片段,即,基于唇动检测的结果,以每个人脸区域位为单位,提取嘴部运动时间段内唇部区域的视频序列(例如60帧112*112图像数据)(即唇动视频);
[0188]
步骤s713,人脸识别,即,对说话人的唇动视频片段进行人脸识别,获取说话人(例如,图6中的用户a)的人脸特征数据。
[0189]
这里,人脸特征数据可以是但不限于脸部关键点数据、嘴部关键点数据或其他。实际应用中,可以通过已有的人脸关键点检测算法对视频中的图像帧进行人脸识别,从而获得人脸特征数据。
[0190]
步骤s714,利用说话人的人脸特征数据向已注册人脸数据库查询说话人的人脸id,如果命中说话人的人脸id,说明说话人自己的唇语识别模型参数已经存在,可以继续步骤s715,如果没有命中说话人的人脸id,表明说话人的唇语识别模型参数尚不存在,可以跳转至步骤s716;
[0191]
已注册人脸数据库中包含所有已与唇语识别模型参数(或唇语识别模型的可训练层的参数)关联的人脸id,如果能够在已注册人脸数据库中命中人脸id,表明说话人的唇语
识别模型参数(例如,唇语识别模型的可训练层参数)已经存在,也就相当于说话人的定制唇语识别模型已经存在。如果未能在已注册人脸数据库中命中人脸id,表明说话人的唇语识别模型参数尚不存在,也就相当于说话人的定制唇语识别模型不存在。
[0192]
步骤s715,加载对应说话人的人脸id的唇语识别模型参数到内存中,并利用这些参数运行唇语识别模型;
[0193]
对应说话人的人脸id的唇语识别模型参数包括对应说话人的人脸id的可训练层参数和本地存储的通用特征层参数。使用说话人的人脸id向唇语模型库获取说话人的可训练层参数,将该可训练层的参数和本地存储的通用特征层的参数(也即,适用于各类用户的通用特征层参数,也可视为各类用户共用的通用特征层参数)加载到内存中,电子设备的处理器使用这些参数运行唇语识别模型以进行唇语识别,即相当于使用用户的定制唇语识别模型对用户的唇语视频片段进行唇语识别,使用该定制唇语识别模型对特定用户进行唇语识别时唇语识别准确率更高、效果更好。需要说明的是,该定制唇语识别模型不仅可对特定用户进行唇语识别,也可用于实现其他各类用户的唇语识别。
[0194]
步骤s716,加载通用的唇语识别模型参数到内存中,并利用这些参数运行唇语识别模型;
[0195]
通用的唇语识别模型参数包括本地存储的可训练层参数(也即,通用于各类用户的可训练层参数)和本地存储的通用特征层的参数(也即,适用于各类用户的通用特征层参数,也可视为各类用户共用的通用特征层参数)。将本地存储的可训练层参数和本地存储的通用特征层参数加载到内存中,电子设备中的处理器使用这些参数运行唇语识别模型进行唇语识别,即相当于使用一通用的唇语识别模型对用户的唇语视频片段进行唇语识别,该通用的唇语识别模型可以是适用于各类用户的唇语识别模型,其能够实现各类用户的唇语识别,但该通用的唇语识别模型对某些用户或某个用户(或者说大多数用户)的唇语识别可能会准确率较低。
[0196]
步骤s717,对步骤s712得到的唇语视频片段进行唇语识别,并输出结果,该结果可以包括唇语识别文本和唇语识别置信度,该唇语识别置信度可以指示对该唇语视频片段进行唇语识别而获得的唇语识别文本的可信程度。
[0197]
需要说明的是,通用唇语识别模型、各个用户的定制唇语识别模型,实质上都是同一唇语识别模型,其通用特征层参数相同,可训练层参数不同。
[0198]
参见图7所示,样本标注和模型训练可以在安静环境中进行,其具体实现流程可以包括如下步骤:
[0199]
步骤s721,语音唤醒成功:说话人向电子设备说出包含特定命令词(例如:小艺小艺)的唤醒语音,成功唤醒电子设备。
[0200]
步骤s722,环境噪声感知:感知周边环境噪声,当噪声低于噪声阈值且唤醒置信度高于第一置信度阈值,则继续步骤s723,否则,退出当前流程。
[0201]
步骤s723,样本有效性判断:检测人脸是否在视野范围内,且声源定位方向与人脸位置是否一致,如果人脸在视野范围内且声源定位方向与人脸位置一致,说明样本有效,继续步骤s724;如果声源定位方向与人脸位置不一致和/或人脸不在视野范围内,则样本无效,退出当前流程。
[0202]
步骤s724,说话人对着电子设备说话,摄像头采集说话人的视频,麦克风采集说话
signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器81采用一个或多个集成电路,用于执行相关程序,以实现本技术实施例所提供的技术方案。
[0213]
存储器82可以包括只读存储器和随机存取存储器,并向处理器81提供指令和数据。处理器81的一部分还可以包括非易失性随机存取存储器。例如,处理器81还可以存储设备类型的信息。
[0214]
电子设备80还可以包括通信接口83。应理解,图8所示的电子设备80中的通信接口83可以用于与其他设备之间进行通信。
[0215]
可选的,电子设备80还可以包括总线。其中,存储器82、通信接口83可以通过总线与处理器81连接。总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
[0216]
应理解,根据本技术实施例的电子设备80可以对应于执行根据本技术各实施例的方法中的相应主体,并且电子设备80中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程,为了简洁,在此不再赘述。
[0217]
电子设备80可以为但不限于手机、可折叠电子设备、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、蜂窝电话、个人数字助理(personal digital assistant,pda)、增强现实(augmented reality,ar)设备、虚拟现实(virtual reality,vr)设备、人工智能(artificial intelligence,ai)设备、可穿戴式设备、车载设备、智能家居设备、或智慧城市设备中的至少一种。本技术实施例对该电子设备80的具体类型不作特殊限制。
[0218]
图9示意了本技术实施例的电子设备80的一种示例性具体实现结构,即电子设备90。
[0219]
电子设备90可以包括处理器910,外部存储器接口920,内部存储器921,通用串行总线(universal serial bus,usb)接头930,充电管理模块940,电源管理模块941,电池942,天线1,天线2,移动通信模块950,无线通信模块960,音频模块970,扬声器970a,受话器970b,麦克风970c,耳机接口970d,传感器模块980,按键990,马达991,指示器992,摄像头993,显示屏994,以及用户标识模块(subscriber identification module,sim)卡接口995等。其中传感器模块980可以包括压力传感器980a,陀螺仪传感器980b,气压传感器980c,磁传感器980d,加速度传感器980e,距离传感器980f,接近光传感器980g,指纹传感器980h,温度传感器980j,触摸传感器980k,环境光传感器980l,骨传导传感器980m等。
[0220]
可以理解的是,本技术实施例示意的结构并不构成对电子设备90的具体限定。在本技术另一些实施例中,电子设备90可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
[0221]
处理器910可以包括一个或多个处理单元,例如:处理器910可以包括应用处理器
(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
[0222]
处理器910可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
[0223]
处理器910中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器910中的存储器可以为高速缓冲存储器。该存储器可以保存处理器910用过或使用频率较高的指令或数据。如果处理器910需要使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器910的等待时间,因而提高了系统的效率。
[0224]
在一些实施例中,处理器910可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。处理器910可以通过以上至少一种接口连接触摸传感器、音频模块、无线通信模块、显示器、摄像头等模块。
[0225]
可以理解的是,本技术实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备90的结构限定。在本技术另一些实施例中,电子设备90也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
[0226]
usb接头930是一种符合usb标准规范的接口,可以用于连接电子设备90和外围设备,具体可以是mini usb接头,micro usb接头,usb type c接头等。usb接头930可以用于连接充电器,实现充电器为该电子设备90充电,也可以用于连接其他电子设备,实现电子设备90与其他电子设备之间传输数据。也可以用于连接耳机,通过耳机输出电子设备中存储的音频。该接头还可以用于连接其他电子设备,例如vr设备等。在一些实施例中,通用串行总线的标准规范可以为usb1.x、usb2.0、usb3.x和usb4。
[0227]
充电管理模块940用于接收充电器的充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块940可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块940可以通过电子设备90的无线充电线圈接收无线充电输入。充电管理模块940为电池942充电的同时,还可以通过电源管理模块941为电子设备供电。
[0228]
电源管理模块941用于连接电池942,充电管理模块940与处理器910。电源管理模块941接收电池942和/或充电管理模块940的输入,为处理器910,内部存储器921,显示屏994,摄像头993,和无线通信模块960等供电。电源管理模块941还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块941也可以设置于处理器910中。在另一些实施例中,电源管理模块941和充电管理模块940也可以设置于同一个器件中。
[0229]
电子设备90的无线通信功能可以通过天线1,天线2,移动通信模块950,无线通信模块960,调制解调处理器以及基带处理器等实现。
[0230]
天线1和天线2用于发射和接收电磁波信号。电子设备90中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
[0231]
移动通信模块950可以提供应用在电子设备90上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块950可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块950可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块950还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块950的至少部分功能模块可以被设置于处理器910中。在一些实施例中,移动通信模块950的至少部分功能模块可以与处理器910的至少部分模块被设置在同一个器件中。
[0232]
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器970a,受话器970b等)输出声音信号,或通过显示屏994显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器910,与移动通信模块950或其他功能模块设置在同一个器件中。
[0233]
无线通信模块960可以提供应用在电子设备90上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),蓝牙低功耗(bluetooth low energy,ble),超宽带(ultra wide band,uwb),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。无线通信模块960可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块960经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器910。无线通信模块960还可以从处理器910接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
[0234]
在一些实施例中,电子设备90的天线1和移动通信模块950耦合,天线2和无线通信模块960耦合,使得电子设备90可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division code division multiple access,td-scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc,fm,和/或ir技术等。该gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
[0235]
电子设备90可以通过gpu,显示屏994,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏994和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器910可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
[0236]
显示屏994用于显示图像,视频等。显示屏994包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备90可以包括1个或多个显示屏994。
[0237]
电子设备90可以通过摄像头993,isp,视频编解码器,gpu,显示屏994以及ap、npu等实现摄像功能。
[0238]
摄像头993可用于采集拍摄对象的彩图像数据以及深度数据。isp可用于处理摄像头993采集的彩图像数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将该电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度等进行算法优化。isp还可以对拍摄场景的曝光,温等参数优化。在一些实施例中,isp可以设置在摄像头993中。
[0239]
在一些实施例中,摄像头993可以包括彩摄像模组和3d感测模组。
[0240]
在一些实施例中,彩摄像模组的感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。
[0241]
在一些实施例中,3d感测模组可以是飞行时间(time of flight,tof)3d感测模块或结构光(structured light)3d感测模块。其中,结构光3d感测是一种主动式深度感测技术,结构光3d感测模组的基本零组件可包括红外线(infrared)发射器、ir相机模等。其中,tof 3d感测可以是主动式深度感测技术,tof 3d感测模组的基本组件可包括红外线(infrared)发射器、ir相机模等。结构光3d感测模组还可应用于人脸识别、体感游戏机、工业用机器视觉检测等领域。tof 3d感测模组还可应用于游戏机、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)等领域。
[0242]
在另一些实施例中,摄像头993还可以由两个或更多个摄像头构成。这两个或更多个摄像头可包括彩摄像头,彩摄像头可用于采集被拍摄物体的彩图像数据。
[0243]
在一些实施例中,电子设备90可以包括1个或多个摄像头993。具体的,电子设备90可以包括1个前置摄像头993以及1个后置摄像头993。其中,前置摄像头993通常可用于采集面对显示屏994的拍摄者自己的彩图像数据以及深度数据,后置摄像模组可用于采集拍摄者所面对的拍摄对象(如人物、风景等)的彩图像数据以及深度数据。
[0244]
数字信号处理器用于处理数字信号,还可以处理其他数字信号。例如,当电子设备90在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
[0245]
视频编解码器用于对数字视频压缩或解压缩。电子设备90可以支持一种或多种视频编解码器。这样,电子设备90可以播放或录制多种编码格式的视频,例如:动态图像专家
组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
[0246]
npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备90的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解,唇语识别等。
[0247]
外部存储器接口920可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备90的存储能力。外部存储卡通过外部存储器接口920与处理器910通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。或将音乐,视频等文件从电子设备传输至外部存储卡中。
[0248]
内部存储器921可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。内部存储器921可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备90使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器921可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。处理器910通过运行存储在内部存储器921的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备90的各种功能方法或数据处理。
[0249]
电子设备90可以通过音频模块970,扬声器970a,受话器970b,麦克风970c,耳机接口970d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
[0250]
音频模块970用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块970还可以用于对音频信号编码和解码。在一些实施例中,音频模块970可以设置于处理器910中,或将音频模块970的部分功能模块设置于处理器910中。
[0251]
扬声器970a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备90可以通过扬声器970a收听音乐,或输出免提通话的音频信号。
[0252]
受话器970b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备90接听电话或语音信息时,可以通过将受话器970b靠近人耳接听语音。
[0253]
麦克风970c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当或发送语音信息时,用户可以通过人嘴靠近麦克风970c发声,将声音信号输入到麦克风970c。电子设备90可以设置至少一个麦克风970c。在另一些实施例中,电子设备90可以设置两个麦克风970c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备90还可以设置三个,四个或更多麦克风970c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
[0254]
耳机接口970d用于连接有线耳机。耳机接口970d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
[0255]
压力传感器980a用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器980a可以设置于显示屏994。压力传感器980a的种类很多,如电阻式压力
传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器980a,电极之间的电容改变。电子设备90根据电容的变化确定压力的强度。当有触摸操作作用于显示屏994,电子设备90根据压力传感器980a检测该触摸操作强度。电子设备90也可以根据压力传感器980a的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
[0256]
陀螺仪传感器980b可以用于确定电子设备90的运动姿态。在一些实施例中,可以通过陀螺仪传感器980b确定电子设备90围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器980b可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器980b检测电子设备90抖动的角度,根据角度计算出镜头模组需要补偿的距离,控制镜头反向运动抵消电子设备90的抖动,实现防抖。陀螺仪传感器980b还可以用于导航,体感游戏场景。
[0257]
气压传感器980c用于测量气压。在一些实施例中,电子设备90根据气压传感器980c测得的气压值计算海拔高度,辅助定位和导航。
[0258]
磁传感器980d包括霍尔传感器。电子设备90可以利用磁传感器980d检测翻盖皮套的开合。当电子设备为可折叠电子设备,磁传感器980d可以用于检测电子设备的折叠或展开,或折叠角度。在一些实施例中,当电子设备90是翻盖机时,电子设备90可以根据磁传感器980d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
[0259]
加速度传感器980e可检测电子设备90在各个方向上(一般为三轴)加速度的大小。当电子设备90静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
[0260]
距离传感器980f,用于测量距离。电子设备90可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备90可以利用距离传感器980f测距以实现快速对焦。
[0261]
接近光传感器980g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备90通过发光二极管向外发射红外光。电子设备90使用光电二极管检测来自附近物体的红外反射光。当检测到的反射光的强度大于阈值时,可以确定电子设备90附近有物体。当检测到的反射光的强度小于阈值时,电子设备90可以确定电子设备90附近没有物体。电子设备90可以利用接近光传感器980g检测用户手持电子设备90贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器980g也可用于皮套模式,口袋模式自动解锁与锁屏。
[0262]
环境光传感器980l可以用于感知环境光亮度。电子设备90可以根据感知的环境光亮度自适应调节显示屏994亮度。环境光传感器980l也可用于拍照时自动调节白平衡。环境光传感器980l还可以与接近光传感器980g配合,检测电子设备90是否被遮挡,例如电子设备在口袋里。当检测到电子设备被遮挡或在口袋里,可以使部分功能(例如触控功能)处于禁用状态,以防误操作。
[0263]
指纹传感器980h用于采集指纹。电子设备90可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
[0264]
温度传感器980j用于检测温度。在一些实施例中,电子设备90利用温度传感器980j检测的温度,执行温度处理策略。例如,当通过温度传感器980j检测的温度超过阈值,电子设备90执行降低处理器的性能,以便降低电子设备的功耗以实施热保护。在另一些实施例中,当通过温度传感器980j检测的温度低于另一阈值时,电子设备90对电池942加热。在其他一些实施例中,当温度低于又一阈值时,电子设备90可以对电池942的输出电压升压。
[0265]
触摸传感器980k,也称“触控器件”。触摸传感器980k可以设置于显示屏994,由触摸传感器980k与显示屏994组成触摸屏,也称“触控屏”。触摸传感器980k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏994提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器980k也可以设置于电子设备90的表面,与显示屏994所处的位置不同。
[0266]
骨传导传感器980m可以获取振动信号。在一些实施例中,骨传导传感器980m可以获取人体声部振动骨块的振动信号。骨传导传感器980m也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器980m也可以设置于耳机中,结合成骨传导耳机。音频模块970可以基于该骨传导传感器980m获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于该骨传导传感器980m获取的血压跳动信号解析心率信息,实现心率检测功能。
[0267]
按键990可以包括开机键,音量键等。按键990可以是机械按键。也可以是触摸式按键。电子设备90可以接收按键输入,产生与电子设备90的用户设置以及功能控制有关的键信号输入。
[0268]
马达991可以产生振动提示。马达991可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏994不同区域的触摸操作,马达991也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
[0269]
指示器992可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
[0270]
sim卡接口995用于连接sim卡。sim卡可以通过插入sim卡接口995,或从sim卡接口995拔出,实现和电子设备90的接触和分离。电子设备90可以支持1个或多个sim卡接口。sim卡接口995可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口995可以同时插入多张卡。多张卡的类型可以相同,也可以不同。sim卡接口995也可以兼容不同类型的sim卡。sim卡接口995也可以兼容外部存储卡。电子设备90通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备90采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备90中,不能和电子设备90分离。
[0271]
电子设备90的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本技术实施例以分层架构的android系统为例,示例性说明电子设备90的软件结构。
[0272]
图10是本技术实施例的电子设备90的示例性软件结构框图。
[0273]
分层架构将软件分成若干个层,每一层都有清晰的角和分工。层与层之间通过
软件接口通信。在一些实施例中,将android系统分为五层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(android runtime,art)和原生c/c++库,硬件抽象层(hardware abstract layer,hal)以及内核层。
[0274]
应用程序层可以包括一系列应用程序包。
[0275]
如图10所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,wlan,蓝牙,音乐,视频,短信息等应用程序。
[0276]
应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。
[0277]
如图10所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,资源管理器,通知管理器,活动管理器,输入管理器等。
[0278]
窗口管理器提供窗口管理服务(window manager service,wms),wms可以用于窗口管理、窗口动画管理、surface管理以及作为输入系统的中转站。
[0279]
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。该数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
[0280]
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
[0281]
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
[0282]
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
[0283]
活动管理器可以提供活动管理服务(activity manager service,ams),ams可以用于系统组件(例如活动、服务、内容提供者、广播接收器)的启动、切换、调度以及应用进程的管理和调度工作。
[0284]
输入管理器可以提供输入管理服务(input manager service,ims),ims可以用于管理系统的输入,例如触摸屏输入、按键输入、传感器输入等。ims从输入设备节点取出事件,通过和wms的交互,将事件分配至合适的窗口。
[0285]
安卓运行时包括核心库和安卓运行时。安卓运行时负责将源代码转换为机器码。安卓运行时主要包括采用提前(ahead or time,aot)编译技术和及时(just in time,jit)编译技术。
[0286]
核心库主要用于提供基本的java类库的功能,例如基础数据结构、数学、io、工具、数据库、网络等库。核心库为用户进行安卓应用开发提供了api。。
[0287]
原生c/c++库可以包括多个功能模块。例如:表面管理器(surface manager),媒体框架(media framework),libc,opengl es、sqlite、webkit等。
[0288]
其中,表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2d和3d图层的融合。媒体框架支持多种常用的音频,视频格式回放和录制,以及静态图像文件
等。媒体库可以支持多种音视频编码格式,例如:mpeg4,h.264,mp3,aac,amr,jpg,png等。opengl es提供应用程序中2d图形和3d图形的绘制和操作。sqlite为电子设备90的应用程序提供轻量级关系型数据库。
[0289]
硬件抽象层运行于用户空间(user space),对内核层驱动进行封装,向上层提供调用接口。
[0290]
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
[0291]
下面结合捕获拍照场景,示例性地说明电子设备90软件以及硬件的工作流程。
[0292]
当触摸传感器980k接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头993捕获静态图像或视频。
[0293]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0294]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0295]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0296]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0297]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0298]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存
储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0299]
本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述各个实施例所描述的样本标注方法、模型训练方法和/或唇语识别方法。
[0300]
本技术实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0301]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0302]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括、但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0303]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0304]
注意,上述仅为本技术的较佳实施例及所运用技术原理。本领域技术人员会理解,本技术不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本技术的保护范围。因此,虽然通过以上实施例对本技术进行了较为详细的说明,但是本技术不仅仅限于以上实施例,在不脱离本技术构思的情况下,还可以包括更多其他等效实施例,均属于本技术保护范畴。

技术特征:


1.一种样本标注方法,其特征在于,应用于电子设备,所述样本标注方法包括:用户对着电子设备说话的过程中,获取用户的视频和音频;提取所述视频中的唇动视频片段和所述音频中的语音片段;选择与所述语音片段匹配的所述唇动视频片段;以所述语音片段的语音识别文本作为标签对所述唇动视频片段进行标注,得到用户的唇语识别样本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括如下之一或多项:检测环境噪声的音量;获取用户的唤醒语音置信度;检测摄像头的视野范围内是否包含人脸或人嘴;获取所述视频中的说话人位置和所述音频的声源定位方向;所述获取用户的视频和音频,具体包括:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的视频和音频。3.根据权利要求1或2所述的方法,其特征在于,所述提取所述视频中的唇动视频片段和所述音频中的语音片段,包括:通过唇动人声区间检测方式对所述视频进行端点检测和切分,得到所述唇动视频片段和所述唇动视频片段的人声区间;和/或,通过语音人声区间检测方式对所述音频进行端点检测和切分,得到所述语音片段和所述语音片段的人声区间。4.根据权利要求1至3任一项所述的方法,其特征在于,所述选择与所述语音片段匹配的所述唇动视频片段,包括:根据所述语音片段的人声区间和所述唇动视频片段的人声区间,确定所述语音片段与所述唇动视频片段在时间维度上的重叠长度;在所述语音片段与所述唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,所述语音片段与所述唇动视频片段是匹配的。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:在与所述语音片段匹配的所述唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的所述唇动视频片段,所述唇语识别置信度是根据预先获得的唇语识别模型对所述唇动视频片段进行唇语识别而得到的。6.一种模型训练方法,其特征在于,应用于电子设备,包括:利用权利要求1至5任一项所述样本标注方法获得的唇语识别样本,更新唇语识别模型的参数。7.根据权利要求6所述的方法,其特征在于,所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;所述更新唇语识别模型的参数,具体为:更新唇语识别模型的所述可训练层参数。8.根据权利要求6或7所述的方法,其特征在于,还包括:
将用户的预设信息存储于已注册信息数据库中;将关联所述预设信息的所述可训练层参数存储于唇语模型库。9.根据权利要求6至8任一项所述的方法,其特征在于,所述更新唇语识别模型的参数之前,还包括:通过对比所述唇语识别样本的唇语识别文本和所述唇语识别样本的标签调整所述唇语识别模型的参数更新率,以得到对应所述唇语识别样本的所述参数更新率;其中,所述唇语识别文本是通过所述唇语识别模型对所述唇语识别样本进行唇语识别而获得的;所述更新唇语识别模型的参数,具体包括:利用所述唇语识别样本和对应所述唇语识别样本的参数更新率,更新所述唇语识别模型的参数。10.一种唇语识别方法,其特征在于,应用于电子设备,包括:检测到用户对着电子设备说话时,获取用户的视频;提取所述视频中的唇动视频片段;基于权利要求6至9任一项所述模型训练方法得到的唇语识别模型的参数运行所述唇语识别模型以对所述唇动视频片段进行唇语识别,得到唇语识别文本。11.根据权利要求10所述的方法,其特征在于,所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;所述基于权利要求6至9任一项所述模型训练方法得到的唇语识别模型的参数运行所述唇语识别模型以对所述唇动视频片段进行唇语识别,具体包括:获取用户的预设信息;获取与所述预设信息关联的可训练层参数;加载所述可训练层参数和预先配置的通用特征层参数,以运行所述唇语识别模型对所述唇动视频片段进行唇语识别。12.根据权利要求11所述的方法,其特征在于,所述预设信息包括人脸id;所述获取用户的预设信息,具体包括:对所述视频进行人脸识别以获得用户的人脸特征数据,向已注册人脸数据库中查询对应所述人脸特征数据的人脸id。13.一种唇语识别装置,其特征在于,应用于电子设备,所述唇语识别装置包括:视频获取单元,配置为在用户对着电子设备说话的过程中,获取用户的视频;音频获取单元,配置为在用户对着电子设备说话的过程中,获取用户的音频;唇动提取单元,配置为提取所述视频中的唇动视频片段;语音提取单元,配置为提取所述音频中的语音片段;选择单元,配置为选择与所述语音片段匹配的所述唇动视频片段;标注单元,配置为以所述语音片段的语音识别文本作为标签对所述唇动视频片段进行标注,得到用户的唇语识别样本。14.根据权利要求13所述的装置,其特征在于,所述唇语识别装置还包括如下之一或多项:噪声检测单元,配置为检测环境噪声的音量;唤醒语音置信度获取单元,配置为获取用户的唤醒语音置信度;
人脸检测单元,配置为检测摄像头的视野范围内是否包含人脸或人嘴;定位单元,配置为获取所述视频中的说话人位置和所述音频的声源定位方向;所述视频获取单元,具体配置为:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的视频;和/或,所述音频获取单元,具体配置为:在所述环境噪声的音量等于或小于预设的噪声阈值、所述唤醒语音置信度大于或等于预设的第一置信度阈值、所述摄像头的视野范围内包含人脸或人嘴、和/或所述视频的说话人位置和所述音频的声源定位方向匹配时,获取用户的音频。15.根据权利要求13或14所述的装置,其特征在于,所述唇动提取单元,具体配置为:通过唇动人声区间检测方式对所述视频进行端点检测和切分,得到所述唇动视频片段和所述唇动视频片段的人声区间;和/或,所述语音提取单元,具体配置为通过语音人声区间检测方式对所述音频进行端点检测和切分,得到所述语音片段和所述语音片段的人声区间。16.根据权利要求13至15任一项所述的装置,其特征在于,所述选择单元,具体配置为:根据所述语音片段的人声区间和所述唇动视频片段的人声区间,确定所述语音片段与所述唇动视频片段在时间维度上的重叠长度;在所述语音片段与所述唇动视频片段在时间维度上的重叠长度大于或等于预定的时长阈值时,所述语音片段与所述唇动视频片段是匹配的。17.根据权利要求13至16任一项所述的装置,其特征在于,所述选择单元,还配置为:在与所述语音片段匹配的所述唇动视频片段中,选择唇语识别置信度小于预设的第二置信度阈值的所述唇动视频片段,所述唇语识别置信度是根据预先获得的唇语识别模型对所述唇动视频片段进行唇语识别而得到的。18.根据权利要求13至17任一项所述的装置,其特征在于,还包括:参数更新单元,配置为利用所述标注单元获得的唇语识别样本,更新唇语识别模型的参数。19.根据权利要求18所述的装置,其特征在于,所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;所述参数更新单元,具体配置为:更新唇语识别模型的所述可训练层参数。20.根据权利要求18或19所述的装置,其特征在于,还包括:所述存储单元,配置为将用户的预设信息存储于已注册信息数据库中;以及,将关联所述预设信息的所述可训练层参数存储于唇语模型库。21.根据权利要求18至20任一项所述的装置,其特征在于,所述参数更新单元,具体配置为:通过对比所述唇语识别样本的唇语识别文本和所述唇语识别样本的标签调整所述唇语识别模型的参数更新率,以得到对应所述唇语识别样本的所述参数更新率;利用所述唇语识别样本和对应所述唇语识别样本的参数更新率,更新所述唇语识别模型的参数;
其中,所述唇语识别文本是通过所述唇语识别模型对所述唇语识别样本进行唇语识别而获得的。22.根据权利要求13至21任一项所述的装置,其特征在于,所述视频获取单元,还配置为检测到用户对着电子设备说话时,获取用户的视频;所述唇语识别装置还包括:唇语识别单元,配置为根据所述参数更新单元更新得到的唇语识别模型的参数运行所述唇语识别模型以对所述唇动视频片段进行唇语识别,以得到唇语识别文本。23.根据权利要求22所述的装置,其特征在于,所述唇语识别模型包括通用特征层和可训练层,所述唇语识别模型的参数包括可训练层参数和通用特征层参数;所述唇语识别装置还包括:预设信息获取单元,配置为获取用户的预设信息;所述唇语识别单元,具体配置为:获取与所述预设信息关联的所述可训练层参数,加载所述可训练层参数和预先配置的所述通用特征层参数,以运行所述唇语识别模型对所述唇动视频片段进行唇语识别。24.根据权利要求23所述的装置,其特征在于,所述预设信息包括人脸id;所述预设信息获取单元,具体配置为:对所述视频中的图像帧进行人脸识别以获得用户的人脸特征数据,向已注册人脸数据库中查询对应所述人脸特征数据的人脸id。25.一种电子设备,其特征在于,包括:处理器;以及存储器,其存储有计算机程序,所述计算机程序当被所述处理器执行时使得所述处理器执行权利要求1至5任一所述的样本标注方法、6至9任一所述的模型训练方法和/或10至12任一所述的唇语识别方法。26.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令当被计算机执行时使得所述计算机执行权利要求1至5任一所述的样本标注方法、6至9任一所述的模型训练方法和/或10至12任一所述的唇语识别方法。

技术总结


唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质。本申请涉及人工智能领域的唇语识别技术。本申请实施例中,通过用户的语音识别文本标注用户的唇语视频片段,进而自动得到用户的唇语识别样本,使用该唇语识别样本训练唇语识别模型,通过该唇语识别模型对用户进行唇语识别,实现了唇语识别样本的自动标注、唇语识别模型的自监督主动学习和个性化,有效提高了唇语识别准确率,并且整个过程无需用户参与,提升了用户体验。提升了用户体验。提升了用户体验。


技术研发人员:

刘恒 李志刚 石磊 刘腾

受保护的技术使用者:

华为技术有限公司

技术研发日:

2022.05.24

技术公布日:

2022/7/29

本文发布于:2022-12-01 05:53:05,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/17565.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:片段   所述   模型   视频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图