语音指令的处理方法、装置、车辆和存储介质与流程

阅读: 评论:0



1.本发明涉及汽车技术领域,尤其涉及一种语音指令的处理方法、装置、车辆和存储介质。


背景技术:



2.当前,汽车智能化的趋势越来越明显。汽车智能化不仅能够驾驶员提供更加便捷的交互方式,提高驾驶的安全性,而且能够解放驾驶员的双手和双眼,具有使用门槛低、学习成本低、友好性交互等特点,极大的提高了用户的体验。尤其是在传递声学方法,能够进行语音识别,根据说话者的语音指令对车辆进行控制。
3.然而,现有技术中,语音指令的处理方式较为单一,导致较易出现语音指令误识别以及对车辆出现错误控制的情况。


技术实现要素:



4.本发明提供了一种语音指令的处理方法、装置、车辆和存储介质,以丰富语音指令的处理方式。
5.根据本发明的一方面,提供了一种语音指令的处理方法,包括:
6.采集语音信号
7.如果所述语音信号中携带有至少一个当前语音指令,则根据所述语音信号确定目标车辆所处的环境类型;
8.如果所述环境类型为多人语音环境,则根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;
9.对所述当前待处理语音指令进行处理。
10.根据本发明的另一方面,提供了一种语音指令的处理装置,包括:
11.信号采集模块,用于采集语音信号;
12.音量确定模块,用于响应于所述语音信号中携带有至少一个当前语音指令的情况,根据所述语音信号确定目标车辆所处的环境类型;
13.音量确定模块,用于响应于所述环境类型为多人语音环境的情况,根据所述语音信号确定所述至少一个当前语音指令的语音音量;
14.指令确定模块,用于基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;
15.第一处理模块,用于对所述当前待处理语音指令进行处理。
16.根据本发明的另一方面,提供了一种车辆,所述车辆包括:
17.至少一个处理器;以及
18.与所述至少一个处理器通信连接的存储器;其中,
19.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序
被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的语音指令的处理方法。
20.根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音指令的处理方法。
21.本发明实施例提供的语音指令的处理方法、装置、车辆和存储介质,采集语音信号;如果该语音信号中携带有至少一个当前语音指令,则根据该语音信号确定目标车辆所处的环境类型;如果该环境类型为多人语音环境,则根据该语音信息确定上述至少一个当前语音指令的语音音量,并基于该语音音量确定上述至少一个当前语音指令中的当前待处理语音指令,其中,该当前待处理语音指令的语音音量大于或等于预设音量阈值;对当前待处理语音指令进行处理。本发明实施例通过采用上述技术方案,当车辆处于多人语音环境时,根据语音音量,采用不同的方式对语音信号中所携带的语音指令进行处理,能够丰富语音指令的处理方式,提高语音指令识别的效率以及对语音指令反馈的及时性,并降低基于语音指令对车辆进行错误控制的概率。
22.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例一提供的一种语音指令的处理方法的流程示意图;
25.图2为本发明实施例二提供的一种语音指令的处理方法的流程示意图;
26.图3为本发明实施例三提供的一种语音指令的处理装置的结构框图;
27.图4为本发明实施例四提供的一种车辆的结构示意图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
30.实施例一
31.图1为本发明实施例一提供了一种语音指令的处理方法的流程图,本实施例可适用于对语音指令进行处理的情况,该方法可以由语音指令的处理装置来执行,该语音指令的处理装置可以采用硬件和/或软件的形式实现,该语音指令的处理装置可配置于语音控制系统中,该语音控制系统可以配置于车辆内。如图1所示,该方法包括:
32.s110、采集语音信号。
33.在本实施例中,语音控制系统可以具有唤醒状态和休眠状态,如用户可以通过特定的语音或者通过触发特定的触摸控件或物理按键唤醒车辆的语音控制系统,即将语音控制系统由休眠状态切换为唤醒状态。用户也可以通过另一特定的语音指令或者通过触发相应的触摸控件或物理按键将语音控制系统由唤醒切换为休眠状态。当处于唤醒状态时,语音控制系统可以实时采集语音信号,并基于该语音信号对车辆进行控制。此外,语音控制系统还可以在长时间(如10s或20s等)未采集到语音信号/语音指令时,自动由唤醒状态切换为休眠状态。
34.具体的,语音控制系统可以实时采集语音信号,如采集声音信号,并提取该声音信号中所包含的语音信号。其中,语音信号可以为语音的信号,如人声的信号。
35.在本实施例中,当采集到语音信号之后,还可以进一步判断所采集的语音信号中是否携带有语音指令,以在其携带有语音指令时,对语音信号中所携带的语音指令进行处理。此时,在所述采集语音信号之后,还可以包括:提取所述语音信号的目标语音特征矢量;如果语音库中存在与所述目标语音特征矢量相匹配的目标标准语音特征矢量,则将所述目标标准语音特征矢量对应的标准语音指令作为所述语音信号中携带的当前语音指令。
36.其中,目标语音特征矢量可以为语音控制系统当前所采集的语音信号的语音特征矢量。目标标准语音特征矢量可以为与目标语音特征矢量相匹配的标准语音特征矢量。该标准语音特征矢量可以为标准语音指令的语音特征矢量。该语音特征矢量可理解为用于表征语音特征的矢量。该标准语音指令可以为对预先设置的标准播报语句进行播报得到的、标准的语音指令。当前语音指令可理解为该语音信号中所携带的语音指令,即当前采集到的语音信号中所携带的语音指令。该语音指令可理解为采用语音的方式对车辆进行控制的指令。
37.在本实施例中,可以预先设置不同语音指令对应的标准播报语句;针对每一个标准播报语句,分别采用不同国家和/或地区的语言对该标准播报语句进行播报,得到该标准播报语句对应的不同标准语音指令;进一步提取各标准语音指令的语音特征矢量,作为相应标准语音指令的标准语音特征矢量,并将各标准语音指令以及各标准语音指令的标准语音特征矢量对应存储于语音库中。
38.从而,当获取到语音信号之后,可以对语音信号中的干扰信号进行过滤。在过滤完成后,对过滤后的语音信号进行标准化处理以提取语音信号的语音特征,并采用预先训练得到的隐马尔可夫模型(hidden markov model,hmm)对所提取的语音特征进行矢量计算,得到语音信号的目标语音特征矢量。将语音信号的目标语音特征矢量同语音库中所存储的各标准语音特征矢量进行匹配,判断语音库中是否存在与目标语音特征矢量相匹配的目标标准语音特征矢量,若是,则判定语音信号中携带有语音指令,并将语音库中所存储的、目
标标准语音特征矢量所对应的标准语音指令作为该语音信号中所携带的当前语音指令。
39.在本实施例中,通过在语音库中设置采用不同国家和/或地区的语音对标准播报语句进行播报得到的标准语音,使得语音控制系统能够适配不同国家和/或地区的语言,即用户无论采用何种语言说出语音指令均能够对车辆进行控制,从而,能够提高语音指令的识别效率和识别精度。
40.s120、如果所述语音信号中携带有至少一个当前语音指令,则根据所述语音信号确定目标车辆所处的环境类型。
41.其中,目标车辆可理解为执行本实施例所提供的语音指令的处理方法的车辆,即语音控制系统所配置于的车辆。目标车辆所处的环境类型可以理解为目标车辆所处环境(包括目标车辆的车内环境和/或车外环境)的环境类型。该环境类型例如可以包括多人语音环境和单人语音环境。
42.具体的,当确定语音信号中携带有当前语音指令时,可以进一步根据该语音信号确定目标车辆所处的环境类型,如根据该语音信号确定说话者的数量,并根据说话者的数量确定目标车辆所处的环境是多人语音环境还是单人语音环境。
43.s130、如果所述环境类型为多人语音环境,则根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值。
44.在本实施例中,可以预先设置不同的环境类型和/或不同语音音量所对应的处理方式,并在确定目标车辆所处的环境类型和/或语音信号中所携带的当前语音指令的语音音量之后,采用与目标车辆所处的环境类型和/或语音信号中所携带的当前语音指令的语音音量相对应的处理方式对语音信号中所携带的当前语音指令进行处理。此处不同各环境类型和/或不同语音音量所对应的处理方式进行限定。
45.在本实施例中,由于当处于较为嘈杂的环境时,如当多个人在聊天时,用户一般会采用较高的音量播报语音指令,以使语音控制系统能够正确接收其所播报的语音指令。故当处于多人语音环境时,可以仅对语音信号中所携带的一个或多个语音音量较大的语音指令进行响应,以避免出现将用户的聊天内容误识别为语音指令的情况,降低基于语音指令对车辆进行错误控制的概率。
46.其中,多人语音环境可理解为存在多个说话者的环境,即语音信号中包含多个人的语音的环境。当前待处理语音指令可以为语音音量大于或等于预设音量阈值的当前语音指令,其数量可以为一个或多个,优选可以为一个,即可以将语音音量大于或等于预设音量阈值的某一个当前语音指令作为当前待处理语音指令,如将语音音量最大且语音音量大于或等于预设音量阈值的当前语音指令作为当前待处理语音指令。此时,可选的,所述当前待处理语音指令为所述至少一个语音指令中语音音量最大的语音指令,以下以此种情况为例进行说明。该预设音量阈值可以根据需要进行设置,如可以将预设音量阈值设置为70db等。
47.示例性的,当目标车辆处于多人语音环境时,可以进一步根据语音信号确定语音信号中所携带的各当前语音指令的语音音量,根据该语音音量确定语音信号中所携带的语音音量最大的当前语音指令,判断该当前语音指令的语音音量是否大于或等于预设音量阈值,如果该语音音量大于或等于预设音量阈值,则将该语音音量最大的当前语音指令确定为当前待处理语音指令。
48.相应的,如果该语音音量小于预设音量阈值,则可以不对语音信号中所携带的各当前语音指令进行响应,以避免出现误响应的情况。此时,可选的,本实施例提供的语音指令的处理方法还包括:如果确定所述至少一个语音指令中不存在当前待处理语音指令,则不对所述至少一个语音指令进行处理。
49.s140、对所述当前待处理语音指令进行处理。
50.在本实施例中,确定当前待处理语音指令之后,可以对所确定的当前待处理语音指令进行处理。
51.具体的,可以将当前待处理语音指令转换为控制指令,并通过该控制指令对目标车辆进行控制,如对目标车辆的车身硬件进行控制,或者,通过目标车辆的中枢系统对车辆上所安装的软件进行控制等。
52.在一个实施方式中,所述对所述当前待处理语音指令进行处理,包括:生成与所述当前待处理语音指令对应的控制指令,并将所述控制指令发送给所述目标车辆中的待控制对象的控制模块,以通过所述控制模块对所述待控制对象进行控制,所述待控制对象为与所述当前待处理语音指令对应的硬件或软件。
53.具体的,可以根据当前待处理语音指令生成控制指令,确定该控制指令所对应的待控制对象,并将该控制指令发送该待控制对象的控制模块。相应的,目标车辆中的待控制对象的控制模块在接收到语音控制系统所发送的控制指令之后,可以依据该控制指令对待处理对象进行控制。
54.其中,当前待处理语音指令对应的控制指令的生成方式可以灵活设置,如可以采用现有技术中的控制指令生成方式生成当前待处理语音指令对应的控制指令,本实施例对此不进行限制。待控制对象可以为目标车辆的硬件,如目标车辆的车窗、天窗、座椅、空调、灯光、后备箱盖等;也可以为目标车辆所安装的软件,如可以通过控制指令进行选台、追剧、看直播/回放、听歌、翻译、音量、游戏等方面的控制,从而进一步丰富语音控制系统的控制范围。待处理对象的控制模块可以为用于控制待处理对象的处理器或控制器等。
55.在一个实施方式中,所述对所述当前待处理语音指令进行处理,包括:如果所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔小于或等于预设时间长度,则在对历史待处理语音指令进行处理的同时,对所述当前待处理语音指令进行处理;如果所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔大于预设时间长度,则在对历史待处理语音指令处理完毕之后,对所述当前待处理语音指令进行处理;其中,所述历史待处理语音指令为在所述当前待处理语音指令之前接收到的待处理语音指令。
56.其中,唤醒指令可理解为用于唤醒语音控制系统的指令,即用于将语音控制系统由休眠状态切换为唤醒状态的指令,其可以基于用户的语音或者用户对相应触摸控件或物理按键的触发操作生成。相应的,最后一次接收到唤醒指令的时间可理解为语音控制系统本次由休眠状态切换为唤醒状态的时间,即语音控制系统本次处于唤醒状态的起始时间。历史待处理语音指令可理解为在本次采集语音信号之前所接收到、尚未响应完成的语音指令。预设时间长度可以根据需要进行设置,如可以将预设时间长度设置为10s或15s等。
57.在本实施例中,当语音控制系统处于唤醒状态时,可以依据接收时间的不同,采用不同的处理方式对所接收到的当前待处理语音指令进行响应,从而,进一步丰富语音指令
的响应方式。
58.具体的,如果当前待处理语音指令的接收时间与语音控制系统本次处于唤醒状态的起始时间之间的时间间隔小于或等于预设时间长度,则可以并行对该一个或多个当前待处理语音指令进行处理,进一步地,当存在尚未处理完成的历史待处理语音指令时,可以并行对该一个或多个当前待处理语音指令以及该尚未处理完成的历史待处理语音指令进行响应。如果当前待处理语音指令的接收时间与语音控制系统本次处于唤醒状态的起始时间之间的时间间隔大于预设时间长度,则可以按照各语音指令的接收时间的先后顺序,依次对该一个或多个当前待处理语音指令以及尚未处理完成的历史待处理语音指令进行处理。
59.在一个实施方式中,在所述采集语音信号之后,还包括:根据所述语音信号确定说话者的情绪信息;输出与所述情绪信息对应的提示信息,所述提示信息用于提示执行与所述情绪信息对应的目标操作。
60.在上述实施方式中,可以进一步根据所采集到的语音信号确定说话者的情绪,并提示或控制车辆执行与说话者的情绪相对应的操作,如采用与说话者的情绪相对应的语气、音调等与说话者进行语音互动,或者,在说话者产生悲伤、愤怒、快乐等情绪波动时,采用相应的措施安抚说话者的情绪,等等,从而不仅能够使说话者产生沉浸式的交流体验,还能够使说话者心态平稳的进行驾驶,降低交通事故出现的概率。
61.具体的,在采集到语音信号之后,可以通过智能芯片或者预先训练得到的情绪识别模型根据该语音信号识别说话者的情绪信息,如根据该语音信号中说话者的语气、音调、声调和/或语音信号中所包含的感叹词等识别说话者的情绪信息;确定与该情绪信息对应的目标操作和提示信息,并输出该提示信息,如播报该提示信息和/或显示该提示信息,以通过该提示信息提示执行该目标操作。
62.可以理解的是,语音控制系统可以通过提示信息提示用户目标车辆正在执行或即将执行目标操作,并控制目标车辆执行目标操作;也可以通过提示信息提示用户执行目标操作;还可以通过提示信息提示用户控制目标车辆执行目标操作,或者,通过提示信息询问用户是否允许目标车辆执行目标操作,并在接收到用户的相应控制指令时,控制目标车辆执行目标操作,具体可以根据需要进行设置,本实施例不对此进行限制。
63.本发明实施例一提供的语音指令的处理方法,采集语音信号;如果该语音信号中携带有至少一个当前语音指令,则根据该语音信号确定目标车辆所处的环境类型;如果该环境类型为多人语音环境,则根据该语音信息确定上述至少一个当前语音指令的语音音量,并基于该语音音量确定上述至少一个当前语音指令中的当前待处理语音指令,其中,该当前待处理语音指令的语音音量大于或等于预设音量阈值;对当前待处理语音指令进行处理。本实施例通过采用上述技术方案,当车辆处于多人语音环境时,根据语音音,采用不同的方式对语音信号中所携带的语音指令进行处理,能够丰富语音指令的处理方式,提高语音指令识别的效率以及对语音指令反馈的及时性,并降低基于语音指令对车辆进行错误控制的概率。
64.实施例二
65.图2为本发明实施例二提供的一种语音指令的处理方法的流程示意图。本实施例在上述实施例的基础上进行优化。可选的,在所述对所述当前待处理语音指令进行处理之前,还包括:如果所述环境类型为单人语音环境,则将所述至少一个语音指令作为当前待处
理语音指令。
66.相应的,如图2所示,本发明实施例二提供的语音指令的处理方法可以包括:
67.s210、采集语音信号。
68.s220、如果所述语音信号中携带有至少一个当前语音指令,则根据所述语音信号确定目标车辆所处的环境类型,执行s230或s240。
69.在本实施例中,目标车辆所处的环境可以包括单人语音环境或多人语音环境。根据语音信号确定目标车辆所处的环境类型的方式可以灵活设置,如可以判断语音信号中是否存在多个说话者同时说话的语音片段,即在同一时刻存在多个说话者的语音的语音片段,若是,则判定目标车辆处于多人语音环境;若否,则判定目标车辆处于单人语音环境。优选可以判断语音信号中是否包含多个说话者的语音,即在语音信号的采集时间段内存在多个说话者,若是,则判定目标车辆处于多人语音环境;若否,则判定目标车辆处于单人语音环境。
70.s230、如果所述环境类型为多人语音环境,则根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,执行s250,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值。
71.s240、如果所述环境类型为单人语音环境,则将所述至少一个语音指令作为当前待处理语音指令。
72.具体的,若目标车辆处于单人语音环境,即若仅存在一个说话者,则可以将该语音信号中所携带的所有语音指令均作为当前待处理语音指令,以对各当前待处理语音指令进行响应。
73.s250、对所述当前待处理语音指令进行处理。
74.本发明实施例二提供的语音指令的处理方法,当车辆处于不同的环境时和/或语音指令的语音音量不相同时,采用不同的方式对语音信号中所携带的语音指令进行处理,能够提高语音指令识别的效率以及对语音指令反馈的及时性,并降低基于语音指令对车辆进行错误控制的概率。
75.实施例三
76.图3为本发明实施例三提供了一种语音指令的处理装置的结构框图,本实施例可适用于对语音指令进行处理的情况,该语音指令的处理装置可以采用硬件和/或软件的形式实现,该语音指令的处理装置可配置于语音控制系统中,该语音控制系统可以配置于车辆内。如图3所示,该装置包括:信号采集模块301、音量确定模块302、指令确定模块303和第一处理模块304,其中,
77.信号采集模块301,用于采集语音信号;
78.类型确定模块302,用于响应于所述语音信号中携带有至少一个当前语音指令的情况,根据所述语音信号确定目标车辆所处的环境类型;
79.指令确定模块303,用于响应于所述环境类型为多人语音环境的情况,根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;
80.第一处理模块304,用于对所述当前待处理语音指令进行处理。
81.本发明实施例三提供的语音指令的处理装置,通过信号采集模块采集语音信号;通过类型确定模块响应于该语音信号中携带有至少一个当前语音指令的情况,根据该语音信号确定目标车辆所处的环境类型;通过指令确定模块响应于该环境类型为多人语音环境的情况,根据该语音信息确定上述至少一个当前语音指令的语音音量,并基于该语音音量确定上述至少一个当前语音指令中的当前待处理语音指令,其中,该当前待处理语音指令的语音音量大于或等于预设音量阈值;通过第一处理模块对当前待处理语音指令进行处理。本实施例通过采用上述技术方案,当车辆处于多人语音环境时,根据语音音量,采用不同的方式对语音信号中所携带的语音指令进行处理,能够丰富语音指令的处理方式,提高语音指令识别的效率以及对语音指令反馈的及时性,并降低基于语音指令对车辆进行错误控制的概率。
82.进一步地,本实施例提供的语音指令的处理装置还可以包括:第二处理模块,用于响应于确定所述至少一个语音指令中不存在当前待处理语音指令的情况,不对所述至少一个语音指令进行处理。
83.在上述方案中,所述当前待处理语音指令可以为所述至少一个语音指令中语音音量最大的语音指令。
84.在上述方案中,所述指令确定模块303可以用于:响应于所述环境类型为单人语音环境的情况,将所述至少一个语音指令作为当前待处理语音指令,并对所述当前待处理语音指令进行响应。
85.在上述方案中,所述第一处理模块304可以用于:响应于所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔小于或等于预设时间长度的情况,在对历史待处理语音指令进行处理的同时,对所述当前待处理语音指令进行处理;响应于所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔大于预设时间长度的情况,在对历史待处理语音指令处理完毕之后,对所述待处理语音指令进行处理;其中,所述历史待处理语音指令为在所述当前待处理语音指令之前接收到的待处理语音指令。
86.在上述方案中,所述第一处理模块304可以用于:生成与所述当前待处理语音指令对应的控制指令,并将所述控制指令发送给所述目标车辆中的待控制对象的控制模块,以通过所述控制模块对所述待控制对象进行控制,所述待控制对象为与所述当前待处理语音指令对应的硬件或软件。
87.进一步地,本实施例提供的语音指令的处理装置还可以包括:情绪确定模块,用于在所述采集语音信号之后,根据所述语音信号确定说话者的情绪信息;提示模块,用于输出与所述情绪信息对应的提示信息,所述提示信息用于提示执行与所述情绪信息对应的目标操作。
88.进一步地,本实施例提供的语音指令的处理装置还可以包括:特征提取模块,用于在所述采集语音信号之后,提取所述语音信号的目标语音特征矢量;指令确定模块,用于在语音库中存在与所述目标语音特征矢量相匹配的目标标准语音特征矢量时,将所述目标标准语音特征矢量对应的标准语音指令作为所述语音信号中携带的当前语音指令。
89.本发明实施例所提供的语音指令的处理装置可执行本发明任意实施例所提供的
语音指令的处理方法,具备执行方法相应的功能模块和有益效果。
90.实施例四
91.图4示出了可以用来实施本发明的实施例的车辆10的结构示意图。如图4所示,车辆10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储车辆10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
92.车辆10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许车辆10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
93.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如语音指令的处理方法。
94.在一些实施例中,语音指令的处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到车辆10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的语音指令的处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音指令的处理方法。
95.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
96.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
97.在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算
机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
98.为了提供与用户的交互,可以在车辆上实施此处描述的系统和技术,该车辆具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给车辆。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
99.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
100.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
101.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
102.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术特征:


1.一种语音指令的处理方法,其特征在于,包括:采集语音信号;如果所述语音信号中携带有至少一个当前语音指令,则根据所述语音信号确定目标车辆所处的环境类型;如果所述环境类型为多人语音环境,则根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;对所述当前待处理语音指令进行处理。2.根据权利要求1所述的方法,其特征在于,还包括:如果确定所述至少一个语音指令中不存在当前待处理语音指令,则不对所述至少一个语音指令进行处理。3.根据权利要求1所述的方法,其特征在于,所述当前待处理语音指令为所述至少一个语音指令中语音音量最大的语音指令。4.根据权利要求1所述的方法,其特征在于,在所述对所述当前待处理语音指令进行处理之前,还包括:如果所述环境类型为单人语音环境,则将所述至少一个语音指令作为当前待处理语音指令。5.根据权利要求1或4所述的方法,其特征在于,所述对所述当前待处理语音指令进行处理,包括:如果所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔小于或等于预设时间长度,则在对历史待处理语音指令进行处理的同时,对所述当前待处理语音指令进行处理;如果所述当前待处理语音指令的接收时间与最后一次接收到唤醒指令的时间之间的时间间隔大于预设时间长,则在对历史待处理语音指令处理完毕之后,对所述当前待处理语音指令进行处理;其中,所述历史待处理语音指令为在所述当前待处理语音指令之前接收到的待处理语音指令。6.根据权利要求1或4所述的方法,其特征在于,所述对所述当前待处理语音指令进行处理,包括:生成与所述当前待处理语音指令对应的控制指令,并将所述控制指令发送给所述目标车辆中的待控制对象的控制模块,以通过所述控制模块对所述待控制对象进行控制,所述待控制对象为与所述当前待处理语音指令对应的硬件或软件。7.根据权利要求1所述的方法,其特征在于,在所述采集语音信号之后,还包括:根据所述语音信号确定说话者的情绪信息;输出与所述情绪信息对应的提示信息,所述提示信息用于提示执行与所述情绪信息对应的目标操作。8.根据权利要求1所述的方法,其特征在于,在所述采集语音信号之后,还包括:提取所述语音信号的目标语音特征矢量;如果语音库中存在与所述目标语音特征矢量相匹配的目标标准语音特征矢量,则将所
述目标标准语音特征矢量对应的标准语音指令作为所述语音信号中携带的当前语音指令。9.一种语音指令的处理装置,其特征在于,包括:信号采集模块,用于采集语音信号;类型确定模块,用于响应于所述语音信号中携带有至少一个当前语音指令的情况,根据所述语音信号确定目标车辆所处的环境类型;指令确定模块,用于响应于所述环境类型为多人语音环境的情况,根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;第一处理模块,用于对所述当前待处理语音指令进行处理。10.一种车辆,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的语音指令的处理方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的语音指令的处理方法。

技术总结


本发明公开了一种语音指令的处理方法、装置、车辆和存储介质。该方法包括:采集语音信号;如果所述语音信号中携带有至少一个当前语音指令,则根据所述语音信号确定目标车辆所处的环境类型;如果所述环境类型为多人语音环境,则根据所述语音信号确定所述至少一个当前语音指令的语音音量,并基于所述语音音量确定所述至少一个当前语音指令中的当前待处理语音指令,其中,所述当前待处理语音指令的语音音量大于或等于预设音量阈值;对所述当前待处理语音指令进行处理。本发明实施例通过采用上述技术方案,能够丰富语音指令的处理方式。能够丰富语音指令的处理方式。能够丰富语音指令的处理方式。


技术研发人员:

翟诺 郝伟杰 张影 王翀 杨庆敖 臧琳 沈悦

受保护的技术使用者:

中国第一汽车股份有限公司

技术研发日:

2022.11.24

技术公布日:

2023/3/28

本文发布于:2023-03-30 16:38:58,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/81610.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   指令   所述   信号
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图