语音交互控制方法、装置、电子设备和存储介质与流程

阅读：评论：0

1.本公开涉及人机智能交互技术领域，具体涉及一种语音交互控制方法、装置、电子设备和存储介质。

背景技术：

2.在智能座舱技术中，因为语音交互控制的方法使得用户手眼的参与度降低，可以降低驾驶过程驾驶员视线离开路面的时长和双手离开方向盘时长，进而提高驾驶安全性，所以在新量产中高级车辆中普遍配置有语音交互控制模块。
3.但是，现有的语音交互控制模块在被唤醒而与用户进行交互时，在完成对用户在前输入控制语音的处理后才能接收用户在后控制语音，无法接收用户的插话，进而造成用户的使用体验较差。

技术实现要素：

4.为了解决上述技术问题，本公开实施例提供一种语音交互控制方法、装置、电子设备和存储介质。
5.第一方面，本公开实施例提供一种语音交互控制方法，包括：
6.在监听到所处环境的音频信号包括第一控制语音情况下，根据所述第一控制语音得到第一控制指令，以及根据所述第一控制指令执行第一响应；以及，同时继续监听所处环境的音频信号；
7.在继续监听的音频信号包括第二控制语音的情况下，根据所述第二控制语音得到第二控制指令；
8.根据所述第二控制指令执行第二响应。
9.可选的，在所述根据所述第二控制指令执行第二响应之前，所述方法还包括：判断是否完成所述第一响应；
10.所述根据所述第二控制指令执行第二响应，包括：在完成所述第一响应执行的情况下，根据所述第二控制指令执行所述第二响应。
11.可选的，所述方法还包括：判断所述第二控制指令与所述第一控制指令的语义是否相同；
12.所述根据所述第二控制指令执行所述第二响应，包括：在所述第二控制指令与所述第一控制指令语义不同的情况下，根据所述第二控制指令执行第二响应。
13.可选的，根据所述第二控制语音得到第二控制指令，包括：
14.在继续监听的音频信号包括多条所述第二控制语音的情况下，根据多条所述第二控制语音得到多条所述第二控制指令；
15.所述判断所述第二控制指令是否与所述第一控制指令的语义相同，包括：
16.将所述多条第二控制指令中的最后一条指令作为待执行指令；
17.判断所述待执行指令与所述第一控制指令的语义是否相同；
18.所述在所述第二控制指令与所述第一控制指令语义不同的情况下，执行所述第二控制指令，包括：
19.在所述待执行指令与所述第一控制指令语义不同的情况下，执行所述待执行指令。
20.可选的，所述方法还包括：在判定所述待执行指令与所述第一控制指令的语义相同的情况下，删除所述待执行指令，并将剩余的所述第二控制指令中最后一条指令作为待执行指令；
21.重新执行所述判断所述待执行指令与所述第一控制指令的语义是否相同的步骤。
22.可选的，所述第一响应包括第一交互响应，所述第二执行响应包括第二交互响应；
23.在判断是否完成所述第一响应之前，所述方法还包括：
24.判断所述第二交互响应是否与所述第一交互响应冲突；
25.在所述第二交互响应不与所述第一交互响应冲突的情况下，执行所述判断是否完成所述第一响应的步骤。
26.可选的，所述根据所述第二控制语音执行第二响应还包括：
27.在所述第二交互响应与所述第一交互响应冲突的情况下，停止对所述第一交互响应的执行，执行所述第二交互响应。
28.可选的，所述第一交互响应包括第一语音交互响应和/或第一显示交互响应，所述第二交互响应包括第二语音交互响应和/或第二显示交互响应；
29.所述判断所述第二交互响应是否与所述第一交互响应冲突，包括：
30.判断所述第一语音交互响应与所述第二语音交互响应是否冲突，和/或，
31.判断所述第一显示交互响应是否与所述第二显示交互冲突。
32.第二方面，本公开实施例提供一种语音交互控制装置，包括：
33.音频信号监听单元，用于监听所处环境的音频信号；
34.控制指令生成单元，用于所述音频信号监听单元在监听到所处环境的音频信号包括第一控制语音情况下，根据所述第一控制语音得到第一控制指令；
35.执行响应单元，用于根据所述第一控制指令执行第一响应；
36.所述音频信号监听单元还用于在控制指令生成单元根据所述第一控制语音得到第一控制指令时，和/或，所述执行相应单元根据所述第一控制指令执行第一响应时，继续监听所处环境的音频信号；
37.所述控制指令生成单元还用于在继续监听的音频信号包括第二控制语音的情况下，根据所述第二控制语音得到第二控制指令；
38.所述响应执行单元还用于根据所述第二控制指令执行第二响应。
39.第三方面，本公开实施例提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序；所述计算机程序在被所述处理器加载时，使所述处理器执行如前所述的语音交互控制方法。
40.第四方面，本公开实施例提供一种计算机可读存储介质，所述存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现如前所述的语音交互控制方法。
41.本公开实施例提供的技术方案与现有技术相比具有如下优点：
42.采用本公开实施例提供的方案，在根据第一控制语音得到第一控制指令，或者根
据第一控制指令执行第一响应的情况下，还会同时监听所处环境的音频信号，并在监听到第二控制语音的情况下，根据第二控制语音得到第二控制指令，并随后根据第二控制指令执行第二响应。如此，在处理第一控制语音的同时还可以同时获取用户的插话(插话是针对现有技术中电子设备在处理第一控制语音时用户再次发出的控制语音的形象化表示)，并对用户的插话进行处理。如此，用户在说出第一控制语音后无需等待即可以说出第二控制语音，实现控制语音的连续说出，进而提高了用户体验。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
44.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：
45.图1是本公开一些实施例提供的语音交互控制过程流程图；
46.图2是本公开实施例提供的语音交互控制方法流程图；
47.图3是本公开另外一些实施例通的语音交互控制方法的流程图；
48.图4是本公开实施例提供的语音交互控制装置的结构示意图；
49.图5是本公开一些实施例提供的电子设备的结构示意图。
具体实施方式
50.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
51.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
52.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
53.在对本公开实施例提供的语音交互控制方法进行展开描述前，首先对现有语音交互控制方法的不足之处进行分析。通过对现有已经商用化包括语音控制的产品进行试用发现，现有的语音控制方法的缺点在于：在被唤醒并接收用户说出的控制语音后，智能执行对控制语音的分析得到控制指令的步骤，以及根据控制指令执行对应的响应的动作。并在执行对应的响应动作后直接进入到休眠状态。现有的语音控制方法无法连续接收用户的多条控制语音，更无法在对控制语音进行分析和执行对应的响应动作时，接收到说出的其他控制语音。从用户的角度来看，现有的语音交互控制方法缺点如下：(1)无法直接接收用户发
出的多条控制语音；(2)在(1)的基础上，无法在进行响应操作的过程中接收用户发出的控制语音，也就是无法接收用户的插话。
54.本公开实施例提供一种语音交互控制方法，以解决现有语音交互控制方法具有的前述问题。
55.为了能够更为方便地理解本公开实施例提供的语音交互控制方法，首先对语音交互控制过程进行分析。
56.应当注意的是，下文的语音交互控制过程可以由各种电子设备执行，电子设备是安装语音交互控制模块的设备，电子设备不限于智能手机、笔记本电脑、个人数字助理(pda)、平板电脑(pad)、便携式多媒体播放器(pmp)、车载终端(例如车载导航终端)等移动终端，以及诸如数字tv、台式计算机、智能家居设备等固定终端。在下文举例中，主要以车载终端为执行语音交互控制方法的电子设备，对本公开实施例提供的语音交互控制方法进行介绍。
57.图1是本公开一些实施例提供的语音交互控制过程流程图。如图1所示，语音交互控制过程包括四个阶段，分别为：语音信号采集阶段、控制指令识别阶段、业务加载阶段和响应控制阶段。
58.语音信号采集阶段为电子设备对音频信号进行采集，并识别音频信号中的控制语音的阶段。
59.在语音信号采集阶段采集到控制语音后，电子设备执行控制指令识别阶段。文字识别阶段是对采集到的控制语音进行转换，得到对应的控制指令的阶段，也就是v2t(voice to text)的阶段。
60.在一些实施例中，电子设备可以采用本地的语音识别模型处理用控制语音得到对应的控制指令。在此情况下，电子设备得到识别控制指令的速度受到自身处理器性能的影响，识别控制指令的精度受到语音识别模型的影响，语音识别模型的复杂度需要根据处理器的处理速度做取舍。
61.在另外一些实施例中，电子设备可以将获取到的控制语音发送至远程服务器，利用远程服务器中配置的语音识别模型处理控制语音得到对应的控制指令。在此情况下，电子设备得到识别控制指令的速度受到网络通信速度和服务器性能的影响。在大部分情况下，服务器性能满足在设定时间内获取到识别控制指令的需求，影响电子设备获取到识别控制指令的核心是网络通信速度。在一些应用中，如果网络通信速度较差，电子设备可能先后将多个控制语音发送到远程服务器，但在经过较长时间后几乎同时接收到多个控制语音对应的识别控制指令，并且可能先获得在后控制语音对应的识别控制指令。应当注意的是，对电子设备来说，在控制指令识别阶段识别到的控制指令实质上是控制电子设备执行相应响应的控制指令。
62.业务加载阶段是电子设备根据识别到的控制指令加载对应的业务阶段。例如，在识别到的控制指令是对某一资讯进行检索的控制指令情况下，电子设备需要加载搜索接口，并将识别到的控制指令中的部分内容作为关键词输入到搜索接口中，以触发远程服务器中的搜索引擎基于关键词进行内容搜索、召回搜索内容，并将搜索内容返回给电子设备。
63.应当注意的是，业务加载阶段是一个可选的处理阶段，在某些语音交互控制过程中可能并没有业务加载阶段。例如，在控制语音为“开启空调”等直接对车辆硬件进行控制
的语音的情况下，电子设备在识别到“开启空调”的控制指令后，并不需要基于“开启空调”这一控制指令内容进行业务加载，只需要执行响应控制阶段，实现对应的响应控制。
64.响应控制阶段是电子设备基于前述阶段得到的控制指令或者业务内容，实现控制响应的阶段。例如，如果业务加载阶段加载相关业务内容，则电子设备可以通过语音方式或者显示方式输出业务内容的信息。再例如，如果识别到的控制指令为“开启空调”等无需实现业务加载的控制指令后，电子设备可以直接执行对应的控制操作，例如启动空调。在一些应用中，响应控制阶段在直接执行对应的控制操作后，还可以输出对应的反馈信息，例如通过语音输出的方式输出“空调已开启”的信息。
65.图2是本公开实施例提供的语音交互控制方法流程图。如图2所示，在本公开的一些实施例中，语音交互控制方法包括步骤s110-s130。
66.步骤s110：在监听到所处环境的音频信号包括第一控制语音情况下，根据第一控制语音得到第一控制指令，以及根据第一控制指令执行第一响应；以及，同时继续监听所处环境的音频信号。
67.本公开实施例中，在电子设备启动后，用户可以通过特定的唤醒方式实现语音交互控制模块的唤醒，使得语音交互控制模块能够监控所处环境的音频信号。
68.在一些实施例中，用户可以通过点击特定按键的形式，实现对语音交互控制的唤醒。例如，用户可以通过点击方向盘上的唤醒按键，实现对语音交互唤醒模块的唤醒。
69.在另外一些实施例中，用户可以通过语音控制的方式实现对语音交互控制的唤醒。例如，在电子设备预先设置的语音唤醒指令为“理想同学”的情况下，用户可以发出“理想同学”的控制语音，实现语音交互控制的唤醒。具体的，电子设备中的语音交互控制实通过拾音器实时地监听所处环境的音频信号，并对音频信号进行语音识别，也就是根据音频信号进行音频-文本转换。在识别到语音特征信息中包括“理想同学”的文本时，电子设备确定接收到用户发出的唤醒指令，唤醒语音交互控制。
70.在唤醒语音交互控制后，电子设备可以监听所处环境的音频信号，并对音频信号进行筛选，以确定音频信号中是否包括语音信号。在确定音频信号中具有控制语音的情况下，电子设备的语音交互控制对音频信号进行分解，得到其中的第一控制语音。在得到第一控制语音后，电子设备根据第一控制语音得到第一控制指令。如前，电子设备可以采用本地配置的语音识别模型处理第一控制语音得到第一控制指令，也可以将第一控制语音发送给远程服务器并接收远程服务器返回的第一控制指令。
71.在本公开的一些实施例中，电子设备在接收到第一控制指令后，可以根据第一控制指令执行第一响应。在第一控制指令是业务加载指令的情况下，第一响应是根据第一控制指令进行业务加载，并在业务加载后输出加载业务的响应。在第一控制指令是直接对车辆进行控制的指令的情况下，第一响应可以是直接执行相应控制操作的响应，以及输出已经执行相应控制操作的反馈信息的响应。
72.电子设备在执行前述根据第一控制语音得到第一控制指令，以及根据第一控制指令执行第一响应的过程中，电子设备同时继续监听所处环境的音频信号。
73.步骤s120：在继续监听到的音频信号包括第二控制语音的情况下，根据第二控制语音得到第二控制指令。
74.本公开实施例中，电子设备可能在执行根据第一控制语音得到第一控制指令的过
程中监听到第二控制语音，也可能在根据第一控制指令进行第一执行相应的过程中监听到第二控制语音。
75.如果电子设备监听到第二控制语音，则可以根据第二控制语音得到第二控制指令。，电子设备根据第二控制语音得到第二控制指令的方法与前述得到第一控制指令的方法相同，此处不再复述，具体可以参见前文表述。
76.步骤s130：根据第二控制指令执行第二响应。
77.本公开实施例中，电子设备根据第二控制指令执行第二响应的方法可以与前述执行第一响应的方法相同，此处不再复述，具体可以参见前文表述。但是，本公开实施例中电子设备根据第二控制执行第二响应的时间点可以根据预先策略的不同而不同；例如：在一些实施例中，电子设备可以在第一响应执行完成后，执行第二响应；在另外一些实施例中，电子设备可以在第一响应部分执行完成后，执行第二响应；在其他实施例中，电子设备可以直接停止对第一响应的执行，执行第二响应。
78.此外，在本公开的一些实施例中，电子设备在监听到第二控制语音，并基于第二控制语音得到第二控制指令后，其可能还未得到第一控制指令。在此情况下，电子设备可以先执行第二控制指令，再执行第一控制指令。例如，在电子设备将第一控制语音和第二控制语音发送给远程服务器，利用远程服务器处理得到第一控制指令和第二控制指令的情况下，可能因为网络问题造成第二控制指令先于第一控制指令返回给电子设备。此时，电子设备可以根据第二控制指令执行第二响应，在根据第一控制指令执行第一响应。
79.采用本公开实施例提供的语音交互控制方法，电子设备在根据第一控制语音得到第一控制指令，或者根据第一控制指令执行第一响应的情况下，还会同时监听所处环境的音频信号，并在监听到第二控制语音的情况下，根据第二控制语音得到第二控制指令，并随后根据第二控制指令执行第二响应。
80.形象地来说，采用本公开实施例提供的语音交互控制方法，电子设备可以实现全双工工作，能够在处理用户已经输入的第一控制语音的同时，继续处理用户输入的第二控制语音。
81.更为形象地来说，采用本公开实施例提供的语音交互控制方法，电子设备在处理第一控制语音的同时还可以同时获取用户的插话(插话是针对现有技术中电子设备在处理第一控制语音时用户再次发出的控制语音的形象化表示)，并对用户的插话进行处理。如此，用户在说出第一控制语音后无需等待即可以说出第二控制语音，实现控制语音的连续说出，进而提高了用户体验。
82.图3是本公开另外一些实施例通的语音交互控制方法的流程图。如图3所示，在本公开的另外一些实施例中，语音交互控制方法包括步骤s210-s260。
83.步骤s210：在监听到所处环境的音频信号包括第一控制语音情况下，根据第一控制语音得到第一控制指令。
84.步骤s220：根据第一控制指令执行第一响应。
85.在执行前述步骤s210和s220的同时，执行步骤s230。
86.步骤s230:继续监听所处环境的音频信号，并判断继续监听的音频信号是否包括第二控制语音；若是，执行步骤s240。
87.步骤s240：根据第二控制语音得到第二控制指令。
88.前述的步骤s210-s240的具体执行过程与前文的步骤s110-s120类似，此处不再复述，具体可以参见前文表述。
89.步骤s250：判断是否完成第一响应的执行。若是，执行步骤s260。
90.步骤s260：根据第二控制指令执行第二响应。
91.本公开实施例中，在根据第二控制指令之前，电子设备在根据第二控制指令执行第二响应之前，先判断是否完成第一响应的执行。在判定完成第一响应执行的情况下，才会根据第二控制指令执行第二响应。而如果判定没有完成第一响应的执行，则继续等待，直至第一响应完成执行后，才会根据第二控制指令执行第二响应。
92.在实际应用中，一些响应动作的执行需要在另外一些响应动作执行后才可以执行。例如，在车辆处在驻停状态的情况下，只有解锁驻车制动器的情况下才能控制车辆前进或者倒退。如果用户输出了“解除手刹”的第一控制语音，使得电子设备执行解除手刹的响应操作，但是前述解除手刹的响应操作还未完成执行，即使用户说出了“按照道路限速”进行行驶的第二控制语音，由于没有解除驻车制动器，电子设备也不会控制动力装置输出动力，使得车辆加速并达到道路限速速度。
93.在另外一些实施例中，如果不先执行第一控制语音对应的第一响应，而是先执行第二控制语音对应的第二响应，则可能造成用户感知错乱。例如，如果当前车窗处在半开状态，如果第一控制语音为“开大车窗”，第二控制语音为“关小车窗”，并且用户本来是想控制车辆关小车窗，但是因为思维短路说出了“开大车窗”。如果电子设备线执行“关小车窗”这一第二响应，随后再执行“开大车窗”这一第一响应，则会与用户意图正好相反，使得用户感知错乱。采用本公开实施例提供的前述语音交互控制方法，可以避免出现用户感知错乱的问题，进而提高用户体验。
94.可选的，在本公开的一些实施例中，电子设备除了执行前述的步骤s210-s260之外，还可以执行步骤s270。步骤s270可以在步骤s250之前执行，也可以在步骤s250之后执行，本公开实施例并不做限定。较为优选的，步骤s270在步骤s250之前。
95.步骤s270：判断第二控制指令是否与第一控制指令的语义相同；若否，执行随后的步骤s250或者步骤s260。
96.本公开一些实施例中，电子设备判断第一控制指令与第二控制指令的语义是否相同，可以采用计算第一控制指令和第二控制指令的编辑距离。如果二者的编辑距离小于预设距离，则确定第一控制指令和第二控制指令相同。
97.本公开另外一些实施例中，电子设备判断第一控制指令与第二控制指令的语义是否相同，可以将第一控制指令和第二控制指令输入到预先训练的语义相似度计算模型，确定二者的语义是否相同。
98.实际应用中，用户可能连续输入多个意图相近的控制语音，但是由于各种原因，电子设备并没有在合理的时间内反馈。例如，用户想降低空调温度至20度，但是由于网络原因，“降低空调温度至20度”的语音发送给远程服务器，远程服务器生成的第一控制指令并没有及时返回给电子设备。此时，用户认为电子设备没有听到“降低空调温度至20度”的控制语音，因此会重复这一语音，随后电子设备将此语音再次发送给远程服务器。随后，网络质量编号，电子设备同时接收到语义为“降低空调温度至20度”的第一控制指令和第二控制指令。如果在执行完第一控制指令后，继续执行第二控制指令，则电子设备会连续输出“现
在空调温度已经调整为20度”的反馈，影响用户体验。为了避免前述问题，在本公开的一些实施例中，在确定第一控制指令与第二控制指令语义不同的情况下，才会触发执行根据第二控制指令的操作，进而可以提高用户体验。
99.可选的，在本公开的一些实施例中，电子设备在执行述步骤s230继续监听所处环境的音频信号时，可能监听到多条第二控制语音。在此情况下，步骤s240第二控制语音得到第二控制指令具体为：根据多条第二控制语音得到多条第二控制指令。
100.在第二控制指令为多条的情况下，前述的步骤s270判断第二控制指令是否与第一控制指令的语义相同包括步骤s271-s272。
101.步骤s271：将多条第二控制指令中的最后一条指令作为待执行指令。
102.步骤s272：判断待执行指令与第一控制指令的语义是否相同。
103.在执行前述步骤s271-s272后，判定待执行指令与第一控制指令的语义不同后，电子设备可以执行步骤s250或者步骤s260。例如，在判定待执行指令与第一控制指令的语义不同后，执行待执行指令，也就是执行最后一条指令。
104.在实际应用中，用户可能在说出第一控制语音后，连续说了多条第二控制语音。电子设备在监听到多条第二控制语音后，将多条第二控制语音发送给远程服务器，以期获得多条第二控制指令。但是由于网路原因，多条第二控制指令集中返回给电子设备，使得电子设备需要连续执行多条第二控制指令，而造成对用户最新说的第二控制语音对应的第二控制指令的执行较慢，较低了用户体验。为避免前述问题，本公开实施例中，电子设备在获取到多条第二控制指令后，将最后一条指令作为待执行指令，判断其是否与第一控制指令的语义是否相同。如果不同，则在第一控制指令后，执行待执行指令。
105.可选的，在本公开的一些实施例中，电子设备在执行前述的步骤s272判定待执行指令与第一控制指令的语义相同后，还可以执行步骤s273。
106.步骤s273：删除待执行指令，并将剩余的第二控制指令中最后一条指令作为待执行指令，并再次执行步骤s272。
107.也就是说，在一些实施例中如果电子设备确定最后一条第二控制指令与第一控制指令相同，则会将其删除，并将剩余第二控制指令中的最后一条控制指令作为待执行指令，直至到与第一控制指令语义不同的第二控制指令，并继续执行。而如果所有的第二控制指令均与第一控制指令相同，则将所有的第二控制指令删除，也就不会执行步骤s260。
108.在本公开的一些实施例中，第一响应包括第一交互响应，第二响应包括第二交互响应。在此情况下，电子设备在执行步骤s250判断是否完成第一响应之前，还可以包括步骤s280。
109.步骤s280：判断第二交互响应是否与第一交互响应冲突；若不冲突，则执行步骤s250。
110.在本公开的一些实施例中，如果第二交互响应不与第一交互响应冲突，此时继续进行第一交互响应并不会使得用户产生困惑，或者不会造成错误的控制逻辑，因此此时可以先完成第一响应(包括第一交互响应)，再执行第二交互响应，此时可以执行步骤s250判断第一交互响应是否完成执行。
111.可选的，在本公开的一些实施例中，在执行步骤s280判定第二交互响应于第一交互响应冲突的情况下，电子设备还可以执行步骤s290。
112.步骤s290：停止对第一交互响应的执行，执行第二交互响应。
113.如果第二交互响应与第一交互响应冲突，继续执行第一交互响应在执行第二交互响应可能影响用户体验，此时可以停止第一交互响应的执行，直接执行第二交互响应。
114.在本公开的一些实施例中，第一交互响应包括第一语音交互响应或者第一显示交互响应，第二交互响应包括第二语音交互响应或者第二显示交互响应。对应的，判断第二交互响应是否与第一交互响应是否冲突，包括：判断第一语音交互响应与第二语音交互响应是否冲突，和/或，判断第一显示交互响应是否与第二显示交互冲突。
115.以下对一些可能存在冲突的第一交互响应和第二交互响应进行举例，以更好地理解本方案。
116.在一些具体应用中，用户说出的第一控制语音为“导航至全聚德”，随后电子设备根据第一控制语音确定第一控制指令，执行第一交互响应“显示多个全聚德的地址”并语音输出“选择到第几个全聚德”。在语音输出“选择到第几个全聚德”的过程中，用户说出第二控制语音“第二个”，电子设备得到第二控制指令“第二个”。此时电子设备确定“选择到第几个全聚德”与第二交互响应“好的”冲突，则直接执行“好的”，随后电子设备显示导航至第二个全聚德的导航路线。
117.在一些具体应用中，用户说出的第一控制语音为“北京天气怎么样”，随后电子设备根据第一控制语音确定第一控制指令，显示输出“北京天气xxxxxx”并语音输出“选北京天气xxxxxx”。在语音输出过程中，用户说出第二控制语音“深圳天气怎么样”，此时电子设备确定第二控制指令“深圳天气怎么样”。此时，电子设备确定“北京天气xxxx”与“深圳天气xxx”冲突，因此显示输出“深圳天气xxx”并语音输出“深圳天气xxxxxx”。
118.除了提供前述的语音交互控制方法外，本公开实施例还提供实现前述语音交互控制方法的语音交互控制装置。
119.图4是本公开实施例提供的语音交互控制装置的结构示意图。如图4所示，本公开实施例提供的语音交互控制装置400包括音频信号监听单元401、控制指令生成单元402和执行响应单元403。
120.音频信号监听单元401用于监听所处环境的音频信号。控制指令生成单元402用于音频信号监听单元401在监听到所处环境的音频信号包括第一控制语音情况下，根据第一控制语音得到第一控制指令。执行响应单元403用于根据第一控制指令执行第一响应；
121.音频信号监听单元401还用于在控制指令生成单元402根据第一控制语音得到第一控制指令时，和/或，执行相应单元根据第一控制指令执行第一响应时，继续监听所处环境的音频信号；控制指令生成单元402还用于在继续监听的音频信号包括第二控制语音的情况下，根据第二控制语音得到第二控制指令；响应执行单元还用于根据第二控制指令执行第二响应。
122.在本公开的一些实施例中，语音交互控制装置400还包括第一判断单元。第一判断单元用于判断是否完成第一响应。执行响应单元403在完成第一响应执行的情况下，根据第二控制指令执行第二响应。
123.在本公开的一些实施例中，语义交互控制单元还包括第二判断单元。第二判断单元用于判断第二控制指令与第一控制指令的语义是否相同。执行响应单元403在第二控制指令与第一控制指令语义不同的情况下，根据第二控制指令执行第二响应。
124.在本公开的一些实施例中，控制指令生成单元402在音频信号监听单元401继续监听的音频信号包括多条第二控制语音的情况下，根据多条第二控制语音得到多条第二控制指令。对应的，第二判断单元包括待执行指令确定子单元和第二判断子单元。
125.待执行指令确定子单元将多条第二控制指令中的最后一条指令作为待执行指令；第二判断子单元判断待执行指令与第一控制指令的语义是否相同。执行响应单元403在在待执行指令与第一控制指令语义不同的情况下，执行待执行指令。
126.在本公开的一些实施例中，在第二判断子单元判定待执行指令与第一控制指令的语义相同的情况下，待执行指令确定子单元删除待执行指令，并将剩余的第二控制指令中最后一条指令作为待执行指令，随后第二判断子单元重新执行判断待执行指令与第一控制指令的语义是否相同的步骤。
127.在本公开的一些实施例中，第一响应包括第一交互响应，第二执行响应包括第二交互响应。语音交互控制装置400还包括冲突判断单元。在第一判断单元判断判断是否完成第一响应之前，冲突判断单元判断第二交互响应是否与第一交互响应冲突。在冲突判断单元判定第二交互响应不与第一交互响应冲突的情况下，第一判断单元执行判断是否完成第一响应的步骤。
128.在本公开的一些实施例中，在冲突判断单元判定第二交互响应与第一交互响应冲突的情况下，响应执行单元停止对第一交互响应的执行，执行第二交互响应。
129.在本公开的一些实施龙虎宗，第一交互响应包括第一语音交互响应和/或第一显示交互响应，第二交互响应包括第二语音交互响应和/或第二显示交互响应。冲突判断单元判断第二交互响应是否与第一交互响应冲突包括：判断第一语音交互响应与第二语音交互响应是否冲突，和/或，判断第一显示交互响应是否与第二显示交互冲突。
130.本公开实施例还提供一种电子设备，该电子设备包括处理器和存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时可以实现上述任一实施例的语音语音交互控制方法。
131.图5是本公开一些实施例提供的电子设备的结构示意图。下面具体参考图5，其示出了适于用来实现本公开实施例中的电子设备500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
132.如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器rom502中的程序或者从存储装置508加载到随机访问存储器ram503中的程序而执行各种适当的动作和处理。在ram 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出i/o接口505也连接至总线504。
133.通常，以下装置可以连接至i/o接口505：包括例如触摸屏、触摸板、摄像头、麦克风、加速度计、陀螺仪等的输入装置505；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
134.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机
软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从rom 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。
135.需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
136.在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
137.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
138.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：在监听到所处环境的音频信号包括第一控制语音情况下，根据第一控制语音得到第一控制指令，以及根据第一控制指令执行第一响应；以及，同时继续监听所处环境的音频信号；在继续监听的音频信号包括第二控制语音的情况下，根据第二控制语音得到第二控制指令；根据第二控制指令执行第二响应。
139.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利
用因特网服务提供商来通过因特网连接)。
140.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的根据硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
141.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。
142.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
143.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括根据一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
144.本公开实施例还提供一种计算机可读存储介质，所述存储介质中存储有计算机程序，当所述计算机程序被处理器执行时可以实现上述任一方法实施例的方法，其执行方式和有益效果类似，在这里不再赘述。
145.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
146.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种语音交互控制方法，其特征在于，包括：在监听到所处环境的音频信号包括第一控制语音情况下，根据所述第一控制语音得到第一控制指令，以及根据所述第一控制指令执行第一响应；以及，同时继续监听所处环境的音频信号；在继续监听的音频信号包括第二控制语音的情况下，根据所述第二控制语音得到第二控制指令；根据所述第二控制指令执行第二响应。2.根据权利要求1所述的方法，其特征在于，在所述根据所述第二控制指令执行第二响应之前，所述方法还包括：判断是否完成所述第一响应；所述根据所述第二控制指令执行第二响应，包括：在完成所述第一响应执行的情况下，根据所述第二控制指令执行所述第二响应。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：判断所述第二控制指令与所述第一控制指令的语义是否相同；所述根据所述第二控制指令执行所述第二响应，包括：在所述第二控制指令与所述第一控制指令语义不同的情况下，根据所述第二控制指令执行第二响应。4.根据权利要求3所述的方法，其特征在于，根据所述第二控制语音得到第二控制指令，包括：在继续监听的音频信号包括多条所述第二控制语音的情况下，根据多条所述第二控制语音得到多条所述第二控制指令；所述判断所述第二控制指令是否与所述第一控制指令的语义相同，包括：将所述多条第二控制指令中的最后一条指令作为待执行指令；判断所述待执行指令与所述第一控制指令的语义是否相同；所述在所述第二控制指令与所述第一控制指令语义不同的情况下，执行所述第二控制指令，包括：在所述待执行指令与所述第一控制指令语义不同的情况下，执行所述待执行指令。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：在判定所述待执行指令与所述第一控制指令的语义相同的情况下，删除所述待执行指令，并将剩余的所述第二控制指令中最后一条指令作为待执行指令；重新执行所述判断所述待执行指令与所述第一控制指令的语义是否相同的步骤。6.根据权利要求2所述的方法，其特征在于，所述第一响应包括第一交互响应，所述第二响应包括第二交互响应；在判断是否完成所述第一响应之前，所述方法还包括：判断所述第二交互响应是否与所述第一交互响应冲突；在所述第二交互响应不与所述第一交互响应冲突的情况下，执行所述判断是否完成所述第一响应的步骤。7.根据权利要求6所述的方法，其特征在于，所述根据所述第二控制语音执行第二响应还包括：在所述第二交互响应与所述第一交互响应冲突的情况下，停止对所述第一交互响应的
执行，执行所述第二交互响应。8.根据权利要求6所述的方法，其特征在于，所述第一交互响应包括第一语音交互响应和/或第一显示交互响应，所述第二交互响应包括第二语音交互响应和/或第二显示交互响应；所述判断所述第二交互响应是否与所述第一交互响应冲突，包括：判断所述第一语音交互响应与所述第二语音交互响应是否冲突，和/或，判断所述第一显示交互响应是否与所述第二显示交互冲突。9.一种语音交互控制装置，其特征在于，包括：音频信号监听单元，用于监听所处环境的音频信号；控制指令生成单元，用于所述音频信号监听单元在监听到所处环境的音频信号包括第一控制语音情况下，根据所述第一控制语音得到第一控制指令；执行响应单元，用于根据所述第一控制指令执行第一响应；所述音频信号监听单元还用于在控制指令生成单元根据所述第一控制语音得到第一控制指令时，和/或，所述执行相应单元根据所述第一控制指令执行第一响应时，继续监听所处环境的音频信号；所述控制指令生成单元还用于在继续监听的音频信号包括第二控制语音的情况下，根据所述第二控制语音得到第二控制指令；所述响应执行单元还用于根据所述第二控制指令执行第二响应。10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序；所述计算机程序在被所述处理器加载时，使所述处理器执行如权利要求1-8任一项所述的语音交互控制方法。11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现如权利要求1-8任一项所述的语音交互控制方法。

技术总结

本公开实施例提供一种语音交互控制方法、装置、电子设备和存储介质。语音交互控制方法，包括：在监听到所处环境的音频信号包括第一控制语音情况下，根据所述第一控制语音得到第一控制指令，以及根据所述第一控制指令执行第一响应；以及，同时继续监听所处环境的音频信号；在继续监听的音频信号包括第二控制语音的情况下，根据所述第二控制语音得到第二控制指令；根据所述第二控制指令执行第二响应。用户在说出第一控制语音后无需等待即可以说出第二控制语音，实现控制语音的连续说出，进而提高了用户体验。高了用户体验。高了用户体验。