驾驶场景中的语音问答方法、装置及车载终端与流程

阅读: 评论:0



1.本技术涉及人机交互技术领域,特别涉及一种驾驶场景中的语音问答方法、装置及车载终端。


背景技术:



2.随着车联网系统的快速发展,驾驶场景中的人车交互功能也不断普及,其中语音作为一项便捷的交互的方式,在人车交互中得到了广泛的应用,由此驾驶场景中的问答系统也不断完善。
3.相关技术中,智能车机配备语音交互系统,可以在驾驶场景中获取用户语音实现设备控制或语音问答,其中,语音问答功能先通过语音识别技术转换为文本,再通过数据查询的方式到与该文本匹配的答案,最后通过屏幕显示或语音播报的形式返回结果给用户,以实现智能问答的目的。
4.然而,上述方法中的问答系统仅适用于用户对智能车机设备状态或可直接在互联网搜索到答案的问题,仅能实现简单载具控制以及导航功能,智能化程度较低。


技术实现要素:



5.本技术实施例提供了一种驾驶场景中的语音问答方法、装置及车载终端。所述技术方案如下:
6.一方面,本技术实施例提供了一种驾驶场景中的语音问答方法,所述方法包括:
7.在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且所述外部环境信息用于表征所述载具所处的外部环境;
8.基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果;
9.基于所述问答结果进行语音播报。
10.另一方面,本技术实施例提供了一种驾驶场景中的语音问答装置,所述装置包括:
11.信息获取模块,用于在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且所述外部环境信息用于表征所述载具所处的外部环境;
12.结果获取模块,用于基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果;
13.语音播报模块,用于基于所述问答结果进行语音播报。
14.另一方面,本技术实施例提供了一种终端,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的驾驶场景中的语音问答方法。
15.另一方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储
介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如上述方面所述的驾驶场景中的语音问答方法。
16.另一方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的驾驶场景中的语音问答方法。
17.本技术实施例中,在接收到语音问答指令的情况下,车载终端能够基于表征所处外部环境的外部环境信息,确定该语音问答指令的问答结果,并通过语音方式进行问答结果播报,实现驾驶过程中针对实时外部环境的智能问答,提高了驾驶过程中人机交互的交互成功率以及智能化程度。
附图说明
18.图1是本技术一个示例性实施例提供的实施环境的示意图;
19.图2是本技术一个示例性实施例提供的语音问答系统的主要组成部分的方框图;
20.图3是本技术一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图;
21.图4是本技术另一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图;
22.图5是本技术另一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图;
23.图6是本技术一个示例性实施例提供的获取外部环境影像过程的示意图;
24.图7是本技术一示例性实施例提供的获取语音问答指令对应的问答文本过程的示意图;
25.图8是本技术又一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图;
26.图9是本技术一示例性实施例提供的确定第一采集时段过程的示意图;
27.图10是本技术一示例性实施例提供的获取语音问答指令对应的问答结果的流程图;
28.图11是本技术实施例提供的问答分析算法的示意图;
29.图12是本技术一示例性实施例提供的一种对外部环境信息进行特征提取,得到外部环境特征的方式的流程图;
30.图13是本技术一个示例性实施例示出的观察者视角与拍摄视角间差异的示意图;
31.图14是本技术一示例性实施例提供的语音问答应用场景的示意图;
32.图15是本技术一示例性实施例提出的车载终端状态转移的示意图;
33.图16是本技术一示例性实施例提供的驾驶场景中的语音问答装置的结构框图;
34.图17是本技术一示例性实施例提供的车载终端的结构方框图。
具体实施方式
35.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
36.图1是本技术一个示例性实施例提供的实施环境的示意图,该实施环境可以包括:载具110、车载终端120以及服务器130。
37.载具110可以是车辆、船只、飞行器等,下述实施例均以车辆为例进行说明,但并不对此构成限定。
38.载具110的外部设有环境信息采集组件,该环境信息采集组件可以包括图像采集组件140以及音频采集组件150。其中,图像采集组件用于采集外部环境影像,具体指能够被人眼看见的景物,例如,外部环境中的建筑、车辆等。音频采集组件用于采集外部环境音频,具体指能够为人耳听到的声音,例如,外部环境中的鸣笛声、鸟叫声等。
39.本技术实施例中,车载终端120设置在载具110中,车载终端120可以是车机121,也可以是与车机建立通信连接的移动终端122,例如,智能手机、笔记本电脑、可穿戴式设备等电子设备,图1中以移动终端122为智能手机为例进行说明。车机121与移动终端122间的通信连接可通过有线或无线方式建立,例如,蓝牙连接、通用串行总线(universal serial bus,usb)、无线保真(wireless fidelity,wifi)连接或移动数据网络连接等等,本实施例对此不作限定。
40.车载终端120用于对外部环境信息以及用户语音指令进行处理,具体为从外部环境信息中提取目标外部环境信息,将语音问答指令转换成对应的语音问答文本,基于目标外部环境信息和语音问答指令对应的语音问答文本生成问答结果。
41.本技术实施例中,车载终端120具有与服务器130进行数据通信的功能,以无线通信的方式建立连接,进而通过该连接进行数据通信。该通信连接可以为无线保真连接或移动数据网络连接等等,本技术实施例对此不作限定。
42.本技术实施例中,车载终端基于语音问答指令和外部环境信息生成问答结果时,可以通过本地车载终端的车机或移动终端进行处理,也可以借助服务器130生成问答结果。
43.需要说明的是,车载终端的语音问答程序被唤醒后才能执行后续步骤,该唤醒指令预先设定,本技术实施例中的步骤是在车载终端语音问答程序被唤醒后执行的,本技术实施例对于唤醒语音问答程序的方式不作限定。
44.示意性的,如图1所示,载具110的前后左右四个方向均设有环境信息采集组件,每个环境信息采集组件均包括图像采集组件140以及音频采集组件150,图像采集组件140可以是车载外置感知摄像头、行车记录仪等,音频采集组件150可以是麦克风等。
45.图像采集组件140与音频采集组件150共同作用,每个图像采集组件140和音频采集组件150均与车载终端120进行连接,用于获取外部环境信息。
46.可选的,图像采集组件中设置辅助成像组件用于辅助成像,辅助成像组件可以是毫米雷达或红外成像仪器等。
47.可选的,图像采集组件与音频采集组件通过低电压差分信号(low-voltage differential signaling,lvds)、复合视频广播信号(composite video broadcast signal,cvbs)、控制器局域网络(controller area network,can)、局域互联网络(local interconnect network,lin)等方式与车载终端120建立连接,相应的车载终端120能够通过该连接读取环境采集组件获取的外部环境信息。
48.此外,车载终端120还设置有语音播报组件以及图像显示组件,用于播报或展示语音问答指令对应的问答结果。
49.示意性的,如图1所示,行驶过程中,图像采集组件140和音频采集组件150采集外部环境信息并将采集到的外部环境信息缓存在车载终端内置存储器中。车辆中的乘客看到车窗外的景物,对所见的某个景物发出语音问答指令,车载终端接收到该语音问答指令后,从车载终端内置存储器中提取缓存的外部环境信息,通过车载终端120或服务器130进行数据处理,获取语音问答结果,并将该语音问答结果进行播报。
50.在一个示意性的例子中,语音问答系统的主要组成部分如图2所示,主要由车载终端210、环境信息采集组件220、语音采集组件250、语音播报组件260、图像显示组件270、近场分析组件240以及远端信息分析组件230构成。其中远端信息分析组件230主要为与车载终端建立通信连接的远端服务器,近场信息分析组件240主要为与车载终端建立连接的近场移动终端。
51.图2中的箭头方向表示信息流动方向,环境信息采集组件220实时采集车辆外部环境,并将外部环境信息数据发送给车载终端210进行缓存。语音采集组件250采集到用户发出的语音问答指令后,将该语音问答指令发送给车载终端210,车载终端210随即从缓存的外部环境信息中提取一定时长的外部环境信息。随后车载终端210对外部环境信息和语音问答指令进行计算分析,或者,车载终端210将提取的外部环境信息和语音问答指令发送给近场信息分析组件240或远端信息分析组件230进行计算分析,再将生成的问答结果返回给车载终端210,其中,近场信息分析装组件240也可以和远端信息分析组件230联合分布运算。在接收到问答结果后,车载终端210对结果进行一定处理后,分别向图像显示组件270与语音播报组件260发送语音问答结果,并由图像显示组件270与语音播报组件260向用户反馈问答结果。
52.图3是本技术一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图,本实施例以该方法用于图1所示的车载终端为例进行说明。该方法包括以下步骤:
53.步骤301,在接收到语音问答指令的情况下,获取外部环境信息。
54.外部环境信息由环境信息采集组件在车辆行驶过程中采集得到,且外部环境信息用于表征车辆所处的外部环境。
55.在一种可能的实施方式中,外部环境信息至少可以从两个维度表征车辆所处的外部环境,至少两个维度可以包括图像维度和声音维度。
56.在步骤302中,基于外部环境信息以及语音问答指令,获取与语音问答指令对应的问答结果。
57.基于外部环境信息与语音问答指令是指,车载终端根据用户提出的语音问答指令,在缓存的外部环境信息数据中选取与语音问答指令相对应的外部环境信息,再对该外部环境信息和语音问答指令进行处理,得到与语音问答指令相对应的问答结果。
58.可选的,可以通过本地车载终端即车机或移动终端获取与语音问答指令相对应的问答结果,也可以通过服务器进行数据处理后获取问答结果。
59.在步骤303中,基于问答结果进行语音播报。
60.车载终端在得出问答结果后,会根据预设的语言播报模板,将分析结果自动地填充到播报模板中,语言播报模板中会带有更符合人类交互语言的礼貌用语以及一些安全驾驶提示用语。
61.在一些实施例中,车载终端获取语音问答指令对应的问答结果的同时,也会提取
当前车辆所在的位置信息,在预置的导航地图知识图谱中,查询当前位置可能存在的额外信息,额外信息如附近的地标、附近的餐饮、加油站等。可在进行结果播报时与问答结果一同填充到播报模板中,进行语音播报。
62.综上所述,本技术实施例中提供的驾驶场景中的语音问答方法,车载终端通过接收到的语音问答指令获取外部环境信息,并根据获取到的外部环境信息以及语音问答指令生成对应的问答结果,并进行播报。解决了问答系统不能在驾驶过程中根据当前驾驶环境进行交互的问题,达到了驾驶场景下用户可见即可问可答的效果。
63.车载终端的语音问答程序被唤醒后,需要对用户发出的语音指令进行分类,根据用户不同需求车载终端实现不同的功能,在判断出用户发出的语音指令是语音问答指令的情况下,车载终端执行本技术实施例后续步骤。
64.图4是本技术另一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图。该方法包括以下步骤:
65.步骤401,在接收到语音指令的情况下,对语音指令进行指令类型识别。
66.语音指令类型从功能上分为两类,语音问答指令和非语音问答指令,非语音问答指令包括设备控制指令和导航指令等,其中设备控制指令用于通过语音交互,调节车辆内部搭载的设备,如空调、车载电视、车载音响等,对设备的工作状态进行调节,导航指令用于通过人机交互,实现语音控制车载导航系统启动。
67.语音问答指令即为提问式指令,例如,“今天会下雨吗?”、“外面的温度是多少?”和“那辆白的车是什么车?”等都属于语音问答指令。本技术实施例中的后续步骤均是在语音问答指令针对车辆外部环境的情况下执行的,对于常规语音问答指令,车载终端可通过网络数据库搜索等方式得到答案,再进行语音播报,在此不作赘述。
68.在一种可能的方式中,语音指令类型识别可以通过指令分类模型实现。预先训练指令分类模型,该模型用于计算输入的语音指令的指令类型概率。车载终端将语音指令对应的语音文本输入指令分类模型中,可得到输出结果,该输出结果用于表示指令类型的概率,将概率高于阈值的指令类型确定为最终的指令类型。其中,指令类型包括设备控制指令、导航指令、语音问答指令等。该指令分类模型可以是基于大量样本指令以及对应的指令标签(指示指令类型)训练得到。
69.在另一种可能的方式中,车载终端可以基于关键词识别的方式判断该语音指令对应的指令类型。例如,语音指令中包含“空调温度”和“音箱音量”等关键词,该语音指令有较大可能属于设备控制指令,在语音指令中包含“是什么”等带有疑问关键词的情况下,该语音指令有较大可能属于语音问答指令。
70.本技术实施例并不对具体的语音指令分类的方式进行限定。
71.步骤402,在该语音指令的指令类型为问答指令的情况下,确定接收到语音问答指令,并获取外部环境信息。
72.车载终端获取到语音问答指令后,提取外部环境信息,执行本实施例后续分析语音问答指令的步骤。在该语音指令为非语音问答指令的情况下,车载终端不执行本技术实施例中的后续步骤,执行该语音指令对应的程序。非语音问答指令可能是调节车载设备的参数指令或导航指令,此时车载终端也执行相应的设备调节程序或导航程序。例如,用户发出指令:“调高空调温度”,此时为非问答指令,则不执行后续步骤,车载终端控制车载空调,
调高温度。
73.步骤403,基于外部环境信息以及语音问答指令,获取与语音问答指令对应的问答结果。
74.本步骤的实施方式可以参考上述步骤302,本实施例在此不作赘述。
75.步骤404,基于问答结果进行语音播报。
76.本步骤的实施方式可以参考上述步骤303,本实施例在此不作赘述。
77.综上所述,在现实场景中,车载终端对用户发出的指令类型进行判断,确定该指令为语音问答指令后再执行后续步骤,可以避免车载终端结合外部环境信息对非语音问答指令进行处理,造成处理资源的浪费。
78.在本技术实施例中,车载终端是基于外部环境信息以及语音指令,获取语音问答指令对应的问答结果,其中,外部环境信息是包括多个维度或一段时间内的全部信息,但语音问答指令可能仅仅是针对其中某一维度或其中某个特定的时间段提出的,如果基于所有的信息内容获取问答结果,不仅会造成车载终端进行不必要的数据处理,还会影响问答结果的准确性,因此,需要先对外部环境信息进行筛选。
79.在一种可能的实施方式中,车载终端基于语音问答指令,从外部环境信息中提取目标外部环境信息,该目标外部环境信息与语音问答指令的相关性高于其他外部环境信息与语音问答指令的相关性。
80.其中,相关性可以包括维度相关性或时间相关性中的至少一种。相应的,目标外部环境信息可以是特定维度的信息,或者,特定时段采集的信息。
81.因此,可以分别从识别问题维度以及判断特定时段两个方面从外部环境信息中提取目标外部环境信息。下面将通过两个示例性实施例分别对这两种提取目标外部环境信息的方式进行说明。
82.图5是本技术另一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图。该方法包括以下步骤:
83.步骤501,在接收到语音问答指令的情况下,获取外部环境信息。
84.外部环境信息中包含多个维度的信息,其中,多个维度至少包括图像维度和声音维度。图像维度对应于外部环境信息中的外部环境影像,声音维度对应于外部环境信息中的外部环境音频。
85.下面对获取外部环境信息的过程进行说明。如图6所示,在一种可能的实施方式中,首先,车辆外置的图像采集组件对外部环境进行拍摄,再将拍摄到的内容通过成像处理得到视频图像,其中,图像采集组件包括车载的外置感知摄像头或行车记录仪等摄影设备。
86.可选的,在获取外部环境信息时采用辅助成像设备进行辅助成像处理,如毫米波雷达或红外成像仪等,可以根据辅助成像设备采集的非可见光波段图像对图像帧进行正畸处理,使影像中的位置信息更具有准确性,最终获取的问答结果也更加准确。例如,在前方有多个车辆的情况下,用户针对其中某一车辆进行提问,仅凭借摄像头或行车记录仪拍摄的影像,很难准确定位到用户提问的目标车辆,加入辅助成像设备后,能够根据距离、方位等因素进一步确认用户提问的目标车辆。即可满足用户有针对性的提问,例如“前方第二辆车是什么?”此类问题。
87.图像采集组件采集到外部环境影像后,车载终端将其进行缓存,以备调用。由于影
像信息占用存储空间较大,所以缓存时间不能过长,另一方面,在车辆行驶过程中用户会根据车辆实时所处环境进行提问,所以对影像缓存的时间设定在两分钟以内即可。当影像缓存时长达到预设时长后,将时间最久远的图像帧删除,再写入最新的图像帧。
88.车载终端从摄像设备中按照固定帧率读取图像帧,读取到图像帧后,使用图像滤波算法对每一帧图像作快速的噪点消除处理,如果使用辅助成像设备,也会对辅助成像设备采集到的非可见光波段图像对图像帧进行正畸处理。
89.可选的,帧率大小一般设置为20fps,即每秒读取20帧图像,也可以根据拍摄设备、应用场景不同进行调整,本技术实施例对此不作限定。
90.外部环境音频的存储方法与图像缓存方法类似,也需要通过降噪手段对采集到的音频进行降噪处理或通过其他算法处理后再进行缓存,在此不作赘述。
91.步骤502,对语音问答指令对应的语音问答文本进行问题维度识别,得到语音问答文本对应的问题维度,该问题维度包括图像维度和声音维度中的至少一种。
92.其中,语音问答指令对应的问答文本是车载终端通过对语音问答指令依次执行波束成形算法、前端信号处理以及asr(automatic speech recognition,自动语音识别)算法得到的,如图7所示。
93.可选的,前端信号处理采用anc(active noise cancellation,主动噪声消除)算法,用于消除环境噪音;aec(acoutic echo cancellation,声学回声消除)算法,用于消除车载终端播报的语音回声;agc(automatic gain control)算法,用于调整语音信号的幅值范围使得处理后输出的信号幅值平稳。
94.在一些使用场景下,可能存在asr识别结果为空的情况,此时车载终端不进行后续步骤,等待一段时间,返回待机状态。
95.车载终端得到语音问答指令对应的语音问答文本后,对其进行问题维度识别,识别出问题维度后,基于该问题维度以及外部环境信息的类型,从外部环境信息中提取相应目标外部环境信息。
96.在一种可能的方式中,预先训练问题分类模型,该问题分类模型用于计算表示问题维度的概率。车载终端将语音问答指令对应的语音问答文本输入问题分类模型中,可得到输出结果,该输出结果用于表示问题维度的概率,将概率高于阈值的维度确定为最终的问题维度。该问题分类模型可以是基于大量样本问题以及对应的问题标签(指示问题维度)训练得到。
97.在另一种可能的方式中,车载终端可以基于关键词匹配的方式判断该语音问答指令对应的问题维度(图像相关的关键词,声音相关的关键词)。颜、形状等能表征景物外观特征的词均可以作为图像相关的关键字,例如,红、绿、球型、最大的等。声音、拟声词等表征声音的词均可作为声音相关的关键字,例如,鸟鸣声,嘟嘟声等。
98.本技术实施例并不对具体的问题维度识别方式进行限定。
99.步骤503,在问题维度为图像维度的情况下,从外部环境信息中提取外部环境影像作为目标外部环境信息。
100.其中,图像维度是指用户从影像的角度进行提问,用户对于形状、颜以及体积大小等可由人眼观察到的信息描述,均属于图像维度。例如“那座h型的建筑是什么?”。显然,用户发出的语音问答指令是对提问目标的外形描述,因此该问题属于图像维度,车载终端
提取外部环境信息中的外部环境影像作为目标外部环境信息。
101.步骤504,在问题维度为声音维度的情况下,从外部环境信息中提取外部环境音频作为目标外部环境信息。
102.其中,声音维度是指用户从声音的角度进行提问,用户对于声音大小、声音特点和有无声音等能通过人耳捕捉到的描述都属于声音维度。例如,“是哪种鸟在鸣叫?”显然,该语音问答指令针对的对象为外部环境中的声音,因此,车载终端提取外部环境信息中的音频作为目标外部环境信息。
103.在一种可能的实施方式中,问题维度既包含图像维度,又包含声音维度。此时同时提取外部环境信息中的外部环境影像以及外部环境音频作为目标外部环境信息。例如,语音问答指令为“现在正在鸣笛的是哪辆车?”,显然该语音问答指令的针对的对象既包含外部环境中的声音,又包含外部环境中的图像,因此,此时车载终端需要同时提取外部环境影像和外部环境音频作为目标外部环境信息。
104.步骤505,基于目标外部环境信息以及语音问答指令,获取语音问答指令对应的问答结果。
105.车载终端在提取出目标外部环境信息后,对目标外部环境信息以及语音问答指令分析处理,得到与语音问答指令相对应的问答结果。
106.在目标外部环境信息为外部环境影像的情况下,车载终端对外部环境影像以及语音问答指令进行数据处理,得到问答结果;在目标外部环境信息为外部环境音频的情况下,车载终端对外部环境音频以及语音问答指令进行数据处理,得到问答结果;在目标外部环境信息同时包含外部环境影像和外部环境音频的情况下,车载终端对外部环境影像、外部环境音频以及语音问答指令进行数据处理,得到与语音问答指令对应的问答结果。
107.在步骤504中,已经提取得到目标外部环境信息,在步骤505中车载终端需要分析的外部环境信息范围减小,进而使得分析外部环境信息以及语音指令时的运算量降低。
108.步骤506,在外部环境信息包括外部环境影像的情况下,确定外部环境影像中问答结果对应的关联图像帧,对关联图像帧进行展示。
109.在一些应用场景下,针对用户发出的语音问答指令车载终端只进行问答结果的语音播报很难使用户直观的理解问答结果,例如,用户发出的语音问答指令为“刚才的路牌经过哪里?”,此类语音问答指令的问答结果仅通过语音播报很难使用户获取到足够多的信息量,因此,采用关联图像帧展示的方式,能够使用户更直观的获取语音问答指令对应的问答结果,获取到的信息量更多。
110.可选的,基于语音问答指令对应的问答结果,确定问答结果所指示的目标对象在影像中所处的图像帧,然后从该图像帧之前和之后的若干帧中,选取图像质量最佳一帧作为关联图像帧。
111.例如,用户发出语音问答指令“刚刚经过的路牌指向哪里?”,车载终端执行本技术实施例中步骤后得到问答结果为“刚刚的路牌指向百货大厦、美食街和中央公园”,并在车载显示屏幕上展示图像采集组件采集到的路牌的图像,能够使用户更加直观的看到路牌所指向的各个地点及其所指方位,相较于语音播报获取到更多的信息量。
112.步骤507,基于问答结果进行语音播报。
113.本步骤的实施方式可以参考上述步骤303,本实施例在此不作赘述。
114.综上所述,本实施例提供的驾驶场景下的问答方法,通过对问题维度识别,再基于问题维度提取目标外部环境信息的方式,使得车载终端能够有针对性的从外部环境信息中提取部分数据作为目标外部环境信息,减少了车载终端对于外部环境信息进行数据处理的压力,提高了车载终端处理问题的效率。
115.此外,本实施例中提供的一种对关联图像帧进行展示的方式,使用户不仅能够通过听语音播报得知问答结果,还能够通过可视化的方式得知问答结果,进一步确保了问答结果的可靠性和准确性。
116.图8是本技术又一示例性实施例提供的驾驶场景中的语音问答方法的方法流程图,该方法包括以下步骤:
117.步骤801,在接收到语音问答指令的情况下,对语音指令进行时间关键字识别。
118.步骤802,在识别出语音问答指令对应的语音问答文本中包含时间关键字的情况下,基于该时间关键字以及接收时刻,确定第一采集时段。
119.车载终端接收到语音问答指令后,需要对外部环境信息和语音问答指令进行分析处理,由于图像和音频的数据量较大,对整个预设缓存时长内的外部环境信息进行数据处理的开销也很大。因此,车载终端可以先对语音问答指令对应的语音问答文本进行时间关键字识别,再根据识别到的时间关键字确定出一个特定的时间段,再对特定时间段内的外部环境信息进行数据分析处理,很大程度上降低了运算量,减小了开销。
120.车载终端接收到语音问答指令的情况下,对语音问答指令对应的问答文本进行时间关键字识别,例如“刚刚”、“五秒钟前”、“一分钟内”等都属于时间关键字。识别出语音问答指令包含的时间关键字后,将车载终端接收到这条语音问答指令的时刻减去时间关键字所表述的时长后得到的时刻,作为第一采集时段的开始时刻,从该开始时刻到接收这条语音问答指令的时间作为第一采集时段。
121.如图9所示,假设t2为接收到这条语音问答指令的时刻,t1到t2的时间即为时间关键字所表述的时长,则将t1到t2的时间设定为第一采集时段。例如,车载终端在17:33接收到用户发出语音问答指令“刚过去的一分钟内我们经过了几个便利店?”,此时车载终端将17:32-17:33作为第一采集时段。
122.步骤803,将采集时刻位于第一采集时段的外部环境信息确定为目标外部环境信息。
123.车载终端确定第一采集时段后,从外部环境信息中提取第一采集时段内的外部环境信息,作为目标外部环境信息。
124.例如,确定第一采集时段为17:32-17:33后车载终端从缓存的外部信息中提取17:32-17:33时段的数据,作为目标外部信息。
125.步骤804,在识别出语音问答指令对应的语音问答文本中不包含时间关键字的情况下,基于接收时刻确定第二采集时段。
126.本技术实施例应用于驾驶场景中,语音问答指令是用户基于车辆所处的实施环境提出的,通常是针对短时间内的内容提出的。因此,为了减小数据处理的压力,车载终端可以根据接收到语音问答指令的时刻,确定出一个相对较短的时间段作为第二采集时段。第二采集时段是接收语音问答指令时刻之前的一段较短时间。例如,例如车载终端在17:50:30接收到用户发出的语音问答指令“左边那栋蓝的建筑是什么?”,此时车辆是处于行驶
状态的,用户问题也是根据车辆所处的实时环境提出的,因此可以将车载终端接收到语音问答指令这一时刻以前的10秒钟,即将17:50:20-17:50:30作为第二采集时段。
127.步骤805,将采集时刻位于第二采集时段的外部环境信息确定为目标外部环境信息。
128.车载终端确定第二采集时段后,从外部环境信息中提取第二采集时段内的外部环境信息,作为目标外部环境信息。
129.例如,确定第二采集时段为17:50:20-17:50:30后车载终端从缓存的外部信息中提取17:50:20-17:50:30时段的数据,作为目标外部信息。
130.步骤806,基于目标外部环境信息以及语音问答指令,获取语音问答指令对应的问答结果。
131.在一种可能的实施场景中,车载终端根据第一采集时段或第二采集时段内的目标外部环境信息没有得到与语音问答指令对应的问答结果的情况下,仍然需要对预设缓存时段内的所有外部环境信息进行处理,获取问答结果。
132.步骤807,基于问答结果进行语音播报。
133.本步骤的实施方式可以参考上述步骤303,本实施例在此不作赘述。
134.综上所述,本实施例中,车载终端识别出语音问答指令包含时间关键字的情况下,在语音问答指令包含时间关键词的情况下,根据语音问答指令的接收时刻和时间关键词,确定第一采集时段,在不包含时间关键字的情况下,确定第二采集时段。并从外部环境信息中提取相应采集时段的外部环境信息进行分析,使得车载终端提取目标环境信息时更具有针对性,减小了车载终端数据处理的压力,提高了获得问答结果的效率。
135.本技术实施例是基于外部环境信息以及语音问答指令,获取语音问答指令对应的问答结果,所以,车载终端需要对目标外部环境信息以及语音问答指令进行分析。由于在行驶过程中采集的外部环境信息较多,虽然根据接收时刻提取目标外部环境信息一定程度上减小了数据处理的时间,但在多数情况下仅通过本地处理器进行图像数据处理,仍存在一定压力。所以本技术根据驾驶场景以及其他因素的不同情况,提供以下三种方式,均可以生成问答结果。
136.一、车载终端基于外部环境信息以及语音问答指令,生成语音问答指令对应的问答结果。
137.二、在网络状态满足传输条件的情况下,车载终端将外部环境信息和语音问答指令上报至服务器,以便服务器基于外部环境信息以及语音问答指令,生成语音问答指令对应的问答结果。接收服务器下发的问答结果。
138.三、在网络状态不满足传输条件的情况下,车载终端基于设备算力从近场设备中确定出目标近场设备;向目标近场设备发送外部环境信息和语音问答指令,以便目标近场设备基于外部环境信息以及语音问答指令,生成语音问答指令对应的问答结果;接收目标近场设备发送的问答结果。其中,近场设备可以是处于车辆内的智能手机,或平板电脑等。
139.其中,近场设备是在车辆内与车载终端建立通信连接的移动终端,可以通过蓝牙、wifi等方式建立通信连接,车载终端可通过蓝牙扫描等方式来确定近场设备。
140.确定近场设备后,车载终端根据设备算力从近场设备中确定目标近场设备。设备算力是指设备通过处理数据,实现特定结果输出的计算能力,算力可以用客观的数据衡量,
不同设备的算力会预先通过专用测试程序进行测试得到算力的性能。
141.可选的,将预先测试好的不同设备的算力性能进行排序,设定为不同优先级,优先级最高为1,代表该设备算力性能最强,再将设备算力优先级排序存储到车载终端内置存储器中,当需要确定目标近场设备时,车载终端基于设备算力优先级从近场设备中选择算力优先级相对最高的设备,将其确定为目标近场设备。例如,通常情况下,笔记本电脑的算力大于智能手机的算力大于智能手表的算力,将笔记本电脑的算力优先级设定为1,智能手机的算力优先级设定为2,智能手表的算力优先级设定为3,并将该优先级排序存储到车载终端内置存储器中,在车载终端需要确定目标近场设备时,在近场设备中存在笔记本电脑的情况下,确定笔记本电脑为目标近场设备,否则,确定其余近场设备中优先级最高的设备为目标近场设备。
142.可选的,设定网络延迟和传输速度阈值,在当前网络延迟大于设定阈值,或者,在前网络传输速度小于设定阈值情况下,车载终端判定当前网络条件不满足传输状态。在当前网络延迟小于设定阈值且当前网络传输速度大于设定阈值的情况下,车载终端判定当前网络状态满足传输条件。
143.当然,也可以设定通过其他参数判断当前网络状态是否满足传输条件,本技术实施例对此不作限定。
144.在一种可能的实施方式中,车载终端在需要通过近场设备或远端服务器进行数据处理时,可以将接收到的语音问答指令直接传送给近场设备或远端服务器,也可以将接收到的语音问答指令转换为对应的语音问答文本后再传送给近场设备或远端服务器。本实施例对此不作限定。
145.图10是本技术一示例性实施例提供的获取语音问答指令对应的问答结果过程的流程图。本实施例基于上述方式一,说明获取语音问答指令对应的问答结果的方法步骤,如图10所示,该方法包括以下步骤:
146.步骤1001,对外部环境信息进行特征提取,得到外部环境特征。
147.车载终端对外部环境信息中的特征进行提取,外部影像特征包括颜特征、纹理特征、形状特征等,外部音频特征包括响度、音调、音等。车载终端在提取外部影像特征时,可采用non-local模型或slow-fast模型等算法模型来进行特征提取。
148.步骤1002,对外部环境特征和语音问答指令对应的语音问答文本的文本特征进行特征拼接,得到融合特征。
149.车载终端对外部环境信息进行特征提取后,在外部环境信息包含影像信息的情况下,将代表环境影像信息的三维张量降维成一维向量,再将代表图像信息的一维向量与语音问答文本对应的文本向量进行拼接,得到融合特征。
150.步骤1003,将融合特征输入问答模型,得到问答模型输出的问答结果。
151.其中,问答模型的输入是外部环境信息与语音问答指令的融合特征向量,输出是语音问答指令对应的问答结果,问答模型可以采用卷积神经网络、循环神经网络或transformer模型等算法模型。
152.在此,以图像维度的外部环境信息为例,对以上步骤进行说明,本实施例中车载终端采用问答分析算法实现上述步骤,如图11所示。图11是本技术实施例提供的一种问答分析算法示意图。
153.其中,目标外部环境和语音问答指令对应的语音问答文本作为问答分析算法的输入,问答结果作为问答分析算法的输出。
154.首先,使用slow-fast模型1102提取目标外部环境信息1101中的特征信息,得到外部环境特征。其中,快分支网络11021运算开销小,用于分析视频序列中的动态变化信息,慢分支网络11022运算开销大,参数量稍大,用于分析视频序列中的颜、纹理、光照变化等信息。
155.快慢分支网络分别提取到特征信息后,通过特征融合网络11023融合,得到代表影像信息的三维张量,再经过降维网络1104,生成代表影像信息的一维向量1106。
156.同时,对语音问答指令对应的语音问答文本1103通过文本向量生成1105生成语音问答指令对应的文本向量,再进行分词,然后查询其中每个词的词向量,对这些词的词向量进行加权平均,得到语音问答指令对应的语音问答文本的一维文本向量1107。
157.最后将代表影像信息的一维向量和语音问答指令对应的语音问答文本的一维文本向量进行特征拼接,就得到了融合特征向量1108。将融合特征向量输入transformer模型1109,生成问答结果。
158.声音维度作为外部环境信息获取问答结果时,同样需要对外部环境音频进行特征提取,与语音问答指令对应的语音问答文本的文本特征进行特征拼接后得到融合向量,再输入问答系统模型。本实施例在此不作赘述。
159.在本实施例中,车载终端通过对外部环境信息进行特征提取,特征融合进而得到问答结果,这一操作使获取到的问答结果与用户发出的语音问答指令特征相匹配,实现了用户能够在驾驶场景中根据车辆环境感知进行提问并能得到准确问答结果的功能,智能化程度更高。
160.此外,实际应用中触发语音问答指令的用户不限于是驾驶员,可能是坐在其他座位上的用户,此时观察者视角与外部环境影像的拍摄视角有所不同,所以本技术实施例提供了另一种得到外部环境特征的方式。
161.图12是本技术一示例性实施例提供的对外部环境信息进行特征提取,得到外部环境特征过程的流程图。该方法可以包括以下步骤:
162.步骤1201,确定观察视角,该观察视角为触发语音问答指令的观察者的视角。
163.观察者视角是指,发出语音问答指令的观察者,在对外部环境进行观察时的视角。
164.可选的,观察视角与观察者的身高,年龄以及所坐位置等都具有一定关系,因此,车载终端在确定观察者视角时,通过声源定位技术对发出语音问答指令的用户所处的空间位置进行大致的判断,空间位置包括但不限于所坐位置以及发声高度,进而合理推断出观察者视角。
165.在一种可能的实施方式中,车载终端内部设置有声源定位设备,车载终端基于声源定位设备定位触发语音问答指令的用户在车辆内的位置,进而根据观察者视角对外部环境图像进行处理,生成更加准确的问答结果。
166.步骤1202,基于观察视角以及外部环境影像的拍摄视角,对外部环境影像进行图像仿射变换,得到变换后的外部环境影像。
167.拍摄视角与观察视角在很大程度上不能保持一致,图13是在一种应用场景下某一时刻观察者视角与拍摄视角的差异的示意图。
168.在图13中,1301为正在行驶的车辆,1302为车辆行驶过程中经过的一座建筑物,该建筑可同时被车载外置摄像头1303和乘坐车辆的用户1304捕捉到。从图中可以看出,在这一时刻,车辆外置摄像头的拍摄视角与观察者视角有所差异。对于同一事物,由于观察者观察到的图像与拍摄设备拍摄的图像有所不同,所以用户针对该建筑物进行提问时,得到的问答结果与语音问答指令可能存在不对应的情况。
169.仿射变换是指在向量空间中进行一次线性变换和一次平移,变换到另一个向量空间的过程。仿射变换变化包括缩放、平移、旋转、反射、错切,原本图像的直线仿射变换后还是直线,原来图像的平行线经过仿射变换之后还是平行线,这就是仿射。
170.车载终端对外部环境影像进行仿射变换,目的是将外部拍摄设备所拍摄的影像通过图像仿射变换,变换成更符合观察者视角的影像,能够使图像特征与语音问答指令中所描述的特征相互对应,进而得到更准确的问答结果。
171.步骤1203,对变换后的外部环境影像进行特征提取,得到外部环境特征。
172.需要说明的是,本实施例中提供的一种对外部环境信息进行特征提取,得到外部环境特征的方式。同样可用于图10所示实施例,作为图10所示实施例中的步骤1001,在观察者视角与外部环境影像的拍摄视角不同的情况下,具有更优的实施效果。
173.综上所述,在真实驾驶环境中,车窗外的景物可能会根据观察者视角不同而呈现出不同状态,使得用户问答指令中的描述与摄像头所拍摄影像的特征存在偏差。本实施例中,根据车辆内不同位置观察者的视角,对外部环境影像进行仿射变换,使的变换后的图像特征与用户问答指令中的特征更加匹配,进而可以得出更准确的答案。
174.图14是本技术一示例性实施例提供的一种语音问答应用场景的示意图。
175.在图14中,车载终端和汽车外置图像采集设备均处于开启状态,用户启动语音问答程序,对当前车辆所处环境中的景物进行提问,车载终端根据感知到的外部环境信息,对用户提出的语音问答指令进行分析生成对应的问答结果,并进行语音播报以及图像展示。本实施例中采用风景有关的问答场景,并不对本实施例构成限制。
176.在一个示意性的例子中,车辆驾驶场景下的语音问答过程中,车载终端状态转移过程,如图15所示。其中箭头方向表示车载终端状态转移的方向。
177.待机状态1501是指在整个语音问答程序开始运行前,车载终端处于该状态下。在待机状态1501中,外部信息采集组件持续运行,实时采集车辆所处外部环境信息,此时用户未发出语音问答指令。
178.车载终端处于语音接收状态1502时,用户发出语音指令,语音采集组件开始工作,并将采集到的语音指令发送给车载终端进行语音指令类型判断。
179.信息提取状态1503是指车载终端从缓存的外部环境信息中提取目标外部环境信息时的状态。
180.车载终端处于分析计算状态1504下,车载终端选择最佳算力设备并发出相应的数据计算指令,相应的设备采用问答分析模型进行计算,在生成语音问答指令对应的问答结果的情况下,将问答结果返回给车载终端。
181.播报结果状态1505是指车载终端根据问答结果,进一步处理后,使图像显示组件和语音播报组件进行相应的输出。
182.待机状态1501下,在没有接收到语音问答指令的情况下,继续保持待机状态1501,
在接收到语音问答指令的情况下,车载终端转移到语音接收状态1502。
183.语音接收状态1502下,在用户语音输入在截断等待时间之内,车载终端持续保持语音接收状态1502;语音信息asr识别为空,或该语音指令被判定为为非语音问答指令时,车载终端回到待机状态1501;语音指令被判定为语音问答指令时,车载终端转移到信息提取状态1503。
184.信息提取状态1503下,智能车机从外部环境中提取目标环境信息失败时,返回待机状态1501;车载终端完成对目标外部环境信息的提取时,车载终端转移到分析计算状态1504。
185.分析计算状态1504下,当生成的问答结果对应的问答结果文本为空时,车载终端返回待机状态1501;当生成的语音问答结果不为空时,车载终端转移到播报结果状态1505。
186.播报结果状态1505下,用户发出新的语音指令,车载终端直接跳转到语音接收状态1502,继续执行下一次语音问答程序。
187.在上述任意一种状态下,用户手动中断语音问答程序时,车载终端均直接返回待机状态1501。
188.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
189.请参考图16,其示出了本技术一个示例性实施例提供的驾驶场景中语音问答装置的结构框图。该装置可以包括:
190.信息获取模块1601,用于在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且外部环境信息用于表征所述载具所处的外部环境;
191.结果获取模块1602,用于基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果;
192.语音播报模块1603,用于基于所述问答结果进行语音播报。
193.可选的,所述结果获取模块1602,用于:
194.基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,所述目标外部环境信息与所述语音问答指令的相关性高于其他外部环境信息与所述语音问答指令的相关性;用于基于所述目标外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果。
195.可选的,所述结果获取模块1602,用于:
196.基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,所述目标外部环境信息与所述语音问答指令的相关性高于其他外部环境信息与所述语音问答指令的相关性;基于所述目标外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果。
197.可选的,所述结果获取模块1602,用于:
198.在所述问题维度为所述图像维度的情况下,从所述外部环境信息中提取外部环境影像作为所述目标外部环境信息;在所述问题维度为所述声音维度的情况下,从所述外部环境信息中提取外部环境音频作为所述目标外部环境信息。
199.可选的,所述结果获取模块1602,用于:
200.基于所述语音问答指令的接收时刻以及所述外部环境信息的采集时刻,从所述外部环境信息中提取所述目标外部环境信息。
201.可选的,所述结果获取模块1602,用于:
202.在识别出所述语音问答指令对应的语音问答文本中包含时间关键字的情况下,基于所述时间关键字以及所述接收时刻,确定第一采集时段;将所述采集时刻位于所述第一采集时段的所述外部环境信息确定为所述目标外部环境信息;在识别出所述语音问答指令对应的语音问答文本中不包含时间关键字的情况下,基于所述接收时刻确定第二采集时段;将所述采集时刻位于所述第二采集时段的所述外部环境信息确定为所述目标外部环境信息。
203.可选的,所述结果获取模块1602,用于:
204.基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;
205.或,
206.在网络状态满足传输条件的情况下,将所述外部环境信息和所述语音问答指令上报至服务器,以便所述服务器基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述服务器下发的所述问答结果;
207.或,
208.在网络状态不满足传输条件的情况下,基于设备算力从近场设备中确定出目标近场设备;向所述目标近场设备发送所述外部环境信息和所述语音问答指令,以便所述目标近场设备基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述目标近场设备发送的所述问答结果。
209.可选的,所述结果获取模块1602,用于:
210.对所述外部环境信息进行特征提取,得到外部环境特征;对所述外部环境特征和所述语音问答指令对应的语音问答文本的文本特征进行特征拼接,得到融合特征;将所述融合特征输入问答模型,得到所述问答模型输出的所述问答结果。
211.可选的,所述结果获取模块1602,用于:
212.确定观察视角,所述观察视角为触发所述语音问答指令的观察者的视角;基于所述观察视角以及所述外部环境影像的拍摄视角,对所述外部环境影像进行图像仿射变换,得到变换后的所述外部环境影像;对变换后的所述外部环境影像进行特征提取,得到所述外部环境特征。
213.可选的,所述信息获取模块1601,用于:
214.在接收到语音指令的情况下,对所述语音指令进行指令类型识别;在所述语音指令的指令类型为问答指令的情况下,确定接收到所述语音问答指令,并获取所述外部环境信息。
215.可选的,所述装置还包括:
216.图像展示模块,用于在接收到语音指令的情况下,对所述语音指令进行指令类型识别;在所述语音指令的指令类型为问答指令的情况下,确定接收到所述语音问答指令,并获取所述外部环境信息。
217.综上所述,本实施例中提供的驾驶场景中语音问答装置,能够用于通过接收语音
指令获取外部环境信息,并根据外部环境信息以及语音指令获取语音问答指令对应的问答结果,进行播报。解决了问答系统不能在驾驶过程中根据当前驾驶环境进行交互的问题,达到了驾驶场景下用户可见即可问可答的效果,智能化程度更高。
218.请参考图17,其示出了本技术一个示例性实施例提供的车载终端的结构方框图。该终端1700可以实现成为上述各个实施例中的车载终端。终端1700可以包括一个或多个如下部件:处理器1710和存储器1720。
219.处理器1710可以包括一个或者多个处理核心。处理器1710利用各种接口和线路连接整个终端1700内的各个部分,通过运行或执行存储在存储器1720内的指令、程序、代码集或指令集,以及调用存储在存储器1720内的数据,执行终端1700的各种功能和处理数据。可选地,处理器1710可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1710可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)、神经网络处理器(neural-network processing unit,npu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责触摸显示屏所需要显示的内容的渲染和绘制;npu用于实现人工智能(artificial intelligence,ai)功能;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1710中,单独通过一块芯片进行实现。
220.存储器1720可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。可选地,该存储器1720包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1720可用于存储指令、程序、代码、代码集或指令集。存储器1720可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等;存储数据区可存储根据终端1700的使用所创建的数据等。
221.除此之外,本领域技术人员可以理解,上述附图所示出的终端1700的结构并不构成对终端的限定,终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端1700中还包括显示屏、摄像组件、麦克风、扬声器、射频电路、传感器、音频电路、wifi模块、电源、蓝牙模块等部件,在此不再赘述。
222.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如上各个实施例所述的驾驶场景中的问答方法。
223.本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的驾驶场景中的问答方法。
224.应当理解的是,在本文中提及的“多个”是指两个或两个以上。
225.另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本技术实施例对此不作
限定。
226.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种驾驶场景中的语音问答方法,其特征在于,所述方法包括:在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且所述外部环境信息用于表征所述载具所处的外部环境;基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果;基于所述问答结果进行语音播报。2.根据权利要求1所述的方法,其特征在于,所述基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果,包括:基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,所述目标外部环境信息与所述语音问答指令的相关性高于其他外部环境信息与所述语音问答指令的相关性;基于所述目标外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,包括:对所述语音问答指令对应的语音问答文本进行问题维度识别,得到所述语音问答文本对应的问题维度,所述问题维度包括图像维度和声音维度中的至少一种;基于所述问题维度以及所述外部环境信息的类型,从所述外部环境信息中提取所述目标外部环境信息。4.根据权利要求3所述的方法,其特征在于,所述基于所述问题维度以及所述外部环境信息对应的类型,从所述外部环境信息中提取所述目标外部环境信息,包括:在所述问题维度为所述图像维度的情况下,从所述外部环境信息中提取外部环境影像作为所述目标外部环境信息;在所述问题维度为所述声音维度的情况下,从所述外部环境信息中提取外部环境音频作为所述目标外部环境信息。5.根据权利要求2所述的方法,其特征在于,所述基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,包括:基于所述语音问答指令的接收时刻以及所述外部环境信息的采集时刻,从所述外部环境信息中提取所述目标外部环境信息。6.根据权利要求5所述的方法,其特征在于,所述基于所述语音问答指令的接收时刻以及所述外部环境信息的采集时刻,从所述外部环境信息中提取所述目标外部环境信息,包括:在识别出所述语音问答指令对应的语音问答文本中包含时间关键字的情况下,基于所述时间关键字以及所述接收时刻,确定第一采集时段;将所述采集时刻位于所述第一采集时段的所述外部环境信息确定为所述目标外部环境信息;在识别出所述语音问答指令对应的语音问答文本中不包含时间关键字的情况下,基于所述接收时刻确定第二采集时段;将所述采集时刻位于所述第二采集时段的所述外部环境信息确定为所述目标外部环境信息。
7.根据权利要求1所述的方法,其特征在于,所述基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果,包括:基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;或,在网络状态满足传输条件的情况下,将所述外部环境信息和所述语音问答指令上报至服务器,以便所述服务器基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述服务器下发的所述问答结果;或,在网络状态不满足传输条件的情况下,基于设备算力从近场设备中确定出目标近场设备;向所述目标近场设备发送所述外部环境信息和所述语音问答指令,以便所述目标近场设备基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述目标近场设备发送的所述问答结果。8.根据权利要求7所述的方法,其特征在于,所述基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果,包括:对所述外部环境信息进行特征提取,得到外部环境特征;对所述外部环境特征和所述语音问答指令对应的语音问答文本的文本特征进行特征拼接,得到融合特征;将所述融合特征输入问答模型,得到所述问答模型输出的所述问答结果。9.根据权利要求8所述的方法,其特征在于,所述外部环境信息包括外部环境影像;所述对所述外部环境信息进行特征提取,得到外部环境特征之前,所述方法还包括:确定观察视角,所述观察视角为触发所述语音问答指令的观察者的视角;基于所述观察视角以及所述外部环境影像的拍摄视角,对所述外部环境影像进行图像仿射变换,得到变换后的所述外部环境影像;所述对所述外部环境信息进行特征提取,得到外部环境特征,包括:对变换后的所述外部环境影像进行特征提取,得到所述外部环境特征。10.根据权利要求1所述的方法,其特征在于,所述在接收到语音问答指令的情况下,获取外部环境信息,包括:在接收到语音指令的情况下,对所述语音指令进行指令类型识别;在所述语音指令的指令类型为问答指令的情况下,确定接收到所述语音问答指令,并获取所述外部环境信息。11.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述外部环境信息包括外部环境影像的情况下,确定所述外部环境影像中所述问答结果对应的关联图像帧;对所述关联图像帧进行展示。12.一种驾驶场景中的语音问答装置,其特征在于,所述装置包括:信息获取模块,用于在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且所述外部环境信息用于表征所述载具所处的外部环境;
结果获取模块,用于基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果;语音播报模块,用于基于所述问答结果进行语音播报。13.根据权利要求12所述的装置,其特征在于,所述结果获取模块,包括:信息提取单元,用于基于所述语音问答指令,从所述外部环境信息中提取目标外部环境信息,所述目标外部环境信息与所述语音问答指令的相关性高于其他外部环境信息与所述语音问答指令的相关性;结果获取单元,用于基于所述目标外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果。14.根据权利要求13所述的装置,其特征在于,所述信息提取单元,用于:对所述语音问答指令对应的语音问答文本进行问题维度识别,得到所述语音问答文本对应的问题维度,所述问题维度包括图像维度和声音维度中的至少一种;基于所述问题维度以及所述外部环境信息的类型,从所述外部环境信息中提取所述目标外部环境信息。15.根据权利要求14所述的装置,其特征在于,所述信息提取单元,用于:在所述问题维度为所述图像维度的情况下,从所述外部环境信息中提取外部环境影像作为所述目标外部环境信息;在所述问题维度为所述声音维度的情况下,从所述外部环境信息中提取外部环境音频作为所述目标外部环境信息。16.根据权利要求13所述的装置,其特征在于,所述信息提取单元,用于:基于所述语音问答指令的接收时刻以及所述外部环境信息的采集时刻,从所述外部环境信息中提取所述目标外部环境信息。17.根据权利要求16所述的装置,其特征在于,所述信息提取单元,用于:在识别出所述语音问答指令对应的语音问答文本中包含时间关键字的情况下,基于所述时间关键字以及所述接收时刻,确定第一采集时段;将所述采集时刻位于所述第一采集时段的所述外部环境信息确定为所述目标外部环境信息;在识别出所述语音问答指令对应的语音问答文本中不包含时间关键字的情况下,基于所述接收时刻确定第二采集时段;将所述采集时刻位于所述第二采集时段的所述外部环境信息确定为所述目标外部环境信息。18.根据权利要求12所述的装置,其特征在于,所述结果获取模块,包括:第一处理单元,用于基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;第二处理单元,用于在网络状态满足传输条件的情况下,将所述外部环境信息和所述语音问答指令上报至服务器,以便所述服务器基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述服务器下发的所述问答结果;第三处理单元,用于在网络状态不满足传输条件的情况下,基于设备算力从近场设备中确定出目标近场设备;向所述目标近场设备发送所述外部环境信息和所述语音问答指令,以便所述目标近场设备基于所述外部环境信息以及所述语音问答指令,生成所述语音问答指令对应的所述问答结果;接收所述目标近场设备发送的所述问答结果。
19.根据权利要求18所述的装置,其特征在于,所述第一处理单元,用于:对所述外部环境信息进行特征提取,得到外部环境特征;对所述外部环境特征和所述语音问答指令对应的语音问答文本的文本特征进行特征拼接,得到融合特征;将所述融合特征输入问答模型,得到所述问答模型输出的所述问答结果。20.根据权利要求19所述的装置,其特征在于,所述外部环境信息包括外部环境影像;所述装置,还包括:视角确定模块,用于确定观察视角,所述观察视角为触发所述语音问答指令的观察者的视角;变换模块,用于基于所述观察视角以及所述外部环境影像的拍摄视角,对所述外部环境影像进行图像仿射变换,得到变换后的所述外部环境影像;所述第一处理单元,用于对变换后的所述外部环境影像进行特征提取,得到所述外部环境特征。21.根据权利要求12所述的装置,其特征在于,所述信息获取模块,用于:在接收到语音指令的情况下,对所述语音指令进行指令类型识别;在所述语音指令的指令类型为问答指令的情况下,确定接收到所述语音问答指令,并获取所述外部环境信息。22.根据权利要求12所述的装置,其特征在于,所述装置还包括:图像展示模块,用于在所述外部环境信息包括外部环境影像的情况下,确定所述外部环境影像中所述问答结果对应的关联图像帧;对所述关联图像帧进行展示。23.一种车载终端,其特征在于,所述车载终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如权利要求1至11任一所述的驾驶场景中的语音问答方法。24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至11任一所述的驾驶场景中的语音问答方法。25.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至11任一所述的驾驶场景中的语音问答方法。

技术总结


本申请实施例公开了一种驾驶场景中的语音问答方法、装置及车载终端,属于人机交互技术领域。该方法包括:在接收到语音问答指令的情况下,获取外部环境信息,所述外部环境信息由环境信息采集组件在载具行驶过程中采集得到,且外部环境信息用于表征所述载具所处的外部环境,基于所述外部环境信息以及所述语音问答指令,获取所述语音问答指令对应的问答结果,基于所述问答结果进行语音播报;采用本实施例提供的方案,用户可以对驾驶室外部环境进行提问,车载终端均可以根据环境作出回答,提高人车交互问答系统的智能化程度。高人车交互问答系统的智能化程度。高人车交互问答系统的智能化程度。


技术研发人员:

陈科鑫 张晓帆 曾理

受保护的技术使用者:

OPPO广东移动通信有限公司

技术研发日:

2022.08.09

技术公布日:

2022/11/8

本文发布于:2022-11-28 12:11:59,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/10304.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   问答   语音   指令
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图