一种保证乘车安全的方法、装置、电子设备及存储介质与流程

阅读: 评论:0



1.本技术涉及车辆运营技术领域,尤其涉及一种保证乘车安全的方法、装置、电子设备及存储介质。


背景技术:



2.随着互联网技术的快速发展,网约车业务也发展迅速,越来越多的乘客选择网约车出行。如何保证网约车乘客的出行安全是值得思考的问题。而出行安全不仅包括出行安全还包括下车安全,相关技术中,对出行安全的关注比较多,而对下车安全的关注比较少,而保证下车安全也同样是十分有必要的。


技术实现要素:



3.本技术实施例提供一种保证乘车安全的方法、装置、电子设备及存储介质,用以提供一种保证乘客下车安全的方案。
4.第一方面,本技术实施例提供一种保证乘车安全的方法,包括:
5.当送乘车辆与送乘终点之间的距离小于预设距离时,获取所述送乘车辆周围的混合音频流;
6.从所述混合音频流中提取指定声源的音频幅度值;
7.基于所述指定声源的音频幅度值,重构所述指定声源的音频流;
8.若所述指定声源的音频流与音频库中的任一音频流匹配,则确定所述送乘车辆周围存在影响乘客下车的声源对象。
9.在一些实施例中,从所述混合音频流中提取指定声源的音频幅度值,包括:
10.对所述混合音频流进行音频帧分割,得到音频帧序列;
11.为所述音频帧序列添加时间窗,初始时所述时间窗的时间起点与所述音频帧序列中首个音频帧的采集时间对齐;
12.将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值;
13.按照设定音频帧间隔滑动所述时间窗;
14.执行将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值的步骤,直至所述时间窗的时间终点与所述音频帧序列中末个音频帧的采集时间对齐。
15.在一些实施例中,各音频帧的幅度值是进行数值压缩后得到的,还包括:
16.在得到所述指定声源的一个音频幅度值之后,基于对应数值压缩方式,对所述音频幅度值进行数值还原处理。
17.在一些实施例中,根据以下步骤训练所述语音增强模型:
18.获取音频帧子序列样本;
19.将所述音频帧子序列样本输入深度神经网络模,得到音频幅度预测值;
20.基于所述音频幅度预测值和所述音频帧子序列样本的音频幅度标记值,更新所述深度神经网络模的网络参数;
21.直至满足训练结束条件时,将所述深度神经网络模确定为所述语音增强模型。
22.在一些实施例中,基于所述指定声源的音频幅度值,重构所述指定声源的音频流,包括:
23.针对所述指定声源的每个音频幅度值,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧;
24.利用所述音频幅度值和所述参考音频帧的相位值,构建音频采样点,并将所述参考音频帧的采集时间作为所述音频采样点的采集时间;
25.按照采集时间对各音频采样点进行拼接,得到所述指定声源的音频波形;
26.对所述音频波形进行傅里叶反变换,得到所述指定声源的音频流。
27.在一些实施例中,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧,包括:
28.若所述子音频帧序列包含奇数个音频帧,则将位于所述子音频帧序列中间位置的一个音频帧作为所述参考音频帧;
29.若所述子音频帧序列包含偶数个音频帧,则将位于所述子音频帧序列中间位置的任一个音频帧作为所述参考音频帧。
30.在一些实施例中,在确定所述送乘车辆周围存在会影响乘客下车的声源对象之后,还包括:
31.控制所述送乘车辆提醒乘客周围存在影响下车的声源对象。
32.第二方面,本技术实施例提供一种保证乘车安全的装置,包括:
33.获取模块,用于当送乘车辆与送乘终点之间的距离小于预设距离时,获取所述送乘车辆周围的混合音频流;
34.提取模块,用于从所述混合音频流中提取指定声源的音频幅度值;
35.重构模块,用于基于所述指定声源的音频幅度值,重构所述指定声源的音频流;
36.确定模块,用于若所述指定声源的音频流与音频库中的任一音频流匹配,则确定所述送乘车辆周围存在影响乘客下车的声源对象。
37.在一些实施例中,提取模块具体用于:
38.对所述混合音频流进行音频帧分割,得到音频帧序列;
39.为所述音频帧序列添加时间窗,初始时所述时间窗的时间起点与所述音频帧序列中首个音频帧的采集时间对齐;
40.将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值;
41.按照设定音频帧间隔滑动所述时间窗;
42.执行将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值的步骤,直至所述时间窗的时间终点与所述音频帧序列中末个音频帧的采集时间对齐。
43.在一些实施例中,各音频帧的幅度值是进行数值压缩后得到的,提取模块还用于:
44.在得到所述指定声源的一个音频幅度值之后,基于对应数值压缩方式,对所述音
频幅度值进行数值还原处理。
45.在一些实施例中,根据以下步骤训练所述语音增强模型:
46.获取音频帧子序列样本;
47.将所述音频帧子序列样本输入深度神经网络模,得到音频幅度预测值;
48.基于所述音频幅度预测值和所述音频帧子序列样本的音频幅度标记值,更新所述深度神经网络模的网络参数;
49.直至满足训练结束条件时,将所述深度神经网络模确定为所述语音增强模型。
50.在一些实施例中,重构模块具体用于:
51.针对所述指定声源的每个音频幅度值,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧;
52.利用所述音频幅度值和所述参考音频帧的相位值,构建音频采样点,并将所述参考音频帧的采集时间作为所述音频采样点的采集时间;
53.按照采集时间对各音频采样点进行拼接,得到所述指定声源的音频波形;
54.对所述音频波形进行傅里叶反变换,得到所述指定声源的音频流。
55.在一些实施例中,重构模块具体用于:
56.若所述子音频帧序列包含奇数个音频帧,则将位于所述子音频帧序列中间位置的一个音频帧作为所述参考音频帧;
57.若所述子音频帧序列包含偶数个音频帧,则将位于所述子音频帧序列中间位置的任一个音频帧作为所述参考音频帧。
58.在一些实施例中,还包括提醒模块,用于:
59.在确定所述送乘车辆周围存在会影响乘客下车的声源对象之后,控制所述送乘车辆提醒乘客周围存在影响下车的声源对象。
60.第三方面,本技术实施例提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
61.存储器存储有可被至少一个处理器执行的计算机程序,该计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述保证乘车安全的方法。
62.第四方面,本技术实施例提供一种存储介质,当所述存储介质中的计算机程序由电子设备的处理器执行时,所述电子设备能够执行上述保证乘车安全的方法。
63.本技术实施例中,当送乘车辆与送乘终点之间的距离小于预设距离时,获取送乘车辆周围的混合音频流,从混合音频流中提取指定声源的音频幅度值,基于指定声源的音频幅度值,重构指定声源的音频流,若指定声源的音频流与音频库中的任一音频流匹配,则确定送乘车辆周围存在会影响乘客下车的声源对象。这样,在送乘车辆接近送乘终点时,借助于送乘车辆周围的混合音频流确定周围声源对象是否会影响乘客下车,从而提供了一种借助于音频提升乘车安全尤其是下车安全的方案。
附图说明
64.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
65.图1为本技术实施例提供的一种保证乘车安全的方法的应用场景示意图;
66.图2为本技术实施例提供的一种保证乘车安全的方法的流程图;
67.图3为本技术实施例提供的一种从混合音频流中提取指定声源的音频幅度值的流程图;
68.图4为本技术实施例提供的一种时间窗的位置示意图;
69.图5为本技术实施例提供的一种重构指定声源的音频流的流程图;
70.图6为本技术实施例提供的一种网络结构示意图;
71.图7为本技术实施例提供的一种保证乘车安全的装置的结构示意图;
72.图8为本技术实施例提供的一种用于实现保证乘车安全的方法的电子设备的硬件结构示意图。
具体实施方式
73.为了提供一种保证乘客下车安全的方案,本技术实施例提供了一种保证乘车安全的方法、装置、电子设备及存储介质。
74.以下结合说明书附图对本技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术,并不用于限定本技术,并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
75.图1为本技术实施例提供的一种网约车的应用场景图,包括乘客端、服务器以及司机端,其中,乘客端通过有线网络或者无线网络与服务器相连接,司机端通过有线网络或者无线网络与服务器相连接。
76.乘客端,如手机、ipad、电脑等,可向服务器发送乘车请求,乘车请求中可包括乘车信息如接乘位置、送乘终点等。
77.服务器,在接收到任一乘客端发送的乘车请求后,可基于乘车请求中的乘车信息,选择网约车,向选择的网约车对应的司机端发送接单指令,接单指令中包括接单信息如接乘位置、送乘终点等,并向乘客端发送接单消息,接单消息中可包括网约车的识别信息。
78.司机端,在接收到服务器发送的接单指令后,基于接单指令中的接单信息,执行接乘、送乘流程。
79.在网约车领域,需最大程度地保证乘客安全,而乘客安全不仅包括行车安全还包括下车安全,如果乘客在下车时没注意到后方来车便会存在安全隐患。目前,司机端会在乘客达到送乘终点后主动播报“请您注意下车安全”,以提醒乘客下车时注意后方来车,但还可以更有效的提醒方式来提醒下车乘客。比如,在接近送乘终点时,借助于送乘车辆周围的音频流分析周围声源对象是否会影响乘客下车。该方法的流程图可参见图2,该方法应用于图1的服务器中,且该方法包括以下步骤。
80.在步骤201中,当送乘车辆与送乘终点之间的距离小于预设距离时,获取送乘车辆周围的混合音频流。
81.其中,预设距离如70米、50米等,可由技术人员根据实验或经验预先确定。
82.实际应用中,送乘车辆的车门下方可安装声音检测装置,以用来采集周围的声音数据,由于送乘车辆周围会有其他车辆和/或行人,所以声音检测装置采集的为至少两种声音如鸣笛声和说话声、发动机轰鸣声和风声、鸣笛声、说话声和风声等的混合音频流,即,混合音频流是指混合了至少两种声音的音频流。另外,在获取混合音频流时可以设定混合音
频流的时长如10秒、15秒等。
83.在步骤202中,从混合音频流中提取指定声源的音频幅度值。
84.实际应用中,当关注的送乘车辆周围的声源对象不同时,指定声源的声音数据会有所不同。比如,当关注的声源对象是车辆时,指定声源的声音数据可来自车辆的发动机或喇叭,当关注的声源对象是自行车或电动车时,指定声源的声音数据可来自自行车或电动车与地面的摩擦,也可来自自行车或电动车的喇叭,当关注的声源对象是行人时,指定声源的声音数据可来自行人的走路。
85.具体实施时,可根据图3所示的流程从混合音频流中提取指定声源的音频幅度值,该流程包括以下步骤:
86.在步骤2021中,对混合音频流进行音频帧分割,得到音频帧序列。
87.假设混合音频流的时长为10秒、设定的音频帧时长为1秒,则可将混合音频流划分成10个音频帧,这10个音频帧按照采集时间从早到晚的顺序排列即是音频帧序列。
88.在步骤2022中,为音频帧序列添加时间窗,初始时间窗的时间起点与音频帧序列中首个音频帧的采集时间对齐。
89.一般地,时间窗的总时长是单个音频帧时长的整数倍,即时间窗可以覆盖整数个音频帧。
90.假设音频帧序列包含10个音频帧:1、2、3
……
10,时间窗的总时长为3个音频帧时长,即时间窗一次可覆盖到3个音频帧。那么,初始时,时间窗与音频帧序列的位置关系如图4中的实线框所示。
91.在步骤2023中,将时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到指定声源的一个音频幅度值。
92.具体实施时,可根据以下步骤训练语音增强模型:
93.获取音频帧子序列样本,将音频帧子序列样本输入深度神经网络模型,得到音频幅度预测值,基于音频幅度预测值和音频帧子序列样本的音频幅度标记值,更新深度神经网络模的网络参数,直至满足训练结束条件时,将深度神经网络模确定为语音增强模型。其中,一个音频帧子序列样本包含的音频帧数量和一个时间窗包含的音频帧数量相同,训练结束条件如输入的样本数量达到预设数量、训练总时长达到预设时长、模型的准确度到达预设准确度等。
94.继续参见图4,当时间窗位于实线框位置时,时间窗包含的音频帧子序列是{音频帧1、音频帧2、音频帧3},假设此时得到的指定声源的音频幅度值是a;当时间窗位于虚线框位置时,时间窗包含的音频帧子序列是{音频帧5、音频帧6、音频帧7},假设此时得到的指定声源的音频幅度值是b。
95.在步骤2024中,按照设定音频帧间隔滑动时间窗。
96.其中,设定音频帧间隔可是单个音频帧时长的整数倍,比如,设定音频帧间隔等于单个音频帧时长,此时,时间窗一次滑动一个音频帧,图4中,从虚线框到实线框,时间窗滑动了四个音频帧。
97.在步骤2025中,判断时间窗的时间终点是否与音频帧序列中末个音频帧的采集时间对齐,若否,则进入步骤2023,若是,则进入步骤2026。
98.其中,时间窗的时间终点与音频帧序列中末个音频帧的采集时间对齐,即时间窗
的右端滑动到音频帧序列的末个音频帧的情况。
99.在步骤2026中,结束本流程。
100.另外,为了降低不同音频帧的幅度值之间的差异,各音频帧的幅度值可以是进行数值压缩后得到的,此时,在得到指定声源的一个音频幅度值之后,还可基于相应的数值压缩方式,对音频幅度值进行数值还原处理,以得到真实的音频幅度值。
101.在步骤203中,基于指定声源的音频幅度值,重构指定声源的音频流。
102.比如,根据图5所示的流程重构指定声源的音频流,该流程包括以下步骤:
103.在步骤2031中,针对指定声源的每个音频幅度值,从音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧。
104.若子音频帧序列包含奇数个音频帧,则可将位于子音频帧序列中间位置的一个音频帧作为参考音频帧。继续参见图4,针对指定声源的音频幅度值a,可从{音频帧1、音频帧2、音频帧3}中选择音频帧2作为参考音频帧;针对指定声源的音频幅度值b,可从{音频帧5、音频帧6、音频帧7}中选择音频帧6作为参考音频帧。
105.若子音频帧序列包含偶数个音频帧,则可将位于子音频帧序列中间位置的任一个音频帧作为参考音频帧。比如,若音频帧子序列为{音频帧5、音频帧6、音频帧7、音频帧8},则可将音频帧6或音频帧7作为参考音频帧。
106.在步骤2032中,利用该音频幅度值和参考音频帧的相位值,构建音频采样点,并将参考音频帧的采集时间作为该音频采样点的采集时间。
107.比如,(该音频幅度值,参考音频帧的相位值)即构成一个音频采样点。
108.在步骤2033中,按照采集时间对各音频采样点进行拼接,得到指定声源的音频波形。
109.在步骤2034中,对音频波形进行傅里叶反变换,得到指定声源的音频流。
110.在步骤204中,若指定声源的音频流与音频库中的任一音频流匹配,则确定送乘车辆周围存在会影响乘客下车的声源对象。
111.其中,音频库中存储的是在乘客下车场景中会影响下车安全的指定声源的音频流。
112.在步骤205中,控制送乘车辆提醒乘客周围存在影响下车的声源对象。
113.这样,可以明确提醒乘客有影响下车安全的声源对象如车辆、行人等,而不仅仅是提醒乘客注意下车安全,提醒方式更智能也更有效,也有利用提升用户乘车体验。
114.下面以声源对象是车辆,指定声源是发动机为例,对本技术实施例的方法进行介绍。
115.1、数据准备。
116.在数据准备阶段,可以有两种方法进行数据采集。
117.第一种、在真实环境下采集数据。
118.可选取预设数量如200辆的实验网约车,在这些网约车右侧车门(左侧车门禁止下车)的合适位置如车窗正下方5cm处安装声音检测装置。每个声音检测装置用于在相应网约车到达送乘终点前采集周围声音,得到混合音频流。在真实环境下采集数据,可以提前在真实环境下安装声音检测装置,积累经验(如设备位置不固定、环境多变),从而为后续正式使用嵌入式声音检测物联网(internet of things,iot)设备铺路。
119.需要说明的是,声音检测装置的安装位置需固定、稳定,因为声音敏感度较高,需排除因车辆行驶过程中,由于声音检测装置的位置发生变化而导致采集到的声音特点发生变化,从而增加不确定因素。
120.第二种、在实验室中模拟相关声源的声音,进行声音合成。
121.在实验室中,模拟马路噪声和周围来车声音(如后方来车的发动机轰鸣声)。马路噪声一般包括路人说话、远处(大于5m)车辆发动机轰鸣声等。周围来车声音为目标声音,目标声音和马路噪声相比,具有音量偏高、频率偏大、不稳定等特点。然后,将马路噪声和目标声音进行混合,合成不同信噪比的混合音频流。
122.在实验室中采集数据的好处是不用人工进行目标声音打标,人工成本较低。
123.2、声音打标。
124.对于真实环境采集的混合音频流,需要人工标记目标声音,这里,目标声音为近距离(小于等于5m)的车辆发动机轰鸣声。对于实验室模拟得到的混合音频流,因为是用不同声源的声音讯号合成的,所以混合音频流中的目标声音是已知的。
125.3、训练语音增强模型。
126.针对真实环境中采集的混合音频流或实验室模拟得到的混合音频流,可对其进行音频帧分割,具体地,对其进行短时傅里叶变换(short-time fourtier transform,stft)预处理,其中,点数为512、帧长为512、帧hop size为128,窗口采用hamming窗。这里一帧对应的时间长度为20ms,帧hop size对应的时间长度为5ms。为了减小因傅里叶变换带来的数据差异较大的问题,还可对stft后的数据进行log处理(一种数值压缩方式)。
127.以混合音频流分割得到的第i个音频帧xi为例,具体进行如下运算:
128.对xi进行stft:
129.对取绝对值:
130.对取平方并进行对数运算:
131.对取相位:
132.为了充分利用帧与帧之间的相关性,还可进行拼帧,即几个音频帧一起作为模型的输入。假设采用扩帧为2,表示为expand=2,每次移动一帧,那么第1个样本的输入表示为:标记值为中间帧,即第2个样本的输入表示为:标记值为中间帧,即第3个样本的输入表示为:本的输入表示为:标记值为中间帧,即以此类推。
133.然后,以各样本为输入、各样本的标记值为输出对预先构建的深度神经网络(deep neural networks,dnn)模型进行训练,直至满足训练结束条件时,将dnn模型确定为语音增强模型。
134.这里,主要是利用dnn的强大学习能力,自动学习一个滤波函数,从含有噪声的声音中抽取目标声音的频谱,从而达到声音增强的目的。dnn模型的结构如图6所示,dnn的参
数设置为:batch size=32,激活函数采用leakyrelu。为了加快模型收敛、减少模型过拟合、增加模型鲁棒性,采用dropout=0.1和bn(batchnorm)。learning rate=1e-4,优化器为adam,epoch=100。网络层数为四层,那么,模型输入维度为(512/2+1)*(2*expand+1)=257*5=1285,embedding dim=2048,输出维度为(512/2+1)=257。loss为mse(mean square error均方误差),其中,n为总样本数量,j表示第j个样本,labelj表示第j个样本的标记值,为第j个样本的预测值。
135.4、声音检测测试。
136.由于在模型训练前,对各音频帧进行了数值压缩,并且模型训练过程中采用batchnorm,所以在模型训练结束后,针对第j样本,可先对模型提取出的中间帧进行bn还原,得到其中,为第j个样本的预测值,e(x)和var(x)为通过滑动平均法得到的训练集所有batch的均值和方差,ε为预先确定的参数,如ε=1e-4,γ、β均为可学习参数。再计算还原后的音频幅度值y
spec_mag
(j)=e
y(j)/2
,接着,进行波形重构,得到其中,m为样本总数,因前面采用的扩帧为2,所以波形重构时所需要的样本为2≤j≤m-2,x
phase
(j)为第j个样本的合成音的相位值。
137.最后,进行傅里叶反变换(inverse short-time fourtier transform,istft),得到y
enh
=isfft(y
spec_mag
),y
enh
即为经过语音增强后的清晰的目标声音。
138.当y
enh
和音频库中任一条声音的相似度大于80%时,确定当前样本包含目标声音,否则,确定当前样本不包含目标声音。
139.5、语音增强模型部署。
140.为了在嵌入式设备中使用tensorflow模型,这里使用tensorflow lite工具将训练好的语音增强模型转化为tflite格式,一般大小为2~3g。最后,将模型部署到声音检测iot设备中,声音检测iot设备不仅可以实现实时检查的功能,也可以实现声音采集的功能。最后,将声音检测iot设备安装到车辆右侧的合适位置上。
141.6、下车安全分析。
142.当送乘车辆将要到达送乘终点时,立即进行声音实时检查功能,当检测到目标声音后时,语音提示模块启动,提示乘客后方有来车。
143.基于相同的技术构思,本技术实施例还提供一种保证乘车安全的装置,保证乘车安全的装置解决问题的原理与上述保证乘车安全的方法相似,因此保证乘车安全的装置的实施可参见保证乘车安全的方法的实施,重复之处不再赘述。
144.图7为本技术实施例提供的一种保证乘车安全的装置的结构示意图,包括:
145.获取模块701,用于当送乘车辆与送乘终点之间的距离小于预设距离时,获取所述送乘车辆周围的混合音频流;
146.提取模块702,用于从所述混合音频流中提取指定声源的音频幅度值;
147.重构模块703,用于基于所述指定声源的音频幅度值,重构所述指定声源的音频流;
148.确定模块704,用于若所述指定声源的音频流与音频库中的任一音频流匹配,则确定所述送乘车辆周围存在影响乘客下车的声源对象。
149.在一些实施例中,提取模块702具体用于:
150.对所述混合音频流进行音频帧分割,得到音频帧序列;
151.为所述音频帧序列添加时间窗,初始时所述时间窗的时间起点与所述音频帧序列中首个音频帧的采集时间对齐;
152.将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值;
153.按照设定音频帧间隔滑动所述时间窗;
154.执行将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值的步骤,直至所述时间窗的时间终点与所述音频帧序列中末个音频帧的采集时间对齐。
155.在一些实施例中,各音频帧的幅度值是进行数值压缩后得到的,提取模块702还用于:
156.在得到所述指定声源的一个音频幅度值之后,基于对应数值压缩方式,对所述音频幅度值进行数值还原处理。
157.在一些实施例中,根据以下步骤训练所述语音增强模型:
158.获取音频帧子序列样本;
159.将所述音频帧子序列样本输入深度神经网络模,得到音频幅度预测值;
160.基于所述音频幅度预测值和所述音频帧子序列样本的音频幅度标记值,更新所述深度神经网络模的网络参数;
161.直至满足训练结束条件时,将所述深度神经网络模确定为所述语音增强模型。
162.在一些实施例中,重构模块703具体用于:
163.针对所述指定声源的每个音频幅度值,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧;
164.利用所述音频幅度值和所述参考音频帧的相位值,构建音频采样点,并将所述参考音频帧的采集时间作为所述音频采样点的采集时间;
165.按照采集时间对各音频采样点进行拼接,得到所述指定声源的音频波形;
166.对所述音频波形进行傅里叶反变换,得到所述指定声源的音频流。
167.在一些实施例中,重构模块703具体用于:
168.若所述子音频帧序列包含奇数个音频帧,则将位于所述子音频帧序列中间位置的一个音频帧作为所述参考音频帧;
169.若所述子音频帧序列包含偶数个音频帧,则将位于所述子音频帧序列中间位置的任一个音频帧作为所述参考音频帧。
170.在一些实施例中,还包括提醒模块705,用于:
171.在确定所述送乘车辆周围存在会影响乘客下车的声源对象之后,控制所述送乘车辆提醒乘客周围存在影响下车的声源对象。
172.本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,本技术各实施例中的各功能模块可以集成在一个处理器
中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
173.在介绍了本技术示例性实施方式的保证乘车安全的方法和装置之后,接下来,介绍根据本技术的另一示例性实施方式的电子设备。
174.下面参照图8来描述根据本技术的这种实施方式实现的电子设备130。图8显示的电子设备130仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
175.如图8所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
176.总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
177.存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(rom)1323。
178.存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
179.电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
180.在示例性实施例中,还提供了一种存储介质,当存储介质中的计算机程序由电子设备的处理器执行时,电子设备能够执行上述保证乘车安全的方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
181.在示例性实施例中,本技术的电子设备可以至少包括至少一个处理器,以及与这至少一个处理器通信连接的存储器,其中,存储器存储有可被这至少一个处理器执行的计算机程序,计算机程序被这至少一个处理器执行时可使这至少一个处理器执行本技术实施例提供的任一保证乘车安全的方法的步骤。
182.在示例性实施例中,还提供一种计算机程序产品,当计算机程序产品被电子设备执行时,电子设备能够实现本技术提供的任一示例性方法。
183.并且,计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以
是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、ram、rom、可擦式可编程只读存储器(erasable programmable read-only memory,eprom)、闪存、光纤、光盘只读存储器(compact disk read only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
184.本技术实施例中用于保证乘车安全的的程序产品可以采用cd-rom并包括程序代码,并可以在计算设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
185.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
186.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、射频(radio frequency,rf)等等,或者上述的任意合适的组合。
187.可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络如局域网(local area network,lan)或广域网(wide area network,wan)连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
188.应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
189.此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
190.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
191.本技术是参照根据本技术实施例的方法、装置(系统)、和计算机程序产品的流程
图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
192.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
193.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
194.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
195.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也包含这些改动和变型在内。

技术特征:


1.一种保证乘车安全的方法,其特征在于,包括:当送乘车辆与送乘终点之间的距离小于预设距离时,获取所述送乘车辆周围的混合音频流;从所述混合音频流中提取指定声源的音频幅度值;基于所述指定声源的音频幅度值,重构所述指定声源的音频流;若所述指定声源的音频流与音频库中的任一音频流匹配,则确定所述送乘车辆周围存在影响乘客下车的声源对象。2.如权利要求1所述的方法,其特征在于,从所述混合音频流中提取指定声源的音频幅度值,包括:对所述混合音频流进行音频帧分割,得到音频帧序列;为所述音频帧序列添加时间窗,初始时所述时间窗的时间起点与所述音频帧序列中首个音频帧的采集时间对齐;将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值;按照设定音频帧间隔滑动所述时间窗;执行将所述时间窗包含的音频帧子序列的幅度值输入建立的语音增强模型中,得到所述指定声源的一个音频幅度值的步骤,直至所述时间窗的时间终点与所述音频帧序列中末个音频帧的采集时间对齐。3.如权利要求2所述的方法,其特征在于,各音频帧的幅度值是进行数值压缩后得到的,还包括:在得到所述指定声源的一个音频幅度值之后,基于对应数值压缩方式,对所述音频幅度值进行数值还原处理。4.如权利要求2所述的方法,其特征在于,根据以下步骤训练所述语音增强模型:获取音频帧子序列样本;将所述音频帧子序列样本输入深度神经网络模,得到音频幅度预测值;基于所述音频幅度预测值和所述音频帧子序列样本的音频幅度标记值,更新所述深度神经网络模的网络参数;直至满足训练结束条件时,将所述深度神经网络模确定为所述语音增强模型。5.如权利要求2-4任一所述的方法,其特征在于,基于所述指定声源的音频幅度值,重构所述指定声源的音频流,包括:针对所述指定声源的每个音频幅度值,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧;利用所述音频幅度值和所述参考音频帧的相位值,构建音频采样点,并将所述参考音频帧的采集时间作为所述音频采样点的采集时间;按照采集时间对各音频采样点进行拼接,得到所述指定声源的音频波形;对所述音频波形进行傅里叶反变换,得到所述指定声源的音频流。6.如权利要求5所述的方法,其特征在于,从所述音频幅度值对应的时间窗所包含的子音频帧序列中选择一个音频帧作为参考音频帧,包括:若所述子音频帧序列包含奇数个音频帧,则将位于所述子音频帧序列中间位置的一个
音频帧作为所述参考音频帧;若所述子音频帧序列包含偶数个音频帧,则将位于所述子音频帧序列中间位置的任一个音频帧作为所述参考音频帧。7.如权利要求1所述的方法,其特征在于,在确定所述送乘车辆周围存在会影响乘客下车的声源对象之后,还包括:控制所述送乘车辆提醒乘客周围存在影响下车的声源对象。8.一种保证乘车安全的装置,其特征在于,包括:获取模块,用于当送乘车辆与送乘终点之间的距离小于预设距离时,获取所述送乘车辆周围的混合音频流;提取模块,用于从所述混合音频流中提取指定声源的音频幅度值;重构模块,用于基于所述指定声源的音频幅度值,重构所述指定声源的音频流;确定模块,用于若所述指定声源的音频流与音频库中的任一音频流匹配,则确定所述送乘车辆周围存在影响乘客下车的声源对象。9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一所述的方法。10.一种存储介质,其特征在于,当所述存储介质中的计算机程序由电子设备的处理器执行时,所述电子设备能够执行如权利要求1-7任一所述的方法。

技术总结


本申请公开一种保证乘车安全的方法、装置、电子设备及存储介质,属于车辆运营技术领域,该方法包括:当送乘车辆与送乘终点之间的距离小于预设距离时,获取送乘车辆周围的混合音频流,从混合音频流中提取指定声源的音频幅度值,基于指定声源的音频幅度值,重构指定声源的音频流,若指定声源的音频流与音频库中的任一音频流匹配,则确定送乘车辆周围存在会影响乘客下车的声源对象。这样,在送乘车辆接近送乘终点时,借助于送乘车辆周围的混合音频流确定周围声源对象是否会影响乘客下车,从而提供了一种借助于音频提升下车安全的方案。供了一种借助于音频提升下车安全的方案。供了一种借助于音频提升下车安全的方案。


技术研发人员:

张琦

受保护的技术使用者:

南京领行科技股份有限公司

技术研发日:

2022.11.29

技术公布日:

2023/3/28

本文发布于:2023-03-30 16:35:15,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/82040.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   声源   所述   幅度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图