1.本公开涉及数据处理技术领域,尤其涉及自动驾驶技术领域,具体涉及一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。
背景技术:
2.车辆如自动驾驶车辆在与周围交通参与者交互的同时,需要输出安全合理的行驶决策,例如超车、让行等,这在自动驾驶领域非常重要。
3.目前,车辆的自动驾驶决策方式通常是使用周围交通参与者的预测行为进行本车的行驶决策规划。
技术实现要素:
4.本公开提供了一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。
5.根据本公开的第一方面,提供了一种自动驾驶决策方法,包括:
6.在检测到车辆与第一
障碍物存在交互的情况下,获取
所述车辆与所述第一障碍物交互时的第一
场景特征和第一状态;
7.确定与所述第一场景特征对应的第一交互关键
参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
8.基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
9.在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
10.根据本公开的第二方面,提供了一种模型训练方法,包括:
11.获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;
12.确定所述m个场景样本对应的m个第二交互关键参数;
13.对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
14.确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
15.基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
16.根据本公开的第三方面,提供了一种自动驾驶决策装置,包括:
17.第一获取模块,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;
18.第一确定模块,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
19.构建模块,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
20.第二确定模块,用于在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
21.根据本公开的第四方面,提供了一种模型训练装置,包括:
22.第二获取模块,用于获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;
23.第四确定模块,用于确定所述m个场景样本对应的m个第二交互关键参数;
24.评估模块,用于对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
25.第五确定模块,用于确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
26.更新模块,用于基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
27.根据本公开的第五方面,提供了一种电子设备,包括:
28.至少一个处理器;以及
29.与至少一个处理器通信连接的存储器;其中,
30.存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
31.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
32.根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中的任一项方法,或者执行时实现第二方面中的任一项方法。
33.根据本公开的第八方面,提供了一种自动驾驶车辆,包括如第五方面所述的电子设备。
34.根据本公开的技术解决了对自动驾驶车辆在与障碍物交互时的行为决策准确性比较低的问题,提高了对自动驾驶车辆的行为决策的准确性。
35.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
36.附图用于更好地理解本方案,不构成对本公开的限定。其中:
37.图1是根据本公开第一实施例的自动驾驶决策方法的流程示意图;
38.图2是第一博弈树的结构示意图;
39.图3是根据本公开第二实施例的模型训练方法的流程示意图;
40.图4是迭代训练目标模型的流程示意图;
41.图5是根据本公开第三实施例的自动驾驶决策装置的结构示意图;
42.图6是根据本公开第四实施例的模型训练装置的结构示意图;
43.图7是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
44.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
45.第一实施例
46.如图1所示,本公开提供一种自动驾驶决策方法,包括如下步骤:
47.步骤s101:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态。
48.本实施例中,自动驾驶决策方法涉及数据处理技术领域,尤其涉及自动驾驶技术领域,其可以广泛应用于自动驾驶场景下。本公开实施例的自动驾驶决策方法,可以由本公开实施例的自动驾驶决策装置执行。本公开实施例的自动驾驶决策装置可以配置在任意电子设备中,以执行本公开实施例的自动驾驶决策方法。该电子设备可以部署在自动驾驶车辆中,以为自动驾驶车辆进行行驶过程中的行为决策。
49.车辆可以为自动驾驶车辆,其可以称之为主车,第一障碍物可以为主车周边的障碍物,可以为机动车辆,其可以称之为从车。
50.自动驾驶决策装置可以检测周边是否存在与主车交互的从车,以在检测到周边存在与主车交互的从车的情况下,对主车进行自动驾驶的行为决策,以进行安全行驶。具体的,自动驾驶决策装置可以通过检测主车和从车的位置、主车和从车的行驶状态等信息,来确定主车是否与周边从车存在交互,比如,检测到两者位置距离比较近,或者,从车的加速度比较大时,可以确定主车与周边从车存在交互。
51.在检测到车辆与第一障碍物存在交互的情况下,可以获取车辆与所述第一障碍物交互时的第一场景特征和第一状态,第一状态可以包括:交互时车辆的行驶状态和其位置,以及第一障碍物的运动状态和其位置(当第一障碍物为从车时,其运动状态即为其行驶状态),行驶状态可以包括速度、加速度、角度和角速度等。第一场景特征可以为是交互时主车的速度、地图车道拓扑等。
52.自动驾驶决策装置可以通过部署检测模块(如雷达、惯导传感器等)、地图应用等方式,来获取车辆与第一障碍物交互时的第一场景特征和第一状态。
53.步骤s102:确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估。
54.该步骤中,第一交互关键参数可以对自动驾驶车辆交互时进行行为决策的策略进行评估的参数,用于对与第一障碍物交互时车辆的驾驶行为进行评估。
55.第一交互关键参数可以包括:用于构建模拟车辆与第一障碍物交互的第一博弈树的时间步长t、对第一博弈树模拟出来的结果(即叶子节点)进行评分的标准参数,如评分标准中交互安全的最小距离,或者交互安全项的权重等。
56.其中,时间步长t不同,所构建的第一博弈树不同,标准参数不同,对第一博弈树模拟出来的结果进行评分所得到的评分值不同。该步骤中,可以确定与第一场景特征对应的第一交互关键参数,第一场景特征与车辆与第一障碍物的交互场景匹配,这样可以使得自动驾驶决策装置可以根据主车与第一障碍物的交互场景,构建出适合于模拟该交互场景的博弈树,以及可以对博弈树模拟出来的结果进行准确地评估,从而可以基于评估结果进行准确地行为决策。
57.比如,交互场景指示主车的速度很快时,其行驶状态变化比较大,在该交互场景下,其时间步长t可以比较短,这样所构建出来的博弈树才能够比较准确地模拟该交互场景,反之,其时间步长t可以适应性地增大,这样可以简化所构建出来的博弈树。另外,交互场景指示主车的速度很快时,评分标准中交互安全的最小距离、交互安全项的权重等标准参数可以设置地比较大,反之,评分标准中交互安全的最小距离、交互安全项的权重等标准参数可以适应性地减小,以保证对结果评分的准确性。
58.又比如,交互场景指示地图车道拓扑比较复杂时,其车道位置变化比较快,在该交互场景下,其时间步长t可以比较短,反之其时间步长t可以适应性地增大。另外,交互场景指示地图车道拓扑比较复杂时,评分标准中交互安全的最小距离、交互安全项的权重等标准参数可以设置地比较大,反之,评分标准中交互安全的最小距离、交互安全项的权重等标准参数可以适应性地减小,以保证对结果评分的准确性。
59.在一可选实施方式中,自动驾驶决策装置可以存储有场景特征和交互关键参数的映射表,可以通过查表方式确定与第一场景特征对应的第一交互关键参数。
60.在另一可选实施方式中,可以将第一场景特征输入至目标模型,得到目标模型输出的第一交互关键参数;其中,该目标模型可以为机器学习模型如回归模型,目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。该目标模型可以预先训练,其训练过程在下述实施例再进行详细说明。
61.步骤s103:基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树。
62.该步骤中,第一状态可以称之为初始状态,其包括主车和第一障碍物分别在交互时(可以称之为t0时刻)的行驶状态,还可以包括主车和第一障碍物分别在t0时刻的位置。
63.在检测到主车与第一障碍物存在交互的情况下,可以将该初始状态作为第一博弈树的根节点的节点状态。并以该初始状态为起点,按照主车与从车的驾驶行为模拟主车与从车的行驶,以模拟主车与从车的交互过程,基于交互过程中主车与从车的状态构建第一
博弈树的层级节点。
64.其中,第一博弈树的层数基于主车与第一障碍物的交互模拟时间和时间步长t综合确定,交互模拟时间越久,采用相同的时间步长t所构建的博弈树层数越多,时间步长t越小,在相同的交互模拟时间内所构建的博弈树的层数越多。时间步长t可以预先设置,也可以在构建第一博弈树之前根据第一场景特征确定,如第一交互关键参数中可以包括时间步长t。
65.需要说明的是,主车与从车的驾驶行为可以预先设定,在模拟主车与从车的交互过程中,主车的驾驶行为可以对应驾驶场景下主车可能决策的驾驶行为,而从车的驾驶行为可以对应从车可能决策的驾驶行为。由于交互场景下,主车和从车可能决策的驾驶行为包括至少一种,将主车可能决策的至少一种驾驶行为与从车可能决策的至少一种驾驶行为进行组合,得到多个行为组合,每个行为组合表示主车与从车的一种交互情况,行为组合不同,交互情况也不同,相应的,在父节点(根节点也可以称之为一个父节点)处模拟主车与从车按照一个行为组合进行驾驶后,可以基于驾驶后的状态构建一个子节点。如此反复构建,直至主车与从车的交互模拟结束。
66.步骤s104:在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
67.该步骤中,目标行为决策可以为车辆在与第一障碍物交互过程中决策出来的实际驾驶行为,比如,超车、让行、观察等。车辆可以与目标行为决策与第一障碍物进行实际交互,以进行安全且合理的交互,提高用户体验。
68.自动驾驶决策装置可以基于交互模拟过程中主车和从车的位置、主车和从车的行驶状态等信息,来确定主车与从车是否交互模拟结束,比如,模拟过程中检测到两者位置距离比较近,或者,从车的加速度比较大时,可以确定主车与从车的交互模拟结束。
69.在车辆与第一障碍物的交互模拟结束的情况下,可以基于第一博弈树和第一交互关键参数,确定与第一障碍物交互时车辆的目标行为决策。具体的,自动驾驶决策装置可以基于第一交互关键参数,对第一博弈树模拟出来的交互结果(即叶子节点)进行评分,得到各个交互结果的评分值。从最高评分值的交互结果对应叶子节点回溯第一博弈树直到根节点,其对应路径下根节点到第一层的层级节点的动作即为最优动作,将其通过特定规则转换为自动驾驶的行为决策,得到目标行为决策。
70.比如,最优动作指示主车的加速度大于一阈值时,则转换为行为决策为超车,最优动作指示主车的减速度大于一阈值时,则转换为行为决策为让行,最优动作指示主车的加速度为零时,则转换为行为决策为观察。
71.在一场景中,主车与一辆从车存在交互,此时,可以基于第一博弈树和第一交互关键参数,直接确定与第一障碍物交互时车辆的目标行为决策。
72.在另一场景中,主车与多辆从车存在交互如主车汇入车流场景,自动驾驶决策装置可以分别确定与不同从车交互的场景特征对应的交互关键参数,并分别构建模拟主车与不同从车交互的博弈树,这样可以针对主车与不同从车的交互,可以分别确定主车的行为决策,并综合主车的各个行为决策,确定目标行为决策。
73.比如,主车汇入车流场景中,若主车的行为决策分别为超车和让行,则目标行为决
策指示主车汇入至两个从车之间,若主车的行为决策均为超车,则目标行为决策指示主车汇入至两个从车之前,若主车的行为决策均为让行,则目标行为决策指示主车汇入至两个从车之后。
74.本实施例中,通过获取车辆与第一障碍物交互时的场景特征,确定与场景特征对应的交互关键参数,以及通过对车辆和第一障碍物的未来交互进行建模,得到用于模拟车辆与第一障碍物交互的博弈树,之后基于博弈树和交互关键参数进行与第一障碍物交互时车辆的行为决策。如此,可以通过使用交互博弈树对未来可能的交互情况的模拟,处理主车与从车在强交互场景下主车的行为决策问题,提高自动驾驶决策的准确性。
75.并且,通过确定与场景特征对应的交互关键参数,对自动驾驶车辆交互时进行行为决策的策略进行评估,如此,可以对博弈树模拟出来的结果进行准确地评估,从而可以提高自动驾驶决策的准确性。另外,可以提高自动驾驶决策的效率,可以用于大规模自动驾驶决策场景中。
76.可选的,所述步骤s102具体包括:
77.将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;
78.其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
79.本实施方式中,可以将第一场景特征输入至目标模型,得到目标模型输出的第一交互关键参数;其中,该目标模型可以为机器学习模型如回归模型,目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。该目标模型可以预先训练,其训练过程在下述实施例再进行详细说明。
80.相对于手动调整与交互场景匹配的交互关键参数,可以大大提高自动驾驶决策的效率,可以用于大规模自动驾驶决策场景中,并且,也可以提高交互关键参数确定的准确性和交互场景下的应用泛化性。
81.可选的,所述第一交互关键参数包括时间步长,所述步骤s103具体包括:
82.基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;
83.基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。
84.本实施方式中,第一交互关键参数中可以包括时间步长t,时间步长t不同,所构建的第一博弈树不同。
85.从交互时开始,时长为时间步长t的各个时刻可以表示为t0+k*时间步长t,k为正整数。
86.以下以相邻的两个时刻(分别为第一时刻和第二时刻)构建博弈树为例进行详细说明。
87.其中,第一时刻不同,所对应的第一博弈树的层数不同,比如,第一时刻为t0时刻时,则对应根节点,该根节点的节点状态为主车和第一障碍物分别在t0时刻的初始状态。第
一时刻为(t0+时间步长t)时,则对应第一博弈树中的第一层的层级节点,该节点的节点状态为主车和第一障碍物分别为(t0+时间步长t)时刻的状态,以此类推。
88.第二时刻可以为从第一时刻开始,时长为时间步长t的时刻,即第二时刻是与第一时刻相差一个时间步长t的时刻。
89.预设的行为组合可以为主车和第一障碍物分别在时间步长t的时间段内的驾驶行为的组合,可以获取第一时刻对应驾驶场景下主车可能决策的至少一种驾驶行为,以及第一障碍物可能决策的至少一种驾驶行为,将主车可能决策的至少一种驾驶行为与第一障碍物可能决策的至少一种驾驶行为进行组合,得到行为组合,行为组合中可以包括主车决策的一种驾驶行为和第一障碍物决策的一种驾驶行为。其中,驾驶行为可以包括车辆在纵向的加速度,以及在横向的车头角速度等。
90.比如,主车可能决策的至少一种驾驶行为包括驾驶行为a1和驾驶行为a2,第一障碍物可能决策的至少一种驾驶行为包括驾驶行为b1和驾驶行为b2,则第一时刻驾驶场景下行为组合可以包括(a1,b1)、(a1,b2)、(a2,b1)和(a2,b2)。
91.第一时刻不同,第一时刻对应驾驶场景可能不同,比如,第一时刻为t0时刻时,对应场景为直行场景,第一时刻为(t0+时间步长t)时刻时,对应驾驶场景为十字路口场景。相应的,行为组合可能不同,且行为组合的数量也可能不同。
92.可以针对每个行为组合,基于主车在第一时刻的行驶状态,模拟主车在决策的驾驶行为下行驶,并推算出时间步长t后主车在第二时刻的行驶状态,以及基于第一障碍物在第一时刻的行驶状态,模拟第一障碍物在决策的驾驶行为下行驶,并推算出时间步长t后第一障碍物在第二时刻的行驶状态,得到第二时刻下的第二状态。
93.可以将第一状态作为第一博弈树的根节点的节点状态,以及将各个时刻下的第二状态作为第一博弈树的层级节点的节点状态,构建第一博弈树。其中,第一时刻下所构建的层级节点与第二时刻下所构建的层级节点为父子关系,且子节点的数量可以根据第一时刻驾驶场景下行为组合的数量确定。
94.需要说明的是,上述描述的是基于第一时刻和第二时刻的第二状态构造第一博弈树中一组父子节点的过程,第一博弈树中所有的父子节点都可以按照上述方式进行构造,直至检测到主车与第一障碍物交互模拟结束,相应可以得到主车和第一障碍物交互的第一博弈树。
95.图2是第一博弈树的结构示意图,如图2所示,第一博弈树的根节点和第一层的层级节点的关系可以为一组父子节点,根节点的节点状态可以用s0表示,第一层的层级节点的节点状态可以用s
1j
表示,j可以为子节点的标号。针对第一层的层级节点中每个节点,其与第二层中与该层级节点边连接下的层级节点也可以为一组父子节点,第二层的层级节点的节点状态可以用s
2j
表示,随着主车和第一障碍物交互的进行,重复上述构造父子节点的过程,直至主车和第一障碍物交互模拟结束。
96.如此,通过确定与交互场景匹配的时间步长t,可以使得自动驾驶决策装置可以根据主车与第一障碍物的交互场景,构建出适合于模拟该交互场景的博弈树,从而可以提高自动驾驶决策的准确性。
97.可选的,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述步骤s104具体包括:
98.基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;
99.从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;
100.基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。
101.本实施方式中,在检测到主车与第一障碍物交互模拟结束的情况下,可以仅基于第一博弈树中叶子节点的节点状态,从第一博弈树中确定目标叶子节点。其中,叶子节点可以为第一博弈树中最后一层的节点。也可以基于第一路径下车辆和第一障碍物的行驶状态、位置以及驾驶行为等的至少一项,从第一博弈树中确定目标叶子节点,第一路径可以为从根节点至叶子节点的路径。
102.可以对第一博弈树中模拟出的所有叶子结果进行评分,评分标准可以考虑交互安全性、交互体感、交通规则等,以使得评分值越高的叶子节点,主车和第一障碍物在交互结束时刻或交互过程中的安全性越好,交互体感越好,且两者遵守交通规则,评分值越低的叶子节点,主车和第一障碍物在交互结束时刻或交互过程中的安全性越差,交互体感越差,且两者可能会违反交通规则。
103.第一交互关键参数可以包括用于对第一博弈树中叶子节点进行评分的目标标准参数,如评分标准中交互安全的最小距离、交互安全项的权重等标准参数。
104.可以基于第一交互关键参数,采用现有的或新的评分方式(如评分方程)对第一博弈树中模拟出的所有叶子结果进行评分,得到叶子节点的评分值,将评分值最高的叶子节点确定为目标叶子节点。
105.之后,可以将目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为确定为目标驾驶行为(即最优动作),将其通过特定规则转换为自动驾驶的行为决策,得到目标行为决策。
106.如此,可以基于自动确定的与交互场景对应的目标标准参数,对博弈树模拟出来的交互结果进行准确地评估,从而可以基于评估结果进行准确地行为决策,并提高自动驾驶决策的效率。
107.可选的,所述方法还包括:
108.在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;
109.所述步骤s104具体包括:
110.基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;
111.基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。
112.本实施方式中,车辆和第二障碍物存在交互的检测方式,与,车辆和第一障碍物存在交互的检测方式类似,这里不进行赘述。
113.自动驾驶决策装置可以分别确定与不同从车交互的场景特征对应的交互关键参数,并分别构建模拟主车与不同从车交互的博弈树,其交互关键参数的确定方式和博弈树的构建方式均可以相同,这样可以针对主车与不同从车的交互,可以分别确定主车的行为决策(分别为第一行为决策和第二行为决策),之后综合主车的各个行为决策,可以确定目
标行为决策。
114.比如,主车汇入车流场景中,若主车的行为决策分别为超车和让行,则目标行为决策指示主车汇入至两个从车之间,若主车的行为决策均为超车,则目标行为决策指示主车汇入至两个从车之前,若主车的行为决策均为让行,则目标行为决策指示主车汇入至两个从车之后。
115.如此,可以在复杂交互场景下准确地确定主车的目标行为决策,提高自动驾驶安全性和合理性。
116.第二实施例
117.如图3所示,本公开提供一种模型训练方法,包括如下步骤:
118.步骤s301:获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;
119.步骤s302:确定所述m个场景样本对应的m个第二交互关键参数;
120.步骤s303:对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
121.步骤s304:确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
122.步骤s305:基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
123.本实施例中,可以基于目标模型自动确定车辆与障碍物交互时的交互关键参数,而目标模型在基于场景特征确定交互关键场景之前,需要预先训练,以下详细阐述目标模型的训练过程。
124.具体的,在步骤s301中,仿真集合指的是仿真环境的集合,可以包括车辆与障碍物交互的m个场景样本,每个场景样本对应一个仿真环境,且场景样本为车辆与障碍物的交互场景。比如,主车变道汇入车流、主车左转汇入车流等。
125.可以获取预先存储的仿真集合,也可以通过仿真软件构建仿真集合,这里不进行具体限定。
126.在步骤s302中,在一可选实施方式中,可以通过手动调参方式人为确定m个场景样本对应的m个第二交互关键参数,一个场景样本对应一个第二交互关键参数。
127.在另一可选实施方式中,可以记录场景样本对应的场景特征,将其输入至目标模型,该目标模型可以输出m个场景样本对应的m个第二交互关键参数。
128.其中,第二交互关键参数与第一交互关键参数中所包括的内容可以相同,这里不进行赘述。
129.可以针对每个场景样本,构建用于模拟场景样本中车辆与障碍物交互的博弈树,其博弈树的构建方式与第一实施例类似,这里不进行赘述。之后,可以基于博弈树和第二交互关键参数确定场景样本对应的第三行为决策,得到m个场景样本对应的m个第三行为决
策,第三行为决策指示该场景样本下车辆在实际交互过程中决策的驾驶行为。
130.相应的,可以采用现有的或新的评估方式,对每个场景样本对应的第三行为决策进行评估,以评估车辆在第三行为决策下的通行效率和安全性是否达标。
131.若在第三行为决策下,场景样本下的通行效率下降,如第三行为决策指示车辆观察(即车辆停车不走),此时会影响该交互场景下的通行效率,其通行效率不达标,或者,若在第三行为决策下,场景样本下会发生碰撞风险,如第三行为决策指示车辆超车(即车辆加速行驶),此时,可能会影响该交互场景下的安全性,其安全性不达标。
132.若评估车辆在第三行为决策下的通行效率和/或安全性不达标,则确定所评估的场景样本为目标场景样本(即问题场景样本)。
133.在步骤s304中,可以通过数值优化的方法,例如贝叶斯优化等,在目标场景样本上到第三交互关键参数,使得目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上可以达标。第三交互关键参数可以为目标场景样本下最优的交互关键参数,即在目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的情况下,其交互结果的评分值最高。
134.在步骤s305中,记录各个目标场景样本下的场景特征,如地图车道拓扑、主车的速度等,基于场景特征和第三交互关键参数的映射关系,对目标模型进行训练,以对场景特征与交互关键参数的映射进行学习,并更新目标模型的模型参数。
135.在一可选实施方式中,在更新目标模型的模型参数的基础上,目标模型训练可以完成。
136.在另一可选实施方式中,在更新目标模型的模型参数的基础上,可以重复步骤s302至步骤s305,直至在仿真集合中到的问题场景样本的数量最少,此时目标模型训练可以完成。
137.本实施例中,通过训练目标模型,并基于目标模型根据场景特征自动确定交互场景匹配的交互关键参数,相对于手动调整与交互场景匹配的交互关键参数,可以大大提高自动驾驶决策的效率,可以用于大规模自动驾驶决策场景中,并且,也可以提高交互关键参数确定的准确性和交互场景下的应用泛化性。
138.可选的,所述步骤s302具体包括:
139.获取所述m个场景样本对应的m个场景特征;
140.将所述m个场景特征分别输入至目标模型,得到所述目标模型输出的所述m个第二交互关键参数。
141.本实施方式中,可以记录各个场景样本下的场景特征,将m个场景特征分别输入至目标模型,得到目标模型输出的m个第二交互关键参数。这样,在更新目标模型的模型参数的基础上,可以基于仿真集合迭代训练目标模型,重复步骤s302至步骤s305,直至在仿真集合中到的问题场景样本的数量最少,此时目标模型训练可以完成,如此,通过强化学习算法对目标模型进行迭代训练,可以提高目标模型的训练效果。
142.可选的,所述步骤s304具体包括:
143.基于预设的n个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述n个交互关键参数对应的n个评分值;
144.将所述n个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键
参数。
145.本实施方式中,通过数值优化的方法,在预设的n个交互关键参数下,分别基于预设的交互关键参数,对目标场景样本下车辆与障碍物的交互结果进行评分,以到目标场景样本下最优的交互关键参数,即评分值最高的交互关键参数,如此,可以提高场景特征与交互关键参数映射关系的确定准确性。
146.如图4所示,为迭代训练目标模型的流程示意图,如图4所示,在仿真集合下不断迭代训练,通过构建场景样本下的博弈树得到仿真结果,通过评估仿真结果到问题场景样本,并通过参数优化算法到问题场景样本对应的第三交互关键参数,基于问题场景样本对应的场景特征和第三交互关键参数,更新目标模型的模型参数。
147.第三实施例
148.如图5所示,本公开提供一种自动驾驶决策装置500,包括:
149.第一获取模块501,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;
150.第一确定模块502,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
151.构建模块503,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
152.第二确定模块504,用于在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
153.可选的,所述第一确定模块502,具体用于:
154.将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;
155.其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
156.可选的,所述第一交互关键参数包括时间步长,所述构建模块503,具体用于:
157.基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;
158.基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。
159.可选的,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述第二确定模块504,具体用于:
160.基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;
161.从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;
162.基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。
163.可选的,所述装置还包括:
164.第三确定模块,用于在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;
165.所述第二确定模块504,具体用于:
166.基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;
167.基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。
168.本公开提供的自动驾驶决策装置500能够实现自动驾驶决策方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
169.第四实施例
170.如图6所示,本公开提供一种模型训练装置600,包括:
171.第二获取模块601,用于获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;
172.第四确定模块602,用于确定所述m个场景样本对应的m个第二交互关键参数;
173.评估模块603,用于对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
174.第五确定模块604,用于确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
175.更新模块605,用于基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
176.可选的,所述第四确定模块602,具体用于:
177.获取所述m个场景样本对应的m个场景特征;
178.将所述m个场景特征分别输入至目标模型,得到所述目标模型输出的所述m个第二交互关键参数。
179.可选的,所述第五确定模块604,具体用于:
180.基于预设的n个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述n个交互关键参数对应的n个评分值;
181.将所述n个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键参数。
182.本公开提供的模型训练装置600能够实现模型训练方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
183.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
184.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
185.图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
186.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
187.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
188.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如自动驾驶决策方法或模型训练方法。例如,在一些实施例中,自动驾驶决策方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的自动驾驶决策方法的一个或多个步骤,或者执行上文描述的模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行自动驾驶决策方法或模型训练方法。
189.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
190.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
191.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
192.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
193.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
194.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
195.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
196.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种自动驾驶决策方法,包括:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。2.根据权利要求1所述的方法,其中,所述确定与所述第一场景特征对应的第一交互关键参数,包括:将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。3.根据权利要求1所述的方法,其中,所述第一交互关键参数包括时间步长,所述基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树,包括:基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。4.根据权利要求1所述的方法,其中,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。5.根据权利要求1所述的方法,还包括:在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。6.一种模型训练方法,包括:
获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;确定所述m个场景样本对应的m个第二交互关键参数;对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。7.根据权利要求6所述的方法,其中,所述确定所述m个场景样本对应的m个第二交互关键参数,包括:获取所述m个场景样本对应的m个场景特征;将所述m个场景特征分别输入至目标模型,得到所述目标模型输出的所述m个第二交互关键参数。8.根据权利要求6所述的方法,其中,所述确定所述目标场景样本对应的第三交互关键参数,包括:基于预设的n个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述n个交互关键参数对应的n个评分值;将所述n个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键参数。9.一种自动驾驶决策装置,包括:第一获取模块,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;第一确定模块,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;构建模块,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;第二确定模块,用于在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。10.根据权利要求9所述的装置,其中,所述第一确定模块,具体用于:将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。11.根据权利要求9所述的装置,其中,所述第一交互关键参数包括时间步长,所述构建
模块,具体用于:基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。12.根据权利要求9所述的装置,其中,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述第二确定模块,具体用于:基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。13.根据权利要求9所述的装置,还包括:第三确定模块,用于在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;所述第二确定模块,具体用于:基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。14.一种模型训练装置,包括:第二获取模块,用于获取仿真集合,所述仿真集合包括车辆与障碍物交互的m个场景样本,m为大于1的整数;第四确定模块,用于确定所述m个场景样本对应的m个第二交互关键参数;评估模块,用于对所述m个场景样本对应的m个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;第五确定模块,用于确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;更新模块,用于基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。15.根据权利要求14所述的装置,其中,所述第四确定模块,具体用于:获取所述m个场景样本对应的m个场景特征;将所述m个场景特征分别输入至目标模型,得到所述目标模型输出的所述m个第二交互关键参数。
16.根据权利要求14所述的装置,其中,所述第五确定模块,具体用于:基于预设的n个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述n个交互关键参数对应的n个评分值;将所述n个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键参数。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法,或者执行权利要求6-8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法,或者执行根据权利要求6-8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法,或者实现根据权利要求6-8中任一项所述的方法。20.一种自动驾驶车辆,包括如权利要求17所述的电子设备。
技术总结
本公开提供了一种自动驾驶决策方法、模型训练方法、相关装置及电子设备,涉及数据处理技术领域,具体涉及自动驾驶技术领域。具体实现方案为:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。物交互时所述车辆的目标行为决策。物交互时所述车辆的目标行为决策。
技术研发人员:
赵昊玮 和家平 张宇杰 李一贤 柳长春
受保护的技术使用者:
智能技术(北京)有限公司
技术研发日:
2022.10.28
技术公布日:
2022/12/16