一种基于AIS数据的船舶碰撞风险预测方法与流程

阅读：评论：0

一种基于ais数据的船舶碰撞风险预测方法
技术领域
1.本技术属于船舶碰撞风险预测领域，具体涉及一种基于ais数据的船舶碰撞风险预测方法。

背景技术：

2.现如今，国际化趋势日益加剧，世界各地的联系也变得越来越紧密，世界各国粮食等资源进出口交易也越来越频繁。航运作为国际贸易的主要运输方式，海上运输成为了各国货物交易的主要途径。目前，海运贸易总量已经占到了全球贸易总量的90％，并且依然保持着高速增长，清晰表明海洋运输在世界运输系统中处于核心地位。海上运输船舶种类越来越多，船舶载重量越来越大，船舶的数量也越来越庞大，随之带来海上贸易繁荣的同时也造成了许多隐患。海上事故也时有发生，海上事故通常根据成因不同而被分为不同类型，主要包括碰撞事故、搁浅事故、火灾和机械故障以及溢油事故等。
3.其中，碰撞事故近几年层出不，严重影响了船舶的航行安全。据统计结果显示，近海岸线和港口水域是船舶海上事故多发的区域，其中有90％海上事故发生在近岸区域和港口区域。为了防止碰撞，提高航行安全，人们对事故频率、事故后果估计和概率估计等多种风险评估模型进行了广泛研究。然而，迄今为止开发的大多数模型中都没有纳入碰撞风险的早期预警方法，而是都倾向于关注某一时刻的碰撞风险的瞬时评估。即使船主或驾驶员意识即将发生风险时，他们也通常没有时间来操纵船舶来避免碰撞的风险。例如在2018年，“桑吉”号与“长峰水晶”号在长江口外东海海域发生海上碰撞事件。根据官方事故报告，碰撞的主要原因是两名驾驶员在相遇的最初阶段缺乏对潜在风险的认识。国际海事组织imo(international maritimeorganization，imo)提出的国际海上避碰规则(internationalregulations for preventing collisions at sea，colregs)建议，有必要留出更多时间来评估相撞的风险并在足够时间内采取避碰行动。迄今为止的数据表明，尽早发出警报极其重要，以便驾驶员有足够的时间来应对紧急情况并且作出反应来避免碰撞。因此，提前告知船主或驾驶员两艘船舶未来某一刻碰撞的风险程度并提供路线规划的直接支持，可以有效的防止交通安全事故的发生。
4.为保障船舶的安全航行，船舶交通服务系统vts(vessel trafficservice system，vts)应用而生。vts是利用船舶自动识别系统 (automatic identification system，ais)的等设备来实时监控船舶动态。自2004年起，要求超过一定载重量的货轮和商船都要配备ais设备。随着大量ais技术和设备应用在船舶上，随之产生的大量ais数据为船舶风险碰撞预测提供了大量数据支持。使用海量数据对船舶风险进行早期预测具有重要的研究意义。

技术实现要素：

5.本技术提出了一种基于ais数据的船舶碰撞风险预测方法，通过 attention-bilstm网络对轨迹对相对运动参数的船舶碰撞风险预测，并通过多个模型分别预测不同时
间段的碰撞风险等级。
6.为实现上述目的，本技术提供了如下方案：
7.一种基于ais数据的船舶碰撞风险预测方法,具体包括如下步骤，采集待测试的ais数据；
8.对所述待测试的ais数据进行预处理，获取处理后的数据集，并获取轨迹对；
9.基于获取的所述数据集进行船舶碰撞危险度计算及区域碰撞风险计算，并获取cri数据；
10.基于获取的所述cri数据，通过attention-bilstm网络对所述轨迹对相对运动参数的船舶碰撞风险预测，获取输入特征以及标签值；
11.基于所述输入特征以及所述标签值，预测不同时间段的碰撞风险等级。
12.优选的，所述预处理方法包括：数据缺失值处理和数据清洗处理。
13.优选的，所述数据缺失值处理的方法包括：通过拉格朗日插值法利用缺失值相邻的已知点拟合函数来求出未知点的方式，建立插值函数，对求取的点来进行计算。
14.优选的，所述船舶碰撞危险度计算的方法包括：基于模糊理论和统计分析两种方法来建立船舶危险度计算模型。
15.优选的，所述统计分析方法包括：确定rifs的权重以及确定rifs 的值，所述rifs包括：d、vr、d
cpa
和t
cpa
，其中d表示两艘船舶的相对距离、vr表示相对速度、d
cpa
表示dcpa、t
cpa
表示tcpa。
16.优选的，所述区域碰撞风险计算方法包括：通过k-means聚类的方法对碰撞风险值进行聚类分析。
17.优选的，获取所述输入特征的方法包括：特征提取和归一化处理，所述特征提取的具体步骤为：
18.船舶行为向量设定为相对速度vr、相对距离d、相对航向a、真方位角α、本船方位角αo和目标船方位角α
t
，设本船为参数 so(lono,lato,co,vo)，目标船参数为s
t
(lon
t
,lat
t
,c
t
,v
t
)，lon表示经度、 lat表示纬度、c表示对地航向、v表示对地航速，相对速度计算公式如下所示，
[0019]vr
＝|v
o-v
t
|
[0020]
相对距离d计算公式如下所示，本船与目标船的相对航向a，计算公式下所示，
[0021][0022]
α表示真方位角，计算公式如下所示，
[0023][0024]
αo和α
t
分别表示本船和目标船的相对方位，计算公式如下所示，
[0025]
αo＝α-co[0026]
α
t
＝α-c
t
[0027]
w＝(vr,d,a,α,αo,α
t
)可表示相遇船舶对的行为特征，
[0028]
t个时间步一对船舶轨迹对的输入特征数据x如下式所示，
[0029][0030]
优选的，通过attention-bilstm网络、attention-lstm、bp神经网络、长短期记忆网络和bilstm网络预测不同时间段的碰撞风险等级。
[0031]
本技术的有益效果为：本技术公开了一种基于ais数据的船舶碰撞风险预测方法,通过对ais数据进行预处理，通过获取的数据集进行船舶碰撞危险度计算及区域碰撞风险计算，通过attention-bilstm 网络对轨迹对相对运动参数的船舶碰撞风险预测，通过多个模型分别预测不同时间段的碰撞风险等级，本技术通过研究船舶碰撞风险模型，可以有效的应对紧急情况并且作出反应来避免碰撞，通过提前告知船主或驾驶员两艘船舶未来某一刻碰撞的风险程度并提供路线规划的直接支持，可以有效的防止交通安全事故的发生，本技术具有广阔的推广空间和使用价值。
附图说明
[0032]
为了更清楚地说明本技术的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0033]
图1为本技术实施例方法流程示意图；
[0034]
图2、图3所示为经过上述操作后ais数据初步提取之后的样例轨迹示意图；
[0035]
图4为本技术实施例轨迹异常点示意图；
[0036]
图5为本技术实施例ais数据时间分布示意图；
[0037]
图6为本技术实施插值示意图；
[0038]
图7为本技术实施例rifs的示意图；
[0039]
图8为本技术实施例cri累积分布函数示意图；
[0040]
图9为本技术实施例cri分布直方示意图。
具体实施方式
[0041]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0042]
为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
[0043]
如图1所示，一种基于ais数据的船舶碰撞风险预测方法,
[0044]
通过采集待测试的ais数据；对待测试的ais数据进行预处理，获取处理后的数据集，并获取轨迹对；基于获取的数据集进行船舶碰撞危险度计算及区域碰撞风险计算，并获取cri数据；基于获取的cri数据，通过attention-bilstm网络对轨迹对相对运动参数的船舶碰撞风险预测，获取输入特征以及标签值；基于的输入特征以及标签值，通过多个模型分别预测不同时间段的碰撞风险等级。
[0045]
在本实施例中，预处理方法包括：数据缺失值处理和数据清洗处理。
[0046]
在本实施例中，数据缺失值处理的方法包括：通过拉格朗日插值法利用缺失值相邻的已知点拟合函数来求出未知点的方式，通过建立插值函数，对求取的点来进行计算。
[0047]
在本实施例中，船舶碰撞危险度计算的方法包括：基于模糊理论和基于统计分析两种方法来建立船舶危险度计算模型。
[0048]
在本实施例中，统计分析方法包括：确定rifs的权重以及确定 rifs的值，rifs包括：d、vr、d
cpa
和t
cpa
，其中d表示两艘船舶的相对距离、vr表示相对速度、vr表示dcpa、t
cpa
表示tcpa。
[0049]
在本实施例中，区域碰撞风险计算方法包括：通过k-means聚类的方法对碰撞风险值进行聚类分析，
[0050]
k-means聚类的目的是将观测数据划分为簇，其中每个观测数据都会属于具有最近距离的簇，设给定一组观测值为(x1,x2,
…
,xn)，其中每一个观测值都为d维向量。k-means聚类的目的是将n个观察结果划分到k个小集合中，设s＝{s1,s2,
…
,sk},(k≤n)
[0051][0052]
其中ui为集合si中各点的均值，xj为样本点，聚类的范围是由样本决定的。
[0053]
例如，获取输入特征的方法包括：特征提取和归一化处理，特征提取的具体步骤为：
[0054]
船舶行为向量设定为相对速度、相对距离、相对航向、真方位角、本船方位角和目标船方位角。以上六种特征分别记为vr、d、a、α、αo和α
t
。设本船为参数so(lono,lato,co,vo)，目标船参数为 s
t
(lon
t
,lat
t
,c
t
,v
t
)。lon、lat、c、v分表表示经度、纬度、对地航向和对地航速。相对速度计算公式如下所示，
[0055]vr
＝|v
o-v
t
|
[0056]
相对距离d计算公式如下所示，本船与目标船的相对航向a，计算公式下所示，
[0057][0058]
α表示真方位角，计算公式如下所示，
[0059][0060]
αo和α
t
分别表示本船和目标船的相对方位，计算公式如下所示，
[0061]
αo＝α-co[0062]
α
t
＝α-c
t
[0063]
通过上述公式，参数w＝(vr,d,a,α,αo,α
t
)可表示相遇船舶对的行为特征。因此，t个时间步一对船舶轨迹对的输入特征数据x如下式所示，
[0064][0065]
优选的，多个模型包括：attention-bilstm网络、attention-lstm、 bp(back propagation，bp)神经网络、长短期记忆(long-short termmemory，lstm)网络和bilstm网络。
[0066]
其中，数据预处理是提高后续研究结果准确性的必要步骤。通过数据预处理可以去除ais原始数据中的异常数据，并且利用每一艘船舶独有的mmsi对静态信息和动态信息进行匹配。船舶轨迹预处理主要有如下步骤：
[0067]
1.缺失值处理
[0068]
船舶航行时，由于船舶位置不断变化，通常会出现信号不稳定或者数据丢失的情况，从而导致ais数据接收时间间隔不固定。对缺失值的处理一般使用插值处理。
[0069]
插值处理方法是在实际工程领域经常使用的填补数据缺失的方法。最常用的是拉格朗日插值法和滑动平均窗口插值法，拉格朗日插值法是利用缺失值相邻的已知点拟合函数来求出未知点的方式，通过建立插值函数，对求取的点来进行计算。滑动平均窗口是平均值插值的改进版本，在一个窗口中获取窗口中所有数据并求它的平均值，赋值给缺失值。可用于缺失值的处理，不过更加适用于异常值的处理。
[0070]
2.轨迹分割
[0071]
对于船舶轨迹而言，每艘船在一个时段内所有轨迹点构成了这艘船在这个时段的轨迹整体。由于轨迹可能时间跨度很长，或者轨迹点过多，所以轨迹分割成为了必不可少的工作。
[0072]
方法一是从轨迹点的位置考虑，通过南北和东西，将整个研究海域划分为不同的网格，一个网格代表一个区域，最终将一个网格内的区域出现的轨迹点划分为一个轨迹段。这种方法的缺点是没有考虑轨迹的连续性，从而对后面的模型学习有一定的影响。
[0073]
方法二是从船舶整个航行过程中出发，有滑动窗口分割和按照时间间隔分割等方法。这类分割方法一般是从一艘船舶的整个航行过程出发来区分不同时间段的连续航迹。此类方法应该准确把握子轨迹的长度，若子轨迹过长，船舶的行为过于复杂则不方便后期的建模处理。若子轨迹过短，则无法有效的学习到具体的运动行为特征。因此需要根据实际问题出发来进行适当的轨迹分割。
[0074]
其中，船舶轨迹的提取以及数据清洗的步骤包括：
[0075]
2.1轨迹初步提取
[0076]
一条船舶的完整轨迹由多个此船舶的ais轨迹点构成，通过ais 数据可以获取utc
时间、经纬度、sog、cog、mmsi和船长。利用每艘船舶mmsi，静态信息和动态信息进行匹配可以获得。
[0077]
设一艘船舶的ais轨迹点为pi＝{ti,loni,lati,ci,vi,l}，用 t表示船舶轨迹，则船舶轨迹可表示为：t＝[p1,p2,p3,
…
,pn]。其中ti，loni，lati，ci，vi，l分别为该点的时间、经度、纬度、对地航速、对地航向、长度。船舶的轨迹段通过以下步骤提取：
[0078]
(1)剔除船舶长度不足13米的船舶，因为小型船舶的航行容易受到海浪和海风的影响，对建模有一定的影响。
[0079]
(2)剔除状态为停泊状态船舶和sog连续为0的数据。
[0080]
(3)按照mmsi对轨迹点进行分组并按照时间对轨迹点进行排序组成轨迹段。
[0081]
图2、图3所示为经过上述操作后ais数据初步提取之后的样例轨迹。
[0082]
2.2异常数据处理
[0083]
通过各种类型的传感器采集到的ais数据中难免出现数据出错和数据异常的情况，主要出错的数据项包括经纬度位置异常、航速和航向异常。
[0084]
(1)位置异常
[0085]
ais传输位置数据时，有时会出现设备定位异常，从而使得单个轨迹点大幅度偏离原来航线的情况，如图4所示为一条存在位置异常点的轨迹。
[0086]
图中p'1和p'2表示轨迹异常点，分别计算p'1和p'2以及这两个点与各自相邻的轨迹点的平均速度，如果超过了设定的速度阈值，则检测为异常点，具体如下：
[0087]
①
计算两个轨迹点的距离公式，通过两个点经纬度来计算两个点的距离公式如式(2.1)所示。
[0088][0089]
其中d表示两点之间的距离，r表示地球的半径，取6371km，其中d表示两点之间的距离，r表示地球的半径，取6371km，和表示前后两个点的经纬度坐标。
[0090]
②
计算平均速度公式如式(2.2)所示。
[0091][0092]
表示两点之间的平均速度(单位：节)，δt表示时间间隔。
[0093]
③
异常点判断。轨迹异常点的判断是通过比较两点之间的速度来判断的。船舶行驶的最高速度通常在30-40节之间，一般不会超过 50节，所以我们把平均速度的阈值设置在50节。如图4所示，计算 a点、p1点和b点三个点两两之间的平均速度。假设计算出来a点、 p1点的平均速度为p1点和b点的平均速度为a、b两点之间的平均速度为
[0094]
a)若和值都大于50而的值小于50，则说明p1点为异常点，需要进行插值来进行经纬度矫正。
[0095]
b)若且说明a点为异常点或p1点和b点为异常点。若p1点和b点为连续异常点，则需要依次遍历后续的轨迹点，直到遍历到最后一个异常点。如果连续的异常点的数量小于5，则可以对异常点进行插值处理，否则，需要对整个轨迹进行删除或者分割为两个轨迹段。
[0096]
(2)对地航速异常和对地航向异常
[0097]
由于船舶的对地航速和对地航向都是通过速度传感器和姿态传感器获取并传输，所以可能在传感器采集和传输的过程中出现异常速度值和异常航向值，因此需要对航速和航向异常值进行判断和处理。
[0098]
由于船舶的速度和航向在短时间内不会进行剧烈的变化，所以论文选择两个评判标准，定义公式如下：
[0099][0100][0101]
式中crs为对地航速变化率，crc为对地航向变化率，为船舶在处的速度，为船舶在处的对地航向，tm和tn分别为时间戳。
[0102]
设定crs的阈值为α
max
，crc的阈值为β
max
，这两个指标表示船舶运行状态变化的快慢程度。当船舶轨迹点的速度变化率小于α
max
，并且航向变化率小于β
max
时，说明船舶很大可能在停泊状态，这类点不能代表船舶的运动行为。当船舶的轨迹点变化率过大时，说明可能是异常数据，需要进行剔除或插值处理。
[0103]
2.3插值处理
[0104]
经过上述步骤的船舶轨迹，已经能够较好的表现出船舶运动轨迹了，但是由于之前的处理可能会舍弃轨迹点，使得时间间隔不固定。此外，ais设备发送数据的最大时间间隔规定为3分钟，最小间隔为 1秒。对于船舶轨迹而言，两个轨迹点之间相隔时间太远，可能对后续研究有影响。当两个连续的轨迹点先后时间间隔大于180时，数据为异常数据，应当删除或者进行分割。因此，认为两个连续的轨迹点之间的时间间隔范围为[0s，180s]。本技术对连续轨迹点之间的时间差进行统计，通过图5可以看出，时间间隔高频分布主要集中在[50s， 80s]的区间。本技术选择划分为固定时间间隔为60s的轨迹序列。因此，将[0s，60s]间隔的轨迹点删除，对于时间间隔大于60s的轨迹点进行插值处理使其时间间隔固定为60s。
[0105]
图6为插值示意图。图中，a、c两点的时间间隔过大，所以需要插入b点，使得整体的轨迹平滑且时间间隔相等。
[0106]
假设一段轨迹段为t＝{p1,p2,p3,
…
,pn}，pi代表第i个航迹点，若pi和p
i-1
之间的时间差为δti，则整个过程包括以下步骤：
[0107]
(1)插入点位置识别。首先遍历航迹t，算出前后两个点的时间差，可以根据时间差来确定插入点的位置。主要通过时间差δti来进行识别判断。
[0108]
(2)按照特定插值方法生成数据并插入。本技术设定时间间隔为δt
max
＝1min，即最终获取的航迹两两时间间隔为1min。当δti》δt
max
时，则需要进行插值处理。当δti远大于δt
max
时，意味着需要插入多个值，确定待插入点个数n公式如式(2.5)所示。
[0109][0110]
式(2.5)中，符号代表向下取整。在船舶轨迹分析领域常用的插值方法主要是线性插值方法和拉格朗日插值方法。
[0111]
(1)线性插值法
[0112]
线性插值是通过待插入点附近两个点拟合出来的线性函数来进行插值计算。假设(ti,pi)为待插入的轨迹点，与它相邻的前后的轨迹点为(tm,pm)和(tn,pn)，pi代表着ti时间的属性数据，比如该点船舶航速、航向、经度和纬度等等。则待插入点公式如式(2.6) 所示。
[0113][0114]
线性插值适用于比较平稳的轨迹段，比如船舶按照直线行驶，如果船舶行驶轨迹不平稳，线性插值的准确性会剧烈下降。
[0115]
(2)拉格朗日插值
[0116]
拉格朗日插值是一种多项式插值。是通过现有的点来拟合一条多项式曲线，然后再根据此多项式作为插值函数来到特定位置的值。
[0117]
若在平面上，有n个航迹点，表示为(t0,p0)，(t1,p1)，(t2,p2)，
…
， (t
n-1
,p
n-1
)。设这些航迹点是不重合的，拉格朗日的插值多项式定义如式(2.7)所示。
[0118][0119]
其中li(t)为拉格朗日基本多项式，公式定义如(2.8)所示。
[0120][0121]
拉格朗日算法简单，容易实现，考虑到拉格朗日插值法性能最优，本技术采用拉格朗日插值法进行插值处理。
[0122]
基于统计分析方法的cri计算中，cri值的计算主要通过统计研究水域历史数据来确定。衡量本船与目标船的碰撞风险度的影响因素可以表示为rifs＝{d,vr,d
cpa
,t
cpa
}。其中rifs表示影响因素集合，d、 vr、d
cpa
和t
cpa
分别表示两艘船舶的相对距离、相对速度、dcpa和tcpa。为了综合各个影响因素来对其量化碰撞风险，需要根据各个影响因素的重要性确定其权重。此外，还需要计算每一个影响因素的值。
[0123]
3.1确定rifs的权重
[0124]
本技术实施例使用熵值法来确定影响因子的权重值。在计算一个综合性的指标时，需要考虑多种观测指标的影响。熵值法通过各种影响因素提供的信息量的贡献值的不同对其权重赋值。在信息论中，熵是一个不确定性的度量，信息量越大，则不确定性越小，熵就越小，反之则越大。
[0125]
在确定了船舶的所有相遇场景后，将所有船舶轨迹对中每对轨迹点的d、vr、d
cpa
和t
cpa
作为样本值。假设所有相遇场景轨迹点集合为s，s可以表示如式(3.20)所示。
[0126][0127]
上式中，s包含n个样本，其中di、分别表示第 i对船舶轨迹点的相对距离、相对速度、dcpa和tcpa。设x
ij
表示第i 个样本的第j个指标，需要对样本进行归一化处理。在处理之前，首先应该将四个指标分为正指标和负指标。正指标的分数越高，则碰撞风险越小；负指标的分数越高，则碰撞风险越大。由于两船相对速度越大，则两艘船舶相撞的可能性会提高。因此，将d、d
cpa
和t
cpa
三个指标定为正指标，将vr定为负指标。正指标的归一化公式如式(3.21)，负指标的归一化公式如式(3.22)所示。
[0128][0129][0130]
其中y
ij
为归一化后的某一个样本，则第j个指标的第i个样本在该指标中的比例如式(3.23)所示，该指标的熵如式(3.24)所示。
[0131][0132][0133]
如果p
ij
＝0，则令p
ij ln(p
ij
)为0。最终，通过式(3.25)可以计算出每一个影响影子的权重。
[0134][0135]
本技术应用了多对船舶遭遇场景，通过上述处理后，得到四个影响指标的权重如式(3.26)所示。
[0136][0137]
3.2确定rifs的值
[0138]
对于四个不同的影响因素，可以使用不同的累积分布函数 (cumulative distribution function，cdf)来拟合对应的分布。本技术实施例使用所有轨迹对来对上述
四种影响因素进行分布统计，图7为rifs的分布图。影响因素的频数分布图：(a)相对距离；(b) 相对速度；(c)dcpa；(d)tcpa；
[0139][0140][0141]fdcpa
(x)＝0.0027
×
e-0.0027x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3.29)
[0142]ftcpa
(x)＝0.0042
×
e-0.0042x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3.30)
[0143]
对于vr而言，相对速度越大，则船舶碰撞风险越高。cri的值随着vr的增大而增大，因此用vr的累积分布函数来描述cri。对于d
cpa
、 t
cpa
和d而言，cri随着它们值的增大而减小。因此，使用互补累计分布函数表达式如式(3.31)所示。
[0144][0145]
rifs集合可以表示为如式(3.32)所示。
[0146][0147]
3.3cri值计算
[0148]
计算一对轨迹对在n个时间点的航程，可以得到船舶轨迹对的 rifs的值。具体如式(3.33)所示。
[0149][0150]
通过求出rifs的权重和具体值，一对船舶轨迹对在n个时间点的cri计算如下式(3.34)所示。
[0151][0152]
船舶相遇的本质是一个由相遇船舶对运动所构成的一系列过程。许多研究指出，从时空行为数据可以读取出有价值信息，根据这一理论，船舶相遇过程可以通过将其ais轨迹转换为一系列基于轨迹对的运动参数来表示，这些参数表示两个船舶之间的时空依赖关
系。未来某个时刻的碰撞风险可以与过去的运动行为序列相关。在深度学习中，分别对应标签标定和特征提取。
[0153]
通过上述的特征提取后，进行归一化处理以及标签标定，具体步骤如下：
[0154]
3.4归一化处理
[0155]
经过上述处理后，可以得到输入模型的特征数据，但是由于特征之间的差异往往会造成数量级之间的差距，从而影响到模型输入使其无法收敛学习，因此需要采用归一化处理。min-max标准化处理可以使得数据按照一定分布规则进行缩放，使所有数据项都具有同样的数量级，从而解决了输入特征单位之间的差异。min-max标准化表达式如式(4.31)所示。
[0156][0157]
其中x表示某个特征数据的原始值，x
max
表示该特征数据最大值， x
min
表示该特征数据最小值，x'表示归一化后的数据值。
[0158]
4.1标签标定
[0159]
数据标签标定是确定船舶轨迹对数据标签值的过程。通过第三章所述计算得到的cri是基于当前船舶航行状态得到的风险，本章研究内容是预测未来的碰撞风险。因此，需要建立当前t时刻输入特征值 w
t
与未来的风险值r
t+δt
的映射关系，δt表示观测到的时间序列与预测的船舶风险之间的时间间隔。
[0160]
由上文可知，cri是一个连续的值。然而，连续的cri并不能直接反映船舶碰撞风险的迫切性质。也就是即使我们知道了cri的具体数值，也无法确定它代表的危险度级别。因此，本技术利用船舶遭遇的不同风险阶段，将cri划分为5个不同的风险水平：低风险(l)、低-中风险(lm)、中风险(m)、中-高风险(mh)和高风险(h)。
[0161]
具体表述如式(4.32)所示。
[0162][0163]
其中，τ1、τ2、τ3和τ4表示不同风险等级所需要确定的阈值。可以通过分析cri的分布来确定阈值。cri是通过遭遇场景下船舶的 ais数据计算得到的，cri在每个相遇场景下统计概率是相等的。本技术计算出所有相遇场景下cri值，对计算出的cri进行排序后，将其按照排序大小分割成5个间隔，每个间隔中样本数量保持相对均衡。本技术采用累计分布函数来确定每个区间的阈值，第i个区间的下限值为τi，如图8为cri的累积分布函数图。
[0164]
根据图9所示可以得到5个风险等级的阈值。cri值在0.00和 0.38之间为低风险；cri的值在0.38和0.47之间为低-中风险；cri 的值在0.47和0.55之间为中风险；cri的值在0.55和0.62之间为中-高风险；cri的值大于0.62为高风险。通过上述处理，使cri离散化，将风险值区分成五个程度的风险区间。
[0165]
4.2实验环境和模型评价指标
[0166]
1.实验环境
[0167]
如表1为本技术实验的软件环境和硬件配置：
[0168]
表1
[0169][0170]
2.模型评价指标
[0171]
本章的实验的输出为五种风险等级，本技术将多分类问题分解成多个二分类问题，分别求出各个分类的指标，最后使用宏平均的方式来计算最终指标。有macro宏平均、microweipi为平均和weighted 加权平均三种方法，本技术使用macro宏平均方式。
[0172]
本章采用准确率、精确率、召回率和f1-score作为模型的评价指标，分别如式(4.33)至(4.38)所示。
[0173][0174][0175][0176][0177][0178][0179]
上述式子中，tp和tn都表示能够正确分类的情况，tp表示正类，tn表示负类。fp和fn表示不能正确分类的情况，fp表示将负类错误预测为正类的数量，fn表示将正类错误预测为负类的数量，l 表示分类的类别数量。
[0180]
上式中，准确率是指所有预测正确的样本数占总的比重；精确率表示正确预测为正的占全部预测为正的比例；召回率表示正确预测为正的占全部实际为正的比例；f1-score是精确率和召回率的一个平均指标，它是算数平均数除以几何平均数，并且越大越
好。其中，每个类别分别求得指标后可以使用macro宏平均求出整体平均指标。
[0181]
以上所述的实施例仅是对本技术优选方式进行的描述，并非对本技术的范围进行限定，在不脱离本技术设计精神的前提下，本领域普通技术人员对本技术的技术方案做出的各种变形和改进，均应落入本技术权利要求书确定的保护范围内。

技术特征：

1.一种基于ais数据的船舶碰撞风险预测方法,其特征在于，采集待测试的ais数据；对所述待测试的ais数据进行预处理，获取处理后的数据集，并获取轨迹对；基于获取的所述数据集进行船舶碰撞危险度计算及区域碰撞风险计算，并获取cri数据；基于所述cri数据，通过attention-bilstm网络对所述轨迹对相对运动参数的船舶碰撞风险预测，获取输入特征以及标签值；基于所述输入特征以及所述标签值，预测不同时间段的碰撞风险等级。2.如权利要求1所述基于ais数据的船舶碰撞风险预测方法,其特征在于，所述预处理方法包括：数据缺失值处理和数据清洗处理。3.如权利要求2所述基于ais数据的船舶碰撞风险预测方法,其特征在于，所述数据缺失值处理的方法包括：通过拉格朗日插值法利用缺失值相邻的已知点拟合函数来求出未知点的方式，建立插值函数，对求取的点来进行计算。4.如权利要求1所述基于ais数据的船舶碰撞风险预测方法,其特征在于，所述船舶碰撞危险度计算的方法包括：基于模糊理论和统计分析两种方法来建立船舶危险度计算模型。5.如权利要求4所述基于ais数据的船舶碰撞风险预测方法,其特征在于，所述统计分析方法包括：确定rifs的权重以及确定rifs的值，所述rifs包括：d、v
r
、d
cpa
和t
cpa
，其中d表示两艘船舶的相对距离、v
r
表示相对速度、d
cpa
表示dcpa、t
cpa
表示tcpa。6.如权利要求1所述基于ais数据的船舶碰撞风险预测方法,其特征在于，所述区域碰撞风险计算方法包括：通过k-means聚类的方法对碰撞风险值进行聚类分析。7.如权利要求1所述基于ais数据的船舶碰撞风险预测方法,其特征在于，获取所述输入特征的方法包括：特征提取和归一化处理，所述特征提取的具体步骤为：船舶行为向量设定为相对速度v
r
、相对距离d、相对航向a、真方位角α、本船方位角α
o
和目标船方位角α
t
，设本船为参数s
o
(lon
o
,lat
o
,c
o
,v
o
)，目标船参数为s
t
(lon
t
,lat
t
,c
t
,v
t
)，lon表示经度、lat表示纬度、c表示对地航向、v表示对地航速，相对速度计算公式如下所示，v
r
＝|v
o-v
t
|相对距离d计算公式如下所示，本船与目标船的相对航向a，计算公式下所示，α表示真方位角，计算公式如下所示，α
o
和α
t
分别表示本船和目标船的相对方位，计算公式如下所示，α
o
＝α-c
o
α
t
＝α-c
t
w＝(v
r
,d,a,α,α
o
,α
t
)可表示相遇船舶对的行为特征，t个时间步一对船舶轨迹对的输入特征数据x如下式所示，8.如权利要求1所述基于ais数据的船舶碰撞风险预测方法,其特征在于，通过attention-bilstm网络、attention-lstm、bp神经网络、长短期记忆网络和bilstm网络预测不同时间段的碰撞风险等级。

技术总结

本申请公开了一种基于AIS数据的船舶碰撞风险预测方法,通过采集待测试的AIS数据并进行数据预处理，然后通过两条船舶轨迹数据空间和时间建模获取轨迹对；基于获取的数据集进行船舶碰撞危险度计算及区域碰撞风险计算，通过Attention-BiLSTM网络对轨迹对相对运动参数的船舶碰撞风险预测，获取输入特征以及标签值；然后通过多个模型分别预测不同时间段的碰撞风险等级，本申请通过研究船舶碰撞风险模型，可以有效的应对紧急情况并且作出反应来避免碰撞，通过提前告知船主或驾驶员两艘船舶未来某一刻碰撞的风险程度并提供路线规划的直接支持，可以有效的防止交通安全事故的发生。可以有效的防止交通安全事故的发生。可以有效的防止交通安全事故的发生。