基于自监督表征网络的异常时序序列检测方法及存储介质与流程

阅读: 评论:0



1.本发明涉及环境监测技术领域,具体涉及一种基于自监督表征网络的异常时序序列检测方法。


背景技术:



2.随着国民经济水平的提升,机动车保有量逐年提高,随之而来的是尾气排放对城市空气质量构成了严重威胁。其中,数量占比较低的高排放类别移动源往往贡献了车辆排放总量的大部分。因此,实现对高排放移动源的精准识别与筛查是十分必要的,同时为相关治理政策的制定提供一定的依据。
3.现有的高排放源筛查手段主要依赖于车辆年检站,即规定每半年或一年的检测周期内,要求车辆通过安装有固定尾气排放监测装置的路段,然后与固定的排放标准进行比较,最后判定车辆的排放类别。例如遥感检测装置,虽然它可以在不干扰道路车辆正常行驶的情况下同时对多个车辆进行检测,但是其监测的瞬时结果对外界因素(如风速、温度、空气湿度等)的影响十分敏感。同时,考虑到周期性检测成本高、耗时长,因而不能频繁进行检测,增加了检测结果的随机性和偶然性。
4.车载诊断系统(on-board diagnostic,obd)是一种车载式运行监测装置,它可以实时监测发动机运行状态和尾气排放等数据。因其具有移动便捷、成本低廉、体积小巧等特点,近些年逐渐应用到车辆排放检测中。相较于传统的排放检测装置,obd能够在不受环境因素影响的条件下连续时间记录车辆的尾气排放和发动机参数等数据特征,很大程度上避免了瞬时检测结果带来的不确定性,为高排放道路移动源的准确识别与筛查提供了更加稳定的数据基础。


技术实现要素:



5.鉴于以上实际问题和技术背景,本发明采用数据驱动的方法,利用obd数据的nox排放浓度、发动机转速和实际输出扭矩等信息,提出了一种基于自监督表征网络的异常时序序列检测方法。具体地,实现对时序状态下车辆高排放浓度序列的准确识别,需要解决因行驶工况丰富多变导致的排放浓度序列间的差异问题:(1)正常与正常排放浓度序列之间差异性较大;(2)正常与异常排放浓度序列之间相似性较大,可用于时序行驶工况下高排放道路移动源的识别与筛查。
6.为实现上述目的,本发明采用了以下技术方案:
7.一种基于自监督表征网络的异常时序序列检测方法,包括以下步骤,s1:抽取道路移动源obd数据集,并预处理;
8.s2:构建时序行驶工况数据集;将污染物nox浓度和其他特征属性组成多维度的obd工况时序数据集,按照时间戳整理出连续时间段的排放序列;
9.s3:构建高排放浓度序列识别模型,具体为构建一种基于自监督表征网络的异常时序序列检测模型。
10.进一步的,步骤s1中具体包括采集数辆机动车多日连续时间段内的车载诊断系统实时监测数据,其中包含时间戳、后处理下游nox值、发动机转速、实际输出扭矩百分比、油门踏板开度、发动机瞬时喷油量、发动机瞬时燃油消耗率、经纬度这些特征属性;
11.上述步骤s1中预处理具体细分为如下步骤:
12.s11:对于抽取得到的车辆obd数据集中存在的空值,删除其所对应的整行数据;
13.s12:根据车辆实际排放状况将数个obd数据集人为划分为“正常排放”和“高排放”标签;
14.s13:对数据集使用归一化处理,表达为:
[0015][0016]
其中,xi表示真实值,表示xi的归一化值,x
max
和x
min
分别为当前属性中的最大值和最小值。
[0017]
进一步的,所述上述步骤s2具体细分为如下步骤:
[0018]
s21:考虑一个经步骤s1处理得到的车辆排放特征数据集其中的x(i)∈rm是一个包含m维特征的向量,该数据集根据时间戳被划分为时间步长为l的排放序列集合x={x1,x2,

,xn},其中,xi∈r
l
×m表示一个二维矩阵。
[0019]
进一步的,上述步骤s3具体细分为如下步骤:
[0020]
s31:编码;根据车辆排放输入序列x的维度,经过编码器映射后得到编码向量z;
[0021]
s32:自监督学习模块;
[0022]
s33:表征记忆模块,通过记录原型模式来增强模型区分正常和异常数据的能力;
[0023]
s34:解码;车辆排放输入序列x经过一系列重构后,需要进行解码器decoder进行解码得到原始维度空间下的输出序列x


[0024]
s35:模型的训练和预测;
[0025]
s36:模型分类性能评估。
[0026]
进一步的,步骤s311的编码过程被表示为:
[0027]
z=fe(x;θe)(19)
[0028]
其中,fe表示编码器encoder的映射函数,θe表示编码器内部所有的参数。
[0029]
进一步的,步骤s32具体包括:
[0030]
s321:以下六种信号变换来增加源数据集的表征数量,具体描述如下:
[0031]
以时序排放序列t=[t1,t2,...,tn]为例:
[0032]
(7)噪声;加入了高斯噪声的变换;
[0033]
(8)反向;这种变换使样本沿着时间维度反向,从而得到时间方向相反的样本t
op

[0034]
t
op
=[tn,...,t2,t1](20)
[0035]
(9)置换:这种变换通过对不同的时间窗口进行切片和交换,假设切片长度为2,使信号沿时间维度随机扰动,增强所得模型的置换不变性质,生成新的样本t
pe

[0036]
t
pe
=[...,t1,t2,....,t
n-l
,t
n-l+1
,....](l《n)(21)
[0037]
(10)缩放:通过乘以一个随机标量来改变一个时间窗口内信号的大小;缩放信号t
sc
的添加可以帮助模型学习缩放不变模式,被表示为:
[0038]
t
sc
=[t1×
s,t2×
s,...,tn×
s],s∈s(22)
[0039]
(11)否定:按-1缩放,得到输入信号的镜像序列t
ne

[0040]
t
ne
=[-t1,-t2,...,-tn](23)
[0041]
(12)平滑:应用savitzky-golay方法对信号进行平滑处理;
[0042]
s322:使用交叉熵损失函数来区分它们的变换类型:
[0043][0044]
式中,c为自监督学习类别数,包括原始信号和6种变换信号;yi和pi分别是预测标签和预测概率;预测概率pi被应用softmax激活函数计算得到,其表达式如下:
[0045][0046]
其中,1≤i≤c,oi表示全连接层的最后一层输出的第i个值,exp表示自然常数e。
[0047]
进一步的,步骤s33具体包括:
[0048]
s331:给定一个经步骤s31得到的编码向量z∈rf,初始化一个表征记忆矩阵m∈r
t
×f,记忆权重向量w∈r
t
被计算为:
[0049]
w=s(z,m)(26)
[0050]
其中,s(
·
)表示相似性函数,其计算表达式为:
[0051][0052]
其中,exp表示自然常数e,mi表示表征记忆矩阵m的第i个行向量且
[0053]
s332:将s331得到的记忆权重向量w与表征记忆矩阵m进行计算,得到表征记忆向量其被表示为:
[0054][0055]
s333:为促进网络更新和收敛,需要计算记忆权重向量w的稀疏损失值l
spar
,计算方式为:
[0056][0057]
进一步的,步骤s34具体包括:
[0058]
s341:步骤s33得到的表征记忆向量与编码向量z直接进行拼接,拼接后记作为表征向量z
*
∈r
2f

[0059]
s342:表征向量z
*
经过解码器decoder解码得到车辆排放的输出序列x

,该过程被表示为:
[0060]
x'=fd(z
*
;θd)(30)
[0061]
其中,fd表示解码器decoder的映射函数,θd表示网络需要学习的解码器结构所有的参数;
[0062]
计算车辆排放输入序列x和输出序列x

之间的重构损失值l
mse
,计算方式为:
[0063][0064]
其中,||
·
||2表示第二范数,l表示输入序列的原始维度,c表示序列转化类别数。
[0065]
进一步的,步骤s35具体包括:
[0066]
s351:模型的训练过程:通过将公式(14)中的重建损失l
mse
、公式(7)中的自我监督损失l
ce
和公式(12)中的稀疏损失l
spar
与权衡参数1、α1和α2进行集成,将得到高排放序列识别模型的整体训练目标:
[0067]
j(θ)=l
mse
+α1l
ce
+α2l
spar
(32)
[0068]
s352:模型的预测过程,根据重构误差阈值将预测阶段的排放实例划分“正常”和“异常”两类;
[0069]
s353:给定一个全部为正常排放实例的训练集x={x1,x2,

,x
p
},经过模型的重构后,得到的重构误差集合为l
cons
={l(x1),l(x2),

,l(x
p
)},其中,l(xi)表示实例xi的重构损失值l
mse
;则用于判断测试集的重构误差阈值μ被定义为重构误差l
cons
的第98%分位数;
[0070]
s354:在得到阈值μ后,测试集上“正常”和“异常”两类类别标签的划分规则被表示为:
[0071][0072][0073]
其中,t
normal
表示测试集上正常排放序列集合,t
abnormal
表示高排放序列集合;对于正常排放序列ti,如被划分为“正常”,则分类正确,否则分类错误;对于高排放序列tj,如被划分为“异常”,则分类正确,否则分类错误。
[0074]
另一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
[0075]
由上述技术方案可知,本发明的基于自监督表征网络的异常时序序列检测方法具有以下有益效果:
[0076]
由于现有的高排放源筛查手段,依赖于车辆年检站每半年或一年的检测周期内,要求车辆通过安装有固定尾气排放监测装置的路段,然后与固定的排放标准进行比较,最后判定车辆的排放类别。在此过程中,检测周期跨度大、监测时间短,并且检测装置往往对外界因素(如风速、温度、空气湿度等)的影响十分敏感。因此,检测结果具有较强的随机性和偶然性,极大地削弱了车辆真实排放状况的准确性。
[0077]
针对此问题,本发明采用数据驱动的方法,提出了一种基于自监督学习与自适应记忆网络的高排放移动源检测方法。结合obd数据集中多元车辆运行属性信息(如车速、发动机转速等),避免了外界因素对监测环境的干扰,为获取真实排放状况数据提供了前提。同时,采用基于重构的方法划分高排放的和正常排放的序列的表征。解决同类的基于深度学习方法因行驶工况丰富多变、排放表征学习能力不足而造成的高排放源识别准确率低的问题。具体地,考虑到实际场景中标签标注困难,本发明中的自监督学习模块利用数据类型变换作为免人工标注的前置任务,辅助模型学习排放序列中的一般性表征。考虑到排放序
列具有丰富性,表征记忆模块通过一种记忆网络来学习和记忆排放序列中的关键性表征。本发明可为相关部门对道路行驶车辆的精确监控提供了一个新的参考方案。
附图说明
[0078]
图1是现况不同排放序列之间的比较;
[0079]
图2是本发明实施例的步骤s2构建时序工况数据集;
[0080]
图3是本发明实施例的网络模型结构图;
[0081]
图4是本发明实施例的编码器encoder的处理过程示意图;
[0082]
图5是本发明实施例的解码器decoder的处理过程示意图。
具体实施方式
[0083]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
[0084]
为了解决高排放源时序识别过程中浓度序列差异性问题,如图1所示反应正常排放集合之间差异性较大,正常排放与高排放集合之间相似性较大。而本发明实施例提出了一种基于自监督表征网络的异常时序序列检测方法,可对尾气排放浓度序列进行细粒度级别的分类,增加高排放序列的识别准确度。
[0085]
本发明包括以下步骤:
[0086]
s1:道路移动源obd数据集抽取和预处理。采集数辆机动车多日连续时间段内的车载诊断系统(on-board diagnostics,obd)实时监测数据,其中包含时间戳、后处理下游nox值(ppm)、发动机转速(rpm)、实际输出扭矩百分比、油门踏板开度(%)、发动机瞬时喷油量(l)、发动机瞬时燃油消耗率(l/100km)、经纬度等特征属性,并进行缺失值删除、高排放序列数据集标签划分和数据归一化等预处理操作;
[0087]
s2:时序行驶工况数据集构建。将污染物nox浓度和其他特征属性组成多维度的obd工况时序数据集,按照时间戳整理出连续时间段的排放序列;
[0088]
s3:高排放浓度序列识别模型构建。针对实际排放浓度序列具有丰富的表征问题,构建一种基于自监督表征网络的异常时序序列检测模型。
[0089]
以下分别具体说明:
[0090]
上述步骤s1:道路移动源obd数据集抽取和预处理,具体细分为如下步骤:
[0091]
s11:对于抽取得到的车辆obd数据集中存在的空值,删除其所对应的整行数据;
[0092]
s12:根据车辆实际排放状况将数个obd数据集人为划分为“正常排放”和“高排放”标签;
[0093]
s13:为克服数据量纲差异对数据分析带来的影响,需要对数据集使用归一化处理。可被表达为:
[0094][0095]
其中,xi表示真实值,表示xi的归一化值,x
max
和x
min
分别为当前属性中的最大值和最小值。
[0096]
上述步骤s2:时序行驶工况数据集构建,具体时序工况数据集如图2所示,具体细分为如下步骤:
[0097]
s21:考虑一个经步骤s1处理得到的车辆排放特征数据集其中的x(i)∈rm是一个包含m维特征的向量。该数据集根据时间戳被划分为时间步长为l的排放序列集合x={x1,x2,

,xn},其中,xi∈r
l
×m表示一个二维矩阵。
[0098]
s22:为便于理解,本发明以实际车辆obd数据集为例,其相邻排放信息的时间间隔为5秒,设定时间步长l为120,即单个排放序列的时间跨度为10分钟。并且,该数据集的特征维度m为23。所包含的特征被统计在下表:
[0099][0100][0101]
上述步骤s3:高排放浓度序列识别模型构建。模型结构如图3所示,该模型主要包含两个模块,分别为自监督学习模块和表征记忆模块;具体细分为如下步骤:
[0102]
s31:编码。根据车辆排放输入序列x的维度,经过编码器映射后得到编码向量z;
[0103]
s311:具体地,编码过程可被表示为:
[0104]
z=fe(x;θe)(36)
[0105]
其中,fe表示编码器encoder的映射函数,θe表示编码器内部所有的参数。
[0106]
s312:具体地,编码器encoder的处理过程如图4所示,其包含1层全0填充层、2层卷积层、2层relu激活层和2层池化层。
[0107]
s32:自监督学习模块。为有效降低正常与正常排放序列间丰富的差异性对模型识别的影响、提高模型泛化能力,本发明设计了一种基于自监督学习的模块,用于模型在训练阶段学习更丰富的数据表征;
[0108]
s321:具体地,我们提出以下六种信号变换来增加源数据集的表征数量,具体描述如下:
[0109]
以时序排放序列t=[t1,t2,...,tn]为例:
[0110]
(13)噪声:现实世界中可能存在有噪声的传感器信号,在信号中加入噪声可以帮助模型在噪声中学习更具有鲁棒的特征。在这里,加入了高斯噪声的变换;
[0111]
(14)反向:这种变换使样本沿着时间维度反向,从而得到时间方向相反的样本t
op

[0112]
t
op
=[tn,...,t2,t1](37)
[0113]
(15)置换:这种变换通过对不同的时间窗口进行切片和交换(假设切片长度为2),使信号沿时间维度随机扰动,增强所得模型的置换不变性质,生成新的样本t
pe

[0114]
t
pe
=[...,t1,t2,....,t
n-l
,t
n-l+1
,....](l《n)(38)
[0115]
(16)缩放:通过乘以一个随机标量来改变一个时间窗口内信号的大小。这里,我们选择s={0.5,0.8,1.5,2}作为标量值。缩放信号t
sc
的添加可以帮助模型学习缩放不变模式,可被表示为:
[0116]
t
sc
=[t1×
s,t2×
s,...,tn×
s],s∈s(39)
[0117]
(17)否定:这种转换是一种特殊类型的标量化转换。它按-1缩放,得到输入信号的镜像序列t
ne

[0118]
t
ne
=[-t1,-t2,...,-tn](40)
[0119]
(18)平滑:应用savitzky-golay方法对信号进行平滑处理;
[0120]
s322:为了从这些变换中学习一般的特征表示,本发明使用交叉熵损失函数(cross-entropy)来区分它们的变换类型:
[0121][0122]
式中,c为自监督学习类别数(包括原始信号和6种变换信号,即本发明实例中的c=7)。yi和pi分别是预测标签和预测概率。预测概率pi被应用softmax激活函数计算得到,其表达式如下:
[0123][0124]
其中,1≤i≤c,oi表示全连接层的最后一层输出的第i个值,exp表示自然常数e。
[0125]
s33:表征记忆模块。训练过程中为尽可能学习车辆排放序列的丰富表征、提高模型泛化能力,设计一种表征记忆模块,通过记录原型模式来增强模型区分正常和异常数据的能力,具体地:
[0126]
s331:给定一个经步骤s31得到的编码向量z∈rf,初始化一个表征记忆矩阵m∈r
t
×f,记忆权重向量w∈r
t
被计算为:
[0127]
w=s(z,m)(43)
[0128]
其中,s(
·
)表示相似性函数,其计算表达式为:
[0129][0130]
其中,exp表示自然常数e,mi表示表征记忆矩阵m的第i个行向量且
[0131]
s332:将s331得到的记忆权重向量w与表征记忆矩阵m进行计算,得到表征记忆向量其被表示为:
[0132][0133]
s333:为促进网络更新和收敛,需要计算记忆权重向量w的稀疏损失值l
spar
,计算方式为:
[0134][0135]
s34:解码。车辆排放输入序列x经过一系列重构后,需要进行解码器decoder进行解码得到原始维度空间下的输出序列x

。具体地分为以下步骤:
[0136]
s341:步骤s33得到的表征记忆向量与编码向量z直接进行拼接,拼接后记作为表征向量z
*
∈r
2f

[0137]
s342:表征向量z
*
经过解码器decoder解码得到车辆排放的输出序列x

,该过程可被表示为:
[0138]
x'=fd(z
*
;θd)(47)
[0139]
其中,fd表示解码器decoder的映射函数,θd表示网络需要学习的解码器结构所有的参数。
[0140]
s343:具体地,解码器decoder的处理过程如图5所示,其包含4层卷积层、3层relu激活层和1层sigmoid激活层。
[0141]
s344:为促进网络更新和收敛,需要计算车辆排放输入序列x和输出序列x

之间的重构损失值l
mse
,计算方式为:
[0142][0143]
其中,||
·
||2表示第二范数,l表示输入序列的原始维度,c表示序列转化类别数(包括原始信号和6种变换信号,即本发明实例中的c=7)。
[0144]
s35:模型的训练和预测。具体地:
[0145]
s351:模型的训练过程:通过将公式(48)中的重建损失l
mse
、公式(41)中的自我监督损失l
ce
和公式(46)中的稀疏损失l
spar
与权衡参数1、α1和α2进行集成,将得到高排放序列识别模型的整体训练目标:
[0146]
j(θ)=l
mse
+α1l
ce
+α2l
spar
(49)
[0147]
s352:模型的预测过程:本发明所提方法属于基于重构的方法范畴,即不同类别的排放序列或实例在经过模型重构后通常被认为是不同的。在训练过程中,仅使用包含正常排放实例的数据集,在预测阶段,当模型遇到异常实例时,重构误差会显著增大。所以,本发明根据重构误差阈值将预测阶段的排放实例划分“正常”和“异常”两类;
[0148]
s353:例如,给定一个全部为正常排放实例的训练集x={x1,x2,

,x
p
},经过模型的重构后,得到的重构误差集合为l
cons
={l(x1),l(x2),

,l(x
p
)}(其中,l(xi)表示实例xi的重构损失值l
mse
)。则用于判断测试集的重构误差阈值μ被定义为重构误差l
cons
的第98%分位数;
[0149]
s354:在得到阈值μ后,测试集上“正常”和“异常”两类类别标签的划分规则被表示为:
[0150][0151]
[0152]
其中,t
normal
表示测试集上正常排放序列集合,t
abnormal
表示高排放序列集合。对于正常排放序列ti,如被划分为“正常”,则分类正确,否则分类错误;对于高排放序列tj,如被划分为“异常”,则分类正确,否则分类错误。
[0153]
s36:模型分类性能评估。在步骤s35得到测试集上车辆浓度排放序列的分类结果后,使用以下指标衡量该模型的分类性能:准确率(acc)、精确率(p)、召回率(r)和f1值。具体地:
[0154]
s361:构建测试结果的混淆矩阵。以本实验数据为例,混淆矩阵如下:
[0155][0156]
其中,tp表示真正例,fp表示假正例,tn表示真负例,fn表示假负例。
[0157]
s362:指标计算:
[0158][0159][0160][0161][0162]
s363:实验结果统计:
[0163][0164]
结合步骤s363实验结果,本方法在正常排放序列集合和异常排放(高排放)序列集合的数据上的各测试指标均达到0.98以上,表明其充分地学习到不同排放类型数据的深度表征,从而实现高排放移动源的准确识别。
[0165]
又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0166]
再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。
[0167]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。
[0168]
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
[0169]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0170]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0171]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种基于自监督表征网络的异常时序序列检测方法,其特征在于,包括以下步骤,s1:抽取道路移动源obd数据集,并预处理;s2:构建时序行驶工况数据集;将污染物nox浓度和其他特征属性组成多维度的obd工况时序数据集,按照时间戳整理出连续时间段的排放序列;s3:构建高排放浓度序列识别模型,具体为构建一种基于自监督表征网络的异常时序序列检测模型。2.根据权利要求1所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:步骤s1中具体包括采集数辆机动车多日连续时间段内的车载诊断系统实时监测数据,其中包含时间戳、后处理下游nox值、发动机转速、实际输出扭矩百分比、油门踏板开度、发动机瞬时喷油量、发动机瞬时燃油消耗率、经纬度这些特征属性;上述步骤s1中预处理具体细分为如下步骤:s11:对于抽取得到的车辆obd数据集中存在的空值,删除其所对应的整行数据;s12:根据车辆实际排放状况将数个obd数据集人为划分为“正常排放”和“高排放”标签;s13:对数据集使用归一化处理,表达为:其中,x
i
表示真实值,表示x
i
的归一化值,x
max
和x
min
分别为当前属性中的最大值和最小值。3.根据权利要求2所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:所述上述步骤s2具体细分为如下步骤:s21:考虑一个经步骤s1处理得到的车辆排放特征数据集其中的x
(i)
∈r
m
是一个包含m维特征的向量,该数据集根据时间戳被划分为时间步长为l的排放序列集合x={x1,x2,

,x
n
},其中,x
i
∈r
l
×
m
表示一个二维矩阵。4.根据权利要求3所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:上述步骤s3具体细分为如下步骤:s31:编码;根据车辆排放输入序列x的维度,经过编码器映射后得到编码向量z;s32:自监督学习模块;s33:表征记忆模块,通过记录原型模式来增强模型区分正常和异常数据的能力;s34:解码;车辆排放输入序列x经过一系列重构后,需要进行解码器decoder进行解码得到原始维度空间下的输出序列x

;s35:模型的训练和预测;s36:模型分类性能评估。5.根据权利要求4所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:步骤s311的编码过程被表示为:z=f
e
(x;θ
e
)(2)其中,f
e
表示编码器encoder的映射函数,θ
e
表示编码器内部所有的参数。6.根据权利要求5所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:
步骤s32具体包括:s321:以下六种信号变换来增加源数据集的表征数量,具体描述如下:以时序排放序列t=[t1,t2,...,t
n
]为例:(1)噪声;加入了高斯噪声的变换;(2)反向;这种变换使样本沿着时间维度反向,从而得到时间方向相反的样本t
op
:t
op
=[t
n
,...,t2,t1](3)(3)置换:这种变换通过对不同的时间窗口进行切片和交换,假设切片长度为2,使信号沿时间维度随机扰动,增强所得模型的置换不变性质,生成新的样本t
pe
:t
pe
=[...,t1,t2,....,t
n-l
,t
n-l+1
,....](l<n)(4)(4)缩放:通过乘以一个随机标量来改变一个时间窗口内信号的大小;缩放信号t
sc
的添加可以帮助模型学习缩放不变模式,被表示为:t
sc
=[t1×
s,t2×
s,...,t
n
×
s],s∈s(5)(5)否定:按-1缩放,得到输入信号的镜像序列t
ne
:t
ne
=[-t1,-t2,...,-t
n
](6)(6)平滑:应用savitzky-golay方法对信号进行平滑处理;s322:使用交叉熵损失函数来区分它们的变换类型:式中,c为自监督学习类别数,包括原始信号和6种变换信号;y
i
和p
i
分别是预测标签和预测概率;预测概率p
i
被应用softmax激活函数计算得到,其表达式如下:其中,1≤i≤c,o
i
表示全连接层的最后一层输出的第i个值,exp表示自然常数e。7.根据权利要求5所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:步骤s33具体包括:s331:给定一个经步骤s31得到的编码向量z∈r
f
,初始化一个表征记忆矩阵m∈r
t
×
f
,记忆权重向量w∈r
t
被计算为:w=s(z,m)(9)其中,s(
·
)表示相似性函数,其计算表达式为:其中,exp表示自然常数e,m
i
表示表征记忆矩阵m的第i个行向量且s332:将s331得到的记忆权重向量w与表征记忆矩阵m进行计算,得到表征记忆向量其被表示为:s333:为促进网络更新和收敛,需要计算记忆权重向量w的稀疏损失值l
spar
,计算方式为:
8.根据权利要求7所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:步骤s34具体包括:s341:步骤s33得到的表征记忆向量与编码向量z直接进行拼接,拼接后记作为表征向量z
*
∈r
2f
;s342:表征向量z
*
经过解码器decoder解码得到车辆排放的输出序列x

,该过程被表示为:x'=f
d
(z
*
;θ
d
)(13)其中,f
d
表示解码器decoder的映射函数,θ
d
表示网络需要学习的解码器结构所有的参数;计算车辆排放输入序列x和输出序列x

之间的重构损失值l
mse
,计算方式为:其中,||
·
||2表示第二范数,l表示输入序列的原始维度,c表示序列转化类别数。9.根据权利要求8所述的基于自监督表征网络的异常时序序列检测方法,其特征在于:步骤s35具体包括:s351:模型的训练过程:通过将公式(14)中的重建损失l
mse
、公式(7)中的自我监督损失l
ce
和公式(12)中的稀疏损失l
spar
与权衡参数1、α1和α2进行集成,将得到高排放序列识别模型的整体训练目标:j(θ)=l
mse
+α1l
ce
+α2l
spar
(15)s352:模型的预测过程,根据重构误差阈值将预测阶段的排放实例划分“正常”和“异常”两类;s353:给定一个全部为正常排放实例的训练集x={x1,x2,

,x
p
},经过模型的重构后,得到的重构误差集合为l
cons
={l(x1),l(x2),

,l(x
p
)},其中,l(x
i
)表示实例x
i
的重构损失值l
mse
;则用于判断测试集的重构误差阈值μ被定义为重构误差l
cons
的第98%分位数;s354:在得到阈值μ后,测试集上“正常”和“异常”两类类别标签的划分规则被表示为:两类类别标签的划分规则被表示为:其中,t
normal
表示测试集上正常排放序列集合,t
abnormal
表示高排放序列集合;对于正常排放序列t
i
,如被划分为“正常”,则分类正确,否则分类错误;对于高排放序列t
j
,如被划分为“异常”,则分类正确,否则分类错误。10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

技术总结


本发明的一种基于自监督表征网络的异常时序序列检测方法及存储介质,包括以下步骤,S1:抽取道路移动源OBD数据集,并预处理;S2:构建时序行驶工况数据集;将污染物NOx浓度和其他特征属性组成多维度的OBD工况时序数据集,按照时间戳整理出连续时间段的排放序列;S3:构建高排放浓度序列识别模型,具体为构建一种基于自监督表征网络的异常时序序列检测模型。本发明结合OBD数据集中多元车辆运行属性信息,避免了外界因素对监测环境的干扰,为获取真实排放状况数据提供了前提。同时,采用基于重构的方法划分高排放的和正常排放的序列的表征。解决同类的基于深度学习方法因行驶工况丰富多变、排放表征学习能力不足而造成的高排放源识别准确率低的问题。放源识别准确率低的问题。放源识别准确率低的问题。


技术研发人员:

许镇义 王仁军 康宇 曹洋

受保护的技术使用者:

合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)

技术研发日:

2022.09.01

技术公布日:

2022/12/5

本文发布于:2022-12-09 18:35:44,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/30443.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   表征   时序   向量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图