任普;丁幼亮;李亚东;刘刚;蔡曙日
【摘 要】提出一种基于大数据的桥梁健康监测系统平台,在全面考虑影响桥梁服役性能的各个因素下对桥梁安全状态进行评估和实时预警.该系统平台利用容错率高的分布式文件系统以及计算效率高的平行数据处理引擎,具有高可靠性、可用性和存储效率,且易于扩展.进而采用多因素分析方法充分挖掘桥梁各个传感器实时数据之间隐含的关联性,通过分析数据相关性准确建立桥梁服役性能评估模型,并对桥梁安全状况进行实时预警.此外,该系统平台为测试模型的有效性,分别采用多种模型验证方法进行评估,确保大数据分析方法的可靠性. 【期刊名称】《科学技术与工程》
【年(卷),期】2019(019)012
【总页数】5页(P266-270)
焙烧回转窑
【关键词】桥梁健康监测;大数据;分布式文件系统;多因素分析
【作 者】抗裂网片任普;丁幼亮;李亚东;刘刚;蔡曙日
【作者单位】东南大学混凝土及预应力混凝土结构教育部重点实验室 ,南京210096;东南大学混凝土及预应力混凝土结构教育部重点实验室 ,南京210096;江苏建筑机电抗震研究院,南京211200;东南大学混凝土及预应力混凝土结构教育部重点实验室 ,南京210096;交通运输部公路科学研究院,北京100088;交通运输部公路科学研究院,北京100088
【正文语种】中 文
【中图分类】分火头TU311.41
随着互联网、物联网以及传感器技术的快速发展,当下社会的数据增长速度迅猛,数据规模呈现井喷式增长,数据种类日渐丰富,数据结构愈加复杂,大数据时代已经来临。在工程应用方面,大数据分析已有较多实践应用[1]。在交通工程领域,目前关于大数据的研究日渐增多,卢倩[2]研究了基于Hadoop技术的隧道交通大数据分析系统,包括系统数据采集、预处理的过程,以及使用Map-Reduce技术以快速提取有效信息,从而及时对隧道交通拥堵进行预测。在电力工程领域,张华赢等[3]对目前电网中暂态电能质量监测的大数据
处理架构进行研究,并提出了一种基于分布式朴素贝叶斯分类方法的暂态电能质量评估方法。
然而在桥梁工程领域,涉及大数据分析的研究工作刚开始起步。例如,韩大建等[4]利用神经网络方法,以广东省千余座桥梁的养护数据为评估样本进行神经网络学习,建立桥梁结构形式、材质及各类构件评分与桥梁“总分”和“等级”的关系。该方法对于一些规范方法并不能涵盖的复杂桥梁具有一定的借鉴作用,但是并没有充分考虑桥梁年代、同类型桥梁与其病害的内在关联,数据利用不够充分。Wu等[5]将美国国家桥梁数据库(National Bridge Inventory database)中包含26年、6万多座桥梁的数据与GIS(geographic information system)数据结合分析,将桥梁状态作为被预测量,将桥梁的桥龄、材质、结构类型和所处环境等因素作为影响因素,进行回归分析,分别得到了桥梁上部结构、下部结构和桥面系的退化预测模型。
其中,在桥梁健康监测领域,由于桥梁监测数据的海量特征,桥梁健康监测技术与大数据本应有很好的融合,但是目前大数据应用于健康监测的实例也很少。黎善武[6]研究了大跨度桥梁抖振响应原型监测的大数据分析技术,针对桥梁的抖振响应机理进行数据挖掘,但
仅停留在数据挖掘层面,未实质性地建立大数据平台。桥梁健康监测的初衷在于利用传感器的监测数据对桥梁结构进行状态评估与安全预警,但是由于目前桥梁数据库为集中式存储,数据规模增大到一定程度时存储性能成为瓶颈,系统可靠性及安全性便成为问题,而大数据凭借其自身优势可以有效解决上述问题。
因此,本文构建了基于大数据的桥梁健康监测系统平台,研究了适用于桥梁监测数据的分布式文件系统和平行数据处理引擎,采用大数据分析方法充分挖掘多因素作用下桥梁监测数据之间隐含的关联性,从而准确建立桥梁服役性能评估模型,并对桥梁安全状况进行实时预警。
1 大数据分析方法
基于大数据的桥梁健康监测系统平台具有以下两点优势:①桥梁健康监测系统存储的数据规模往往达到TB(Terabyte)级别,并且传感器采集数据的频率较高,各个属性(如加速度、动应变等)每天的数据量较大;②桥梁健康监测数据之间存在着较强的关联性,可以充分利用大数据平台进行数据挖掘。r22压焓图
大数据分析方法主要是在桥梁结构寿命各阶段建立多参数、多源数据的一致性获取、融合和存储技术[7],形成桥梁服役性能的大数据评价模型和方法,分为3个部分:①大数据平台数据的输入,主要包括数值型数据、文本数据、图纸数据、图像数据等,针对不同类型数据研究合适的算法,提高各阶段数据提取、清洗、融合及加载效率;②大数据管理平台的目标包括三个方面,包括实现桥梁监测数据的存储功能、实现桥梁监测数据的查询功能、实现桥梁服役性能评估以及实时预警功能[8],这些功能保证桥梁大数据分析方法能在秒级响应时间内对近TB数据量进行读写且预警率达到90%以上;③为完成上述功能目标而采用的一系列先进技术方法。首先,通过桥梁环境荷载数据、灾害数据、设计、施工、监控及运营养护等多源时变数据的动态捕捉提取,提出桥梁异构数据的过滤、压缩、融合、存储方法;其次,根据不同数据类型下的大数据平台应用特点,同时在Linux环境下搭建Hadoop集,构件桥梁大数据系统平台;最后,提出桥梁监测数据多因素分析下的相关性模型,形成大数据分析技术下的桥梁服役性能的评估模型及预警方法。
2 健康监测大数据存储
2.1 传感器数据的处理
桥梁大数据平台存储的数据主要为安装在桥梁结构上的传感器所接受的各种监测数据,均为数值型数据。每种属性数据收集频率固定,每日收集的数据量也相对固定(传感器失效的除外)。在将传感器数据存储入大数据系统前,需要先进行两步预处理。第一,由于传感器原始数据的形式可能不完整、有噪声,为得到准确的数据分析结果,需对原始数据进行处理,包括光滑噪声、填充缺失值、识别离点及纠正数据不一致;第二,由于各种数据频率不一致,在进行各种影响因素相关性分析的时候会出现数据长度不一致的情况,故需要先分工况对各种数据进行数据量一致化,即提取时需要将所有属性的数据划分为同一时刻的数据。
2.2 存储系统选择
眼模
2.2.1 分布式关系型数据库
可以通过开源的中间件实现分布式关系型数据库集的搭建,首先在每个节点安装MySQL或者Oracle数据库,其次在代理服务器上使用Mycat中间件连接所有的数据节点,对分布式关系型数据库集实现管理。
2.2.2 HDFS
HDFS(Hadoop distributed file system)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。它所具有的高可靠性、高容错、高获得性、高可扩展性、高吞吐率等特征,为大规模数据量存储和计算提供安全性和实用性[9]。HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。
2.2.3 HBase
HBase构建于HDFS之上,是面向列的分布式存储系统,能够对超大规模数据集进行随机访问及实时读写。HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS(Google file system)作为其文件存储系统类似,HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigtable中的海量数据,HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable 利用Chubby作为协同服务,HBase 利用Zookeeper作为对应。
选取桥梁健康监测大数据平台的存储系统时,需要综合考虑存入数据的特点以及各种存储系统的优缺点。传感器数据的特点为:①大部分为数值型数据;②数据量较大;③数据格
式相对规则,比如数据收集的量相对稳定;④多个属性数据之间没有复杂的联系需要考虑,相对独立地查询。因此,最终选择HBase作为主要的底层存储系统。
硅胶海绵条2.3 存储系统设计
集主机共六台,一台主节点(Master),五台数据节点(Node 1、Node 2、Node 3、Node 4、Node 5),使用两台交换机在同一个局域网内相互连接。存储系统环境搭建,其中主要部分为HBase的表格设计,具体有三类表格:属性数据表格、异常情况表格以及时间信息表格。表格设计包括主键、列族和相关列设计三个部分,可以满足用户的存储和查询要求。首先,表格的形式设计是将每种属性数据对应存储到一个表格中,并用对应的属性名称命名表格。其次,HBase的主键利用数据对应的时间信息设计,这样就保证数据的唯一性。具体表格形式如表1所示(所有属性类似),此外还可对其他属性这一列建立辅助键索引,用于多条件查询。异常数据存储的表格设计如表2所示。