石庄彬;陆文学;张宁
【摘 要】为改善城市轨道交通运营管理水平,提升轨道交通带来的企业经济效益和社会效益,主要探讨将数据挖掘技术应用于轨道交通领域的潜力及其价值.首先,分析目前AFC系统对于数据利用的不足;其次,总结数据挖掘的任务类型、处理过程以及数据挖掘过程中常用的方法,阐述数据挖掘的基本原理;最终,从运营管理的统计和预测两方面需求的角度,深入探讨数据挖掘技术在轨道交通客流、票务、收益、设备等管理内容中的应用前景,并通过实例论证实际运用过程中的可行性. 【期刊名称】《都市快轨交通》
【年(卷),期】2015(028)001
【总页数】5页(P23-27)
【关键词】轨道交通;数据挖掘;运营管理;统计;预测;客流;票卡
【作 者】石庄彬;陆文学;张宁
【作者单位】东南大学ITS研究中心 南京 210018;苏州轨道交通集团公司 苏州 215006;东南大学ITS研究中心 南京 210018
【正文语种】中 文
【中图分类】U29-39;U293.22
在这个信息爆炸的时代,数据挖掘在许多行业中正逐渐上升为一个研究热点。数据挖掘技术,是针对当今数据丰富而知识贫乏这一现象,在数据库管理系统基础上发展起来的一门新技术。通过不断地与统计学、机器学习、模式识别、数据库技术、计算机技术等学科交叉融合,大大推动了数据挖掘技术的发展和繁荣,使得数据挖掘用于大数据的事务管理、信息提取和数据分析。这里的大数据不仅指数据储存空间巨大,还涉及数据的多样性、复杂性等特征[1-2]。
区域能源管理热流道系统随着轨道交通客运量迅速增加,轨道交通网络日趋形成,对轨道交通运营管理的智能化、自动化、信息全面化的要求越来越高,而传统的数据库管理系统面对海量数据时处理效率低
下,难以完成城市轨道交通运营管理对于知识信息日益增长的业务需求[3]。目前,国内各大城市轨道交通对于自动售检票系统(automatic fare collection system,AFC)数据的处理比较粗糙,大多局限于对原始数据的简单统计,深层次分析不足,我国城市轨道发展阶段还处于初始期,对于轨道交通运行机制和管理方案了解还不太成熟;同时,AFC系统开发商主要注重于系统的集成,缺乏对用户需求的深入理解,各地对于轨道交通的管理需求也不一样,最终导致运营管理者通过现有清分中心(AFC clearing center,ACC)数据处理结果,只能对整个轨道交通系统的运行状态有个粗略的认识,难以达到对细节的监视,无法对线网的运行状况进行实时估计和分析,不能满足轨道交通网络化运营和提高轨道交通系统服务质量的要求。
老化台
因此,针对城市轨道交通网络化运营的特点,结合数据挖掘技术和计算机处理技术,深度挖掘城市轨道自动售检票系统数据中的潜在有用的信息,将成为轨道交通运营管理未来的发展和研究方向。它可以帮助运营管理人员从单调繁复的劳动中解脱出来,高速、有效、全面地处理大量的数据,发现轨道交通运行潜在的本质和规律,帮助企业全面细致地监视轨道交通系统的运行状态,实现智能化和自动化的辅助决策,为运营企业带来巨大的信息价值和社会、经济效益,为城市未来的轨道交通发展规划、建设和运营提供有利的指导。
数据挖掘的任务是从大量的数据中发现用户需要的知识,主要包括广义知识、关联知识、分类知识、预测型知识、偏差型知识。从高层次来说,数据挖掘任务的目标一般可以分为两类:描述和预测。前者指刻画数据的一般特性;后者基于当前数据进行推算,实现对将来的情况推演[4]。数据挖掘的功能主要有概念描述、关联分析、聚类分析、分类分析、孤立点分析、演变分析。
1.1 数据挖掘的过程
数据挖掘通常被当作是知识发现的一个同义词,而随着研究者对知识发现认识的加深,逐渐形成数据挖掘的一种狭义概念,即认为数据挖掘是知识发现流程中负责寻知识的核心环节。知识发现流程是一个交互式、循环反复的整体过程,除了数据挖掘还包括很多处理阶段,知识发现流程一般包括3个主要阶段:数据准备、数据挖掘、结果的解释和评价。其中数据预处理又细分为数据清洗、数据推测、数据转换、数据精简等步骤[5]。
1.2 数据挖掘的方法
数据挖掘的核心是数据挖掘过程中使用的技术和方法,主要来自于机器学习、人工智能、
在线aoi统计学等相关学科和技术领域,数据挖掘从一个新的角度将这些领域与数据库技术相结合,可以发现繁杂的数据中隐藏的有用信息。一般来说,数据挖掘技术采用的方法大致有以下几类[6-7]:统计方法、基于信息论的决策树方法、基于集论的方法(模糊集和粗糙集)、基于仿生学的方法(神经网络方法和遗传算法)。除了这几类主要的方法外,还有一些其他的方法也常常被应用于数据挖掘过程。例如:支持向量机、范例推理、公式发现、可视化等。
城市轨道交通AFC系统所涉及的数据主要包括票卡交易类数据、票卡信息数据、收益类数据、设备状态数据、审计类数据等[8]。AFC数据信息是支撑轨道交通企业运营管理的重要基础,同时也是企业最宝贵的财富。轨道交通企业需要从这些繁杂的数据中获取信息和知识,以满足轨道交通的运营、票务、收益、维修等管理要求,其中获取信息和知识的过程正是基于数据挖掘技术。
根据数据挖掘技术的知识类型和任务目标,将数据挖掘技术应用于AFC系统,主要可实现两大功能:数据统计和信息预测分析。二者在运营管理中的应用范围方面有所差异,数据统计可以反映城市轨道交通本质的规律,能够指导企业制订科学的管理方针,如收费策略
、运行图编制、客运组织方案、线路规划、车站布局设计等;信息预测分析是通过合适的方法和指标,使管理者能实时地了解轨道交通运行状态信息并进行评估和预测,为指挥决策提供合理的依据。
2.1 数据统计
AFC系统收集的原始数据不仅规模庞大且格式种类具有复杂多样性,一般的原始数据对用户而言是难以理解的,用户也很难直接从原始数据中读取有用信息。事实上,绝大部分数据都是不重要的,有些信息只具有临时的价值,数据统计就是提取出对轨道交通企业有用的那部分信息。数据统计可以实现对轨道交通全线网的客流、票务、收益、设备等,数据的收集、存储、统计、分析、数据服务,通过数据图表、综合报告、乘客出行行为模拟等多种途径,将管理者所关心的知识以高度概括且易于理解的形式展现出来,AFC系统中的数据统计一般包括以下几方面内容。
2.1.1 客运量统计
通过对乘客进/出站闸机的交易记录数据进行统计分析,能够反映轨道交通客流的特征和规
空调消声器律,帮助实现轨道交通的行车组织优化、客运组织优化、票务组织优化、设施布局优化等,科学指导轨道交通交通规划和运营管理。轨道交通专用通信网络能支持大容量数据的快速传输,在这个条件下轨道交通AFC数据中心能够实时地统计客流流量,识别当前的客流模式(如异常客流、高峰客流),以此作为判断依据,实施应急预案,降低对轨道交通系统平稳运行的冲击。根据分析的角度不同,一般将城市轨道交通客流流量分为站点客流、断面客流、站间OD(origin-destination)客流3类。
漆雾净化装置站点客流常用的统计量有进站量、出站量、换乘量、客运量等。可以从时间维度(分、时,日,周、月、年等)和空间维度(车站、线路、线网)两个层面来统计分析客流的流量、流向等特征。例如,从时间维度统计交易数据,可以分析全日进站客流的分布规律,典型日客流分布类型可归纳为单向峰型、双向峰型、全峰型、突峰型、无峰型等5类[9]。图1为某市两个车站进站客流的日分布图,其中图1(a)显示该车站周边用地功能比较单一,客流具有明显的潮汐现象;图1(b)显示该车站位于综合功能用地区域,呈现成对的早晚高峰。进站客流日分布的统计结果是客运组织人员安排调派的实施基础,也可以作为模版对新规划线路沿线的客流模式进行匹配估计。
断面客流指线路上任意区间中某断面位置在统计时段内通过的乘客数量,在数量上等于在该统计时段内通过的所有列车的载客量之和。断面客流能够准确地反映在某个时间段内线路对开行列车数量的实际需求。站间OD客流指在某一时间片段内,以乘客进站的站点作为起点,以乘客出站的站点作为终点,起终点间的乘客交通出行量分布。站间OD分布与沿线区段空间分布结果可以很好地反映出轨道沿线各站点及各区段人口出行的特性。在轨道交通线网比较简单时,断面客流和站间OD客流的统计计算比较容易,但当线路形成网络化后,往往会存在二义性路径,此时单纯依靠统计已不能得到预期的结果,还需要先进行线网换乘客流的路径选择分析,关于这一点将在后面进行说明。
2.1.2 乘客特征统计
乘客信息包括乘客持票种类(学生票、优惠票等)、换乘次数、乘距、乘车站数、乘车时间、换乘方式(站点)等内容。这些信息可以全面反映网络客流的个人属性以及出行路径、出行距离、旅行时间、换乘效率等乘客出行特征,是运输企业优化运输组织方案、优化清分模型、优化线网结构、提升运输效率和服务水平的关键因素。相比于客运量统计,乘客特征统计是从微观上挖掘轨道交通客流的潜在规律,分析乘客行为的原理,可以帮助提升轨道交通的服务质量,满足当下社会愈来愈高的人性化要求。