论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 论文大全网 >> 工科论文 >> 交通运输论文 >> 正文 会员中心
 通信学论文   交通运输论文   工业设计论文   环境工程论文   电力电气论文   水利工程论文   材料工程论文   建筑工程论文   化学工程论文
 机械工程论文   电子信息工程论文   建筑期刊   工科综合论文   汽车制造
聚类分析在城市轨道交通车站分类中的应用

摘要:聚类分析作为数据挖掘的一项功能,已被应用到许多领域,像模式识别、数据分析、图像处理和市场分析等,并且已经取得很好的效果。然而其应用在交通领域车站研究上的确很少。对聚类分析在城市轨道交通车站分类中的应用进行研究,展示数据挖掘在交通领域的应用,重点介绍层次聚类法的应用,并对相关算法进行比较,最后对该应用提出展望。

关键词:聚类分析;数据挖掘;轨道交通;车站分类
 
      聚类分析是数据挖掘中一个很活跃的研究领域,用来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类,以便作进一步分析。数据挖掘的根本在于统计学,统计方法中多元数据分析的3大方法之一的聚类分析,则是数据挖掘采用的核心技术。聚类分析基于“物以类聚”的朴素思想,根据事物的特征对其进行聚类或分类。本文对数据挖掘领域的聚类分析在城市轨道交通车站分类中的应用进行研究,展示数据挖掘在城市交通领域的应用。
1聚类分析概述
1.1聚类定义及标准
      聚类就是将数据分组成多个类或簇,同一个簇中的对象之间具有较高的相似度。与分类不同的是,在进行聚类分析前不知道要把数据分成几组,也不知道怎么分,是基于“没有先验知识”。
      评判聚类算法好坏的标准:能够适用于大数据量;能应付不同的数据类型;能够发现不同类型的聚类;使对专业知识的要求降到最低;能应付脏数据;对于数据不同的顺序不敏感;模型可解释,可使用等。
1.2数据挖掘领域中聚类算法的分类
      聚类算法大体可以划分为以下几类[1]:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
1.2.1划分方法
      给定一个包含n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且c≤n。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,而在不同簇中的对象是“相异的”。
1.2.2层次方法
      层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。
1.2.3基于密度的方法
      为了发现任意形状的聚类结果,主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。
1.2.4基于网格的方法
      采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。
1.2.5基于模型的方法
      为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法通过构建反映数据点空间分布的密度函数来定位聚类。
1.3聚类分析的步骤
      在实际应用聚类分析中,可以根据有无领域知识参与将整个过程分解为3个环节[2],图1是整个过程的流程图。

2聚类分析在交通领域的应用
      聚类分析的方法在交通领域得到了较为广泛的应用。聚类分析在交通领域的主要应用有:对城市交通流量和流向的两步聚类分析,应用于城市交通走廊规划;对城市交叉口的相关关系进行聚类分析,其研究成果可用于交通管理和交通流预测;高速公路规划方案的设计与评价过程中,广泛地应用了聚类分析方法;应用模糊聚类分析方法对鞍山市城市交通环境进行了分析评价;在公路网建设项目投资决策研究中应用聚类分析计算项目的紧迫度;建立了一种运输车辆调度聚类分析模型,适用于运输企业的计划作业;在道路交通事故多发点鉴定方法上采用聚类分析方法[3]。
3城市轨道交通车站聚类分析研究
3.1城市轨道交通车站分类问题的提出
      城市轨道交通在国外已有100多年的发展历史,世界主要大城市大多有比较成熟与完整的轨道交通系统。城市轨道交通在城市交通体系中发挥着越来越重要的作用。根据《北京城市总体规划(2004年—2020年)》及其相关交通发展规划,明确提出城市客运交通是要构建起以轨道交通为骨干,公共交通为主体,其它各种交通方式为补充的综合交通体系。今后逐步编制步行交通规划和自行车交通规划,并纳入城市综合交通规划。
      轨道交通发挥作用是通过乘客“到达车站”来实现的,因此,对于轨道交通车站及周边交通方式的设置有着重要意义,车站分类问题研究也是首先要解决的问题。然而,现有城市轨道交通车站分类没有统一的方法,大都依靠经验,采用人为的划分方式。这样,不但效率不高,而且精确度不高,不能很好地反映客观情况。采用数据挖掘领域的聚类分析方法可以很好地解决这个问题。
      为了研究北京市城市轨道交通车站的分类,相关部门进行了交通调查,得到了各个车站的各种接驳交通方式的构成比例,本次研究都以此调查数据为基础。
3.2分析流程
      对城市轨道交通车站分类问题进行聚类分析,采用以下3个步骤来进行:(1)选取不同的交通出行方式作为聚类因子;(2)运用层次聚类法进行聚类分析,得到定量分析的结果;(3)以定性的方法对聚类结果做进一步地分析,形成的结论可以指导综合交通的规划与管理。
3.3聚类因子的确定
      聚类因子确定时要注意的问题:(1)聚类因子的选择要符合聚类分析的要求;(2)各类的变量值不应具有数量级上的差别,解决这个问题的方法应用最多的是标准化方法;(3)各个变量间不应具有较强的线性相关关系。
      根据聚类因子选择的原则,选择应有较强的代表性,能较好地反映轨道交通车站的功能特点。
      根据交通调查的数据,以及处理数据的可行性,在本研究中,聚类因子选择步行方式的构成比例、自行车的构成比例、公交车的构成比例、出租车的构成比例和其它方式构成比例5种聚类因子。
      交通方式构成比例计算式:pi=ti /s (1)
      式(1)中,pi代表一定车站某种出行方式的比例,ti代表一定车站某种出行方式人数,s代表一定车站所有出行方式的总人数。表1是部分车站聚类因子的计算结果。

3.4聚类分析
3.4.1聚类分析的算法选择
      聚类分析的5大类算法中,基于密度的方法将簇视为数据空间中被低密度区域分割开的高密度对象区域,适合用来过滤掉噪声和发现任意形状的簇;基于网格的方法,基于网格的聚类方法适合处理高维数据集;基于模型的算法通过构建反映数据点空间分布的密度函数来定位聚类。此次分析中,采用的原始数据是调查的轨道交通车站采用不同方式出行的人数,目标是要通过轨道交通车站的分类以帮助实际的轨道交通车站的规划、建设、运营和管理。

      因此采用应用广泛的层次聚类法和k-means算法,对两种算法分析出来的结果进行比较。许多软件,比如sas和spss 等都包含相应模块[4]。k-means算法是一种快速聚类分析方法,执行效率较高,适用的样本数据量比较大,根据经验,样本数据量一般不低于100个,而本次研究设计的样本数据量不大,并且处理时间绝对不是处理这类问题首要考虑的问题,因此,可以考虑先选用层次聚类法。它提供了聚类分析功能,可以对多种数据类型进行样本或变量的聚类分析。
      层次聚类有两种类型,分别是q型聚类和r型聚类。q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。r型聚类是对变量进行聚类,它适用具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与分析,实现减少变量个数,达到变量降维目的。本研究是对各个车站进行聚类,采用的是样本聚集,因此使用的是q型聚类。
      层次聚类的聚类方式又分为凝聚方式和分解方式。它们分别根据层次分解是自底向上还是自顶向下形成的。这两种方式没有本质上的区别,spss中的层次聚类采用的是凝聚方式。
3.4.2凝聚方式聚类计算步骤
      (1)每个车站个体自成一类,按照某种方法度量所有个体间的亲疏程度,将其中最“亲密”的车站个体聚成一小类,形成n-1个类。
      个体间亲密程度的度量有很多计算方法,由于本例是定距变量类型,采用欧式距离计算方法来计算个体间亲密程度的度量,其计算公式如下:

      (2)再次度量剩余个体和小类间的亲密程度,并将当前最亲密的个体或小类再聚成一类,这里就采用组间平均链锁距离方法来计算。组间平均链锁距离是该个体与小类中每个个体距离的平均值。
      (3)重复(2)的过程,不断将所有个体和小类聚集成越来越大的类,直到所有个体聚集到一起,形成一个大类为止。
3.4.3聚类结果及分析
      通过spss软件,得出结果。图2是所得结果的聚类谱系图。

      从样本聚类分析的结果,可以看出,北京的轨道交通车站可以明显地分为两大类,第1类车站大部分乘客乘坐公交车来进行接驳服务;第2类车站的大部分乘客通过步行来进行接驳服务。
      同时,通过对应分析,也发现,第1类车站处与轨道线路垂直的道路系统较好,公交车多,公交服务较好;第2类车站处多为商业繁华地段,或者所处地区靠近居住小区,客观上使步行的乘客较多。
      根据聚类分析的结论,也提醒相关的规划与管理部门,在建设与运营管理的时候,理清各个车站的特征与功能,并提供相应的基础设施保障,为乘客提供更好的服务,方便居民的出行,充分发挥轨道交通的功能,提高城市公共交通方式的分担率。

3.4.4 k-means与层次聚类算法的比较
      采用k-means算法,设定聚簇为3类,表2展现了聚类的结果。由于k-means算法,是要事先设定分为几类,因此,得出的结果都是每一个车站属于第几类,这样就没有层次聚类分层的效果好。本例中,采用层次聚类法可清楚看出它分为两个大类,而如果采用k-means算法,设定分为3类,就看不到预期的效果了。由此可见,选择合适的算法,对聚类分析是非常重要的。
4结束语
      本文在轨道交通车站的分类研究方面作了一番探讨,应用了数据挖掘的聚类分析技术,并借助了分析软件来实现。目前对现有轨道交通车站分类的方法主要是根据经验等来进行的,如按规模分类等。应用聚类方法来进行分析,可大大提高效率。本文以北京轨道交通车站为例,数据量不大,这里只是提供一个展示的窗口,然而对于交通信息中一些海量的数据,应用数据挖掘来解决问题将是一种效率好,精确度高的途径,有利于决策者的决策。
      为了更好地给轨道交通车站分类,加强聚类分析因子的研究是基础性工作,并最终影响车站的分类结果,进而影响运营管理部门的决策与管理,因此,对于实际的应用来说,还应加强聚类因子分析与研究工作。从充分挖掘轨道交通的作用,提高运营、组织和管理水平的角度来讲,分析的因子更主要是车站的相关硬件设施因素,比如车站处与轨道线路垂直的道路系统、轨道车站处普通公交车站的设置与其运营的线路布设及走向、相关的自行车停车设施、小汽车停车场,还有周围相关的用地特征,比如商业、居住等。据此分析,聚类分析可以得出更有价值的信息,更有利于车站的运营和管理。
 
参考文献:
[1]范明. 数据挖掘概念与技术[m].孟小峰.北京:机械工业出版社,2001.
[2]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[d].北京:中国科学院,2000.
[3]杨新苗.城市公交发展技术保障体系关键技术研究 [d].南京:东南大学,2000.
[4]薛薇.spss统计分析方法及应用[m].北京:电子工业出版社,2004.

  • 上一篇工学论文:
  • 下一篇工学论文:
  •  更新时间:
    环形交叉口通行能力分析及改善策略
    机场大体积混凝土道面板水化热分析及施工控…
    关于30万机电设备调试问题分析研究
    溶剂油加氢装置磁性液位计浮子损坏分析及改…
    基于流媒体的多媒体网络教育平台分析设计
    浅谈碳刷磨损原因分析及处理建议
    校园二手商品交易系统的分析与设计
    对公司中频炉的谐波测试分析与治理
    政治教学的价值分析与价值设计
    城市燃气管网安全运行问题的分析和对策
    分析幼儿园利用网络环境进行电化教学的利与…
    铁路货车轮轴检修中常见故障的分析与探讨
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    版权所有 www.11665.com © 论文大全网 All rights reserved