收藏 分销(赏)

公共交通乘客的活动模式和规律性研究.pdf

上传人:自信****多点 文档编号:635567 上传时间:2024-01-20 格式:PDF 页数:11 大小:1.29MB
下载 相关 举报
公共交通乘客的活动模式和规律性研究.pdf_第1页
第1页 / 共11页
公共交通乘客的活动模式和规律性研究.pdf_第2页
第2页 / 共11页
公共交通乘客的活动模式和规律性研究.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 51 卷 第 8 期2023 年 8 月Vol.51 No.8August 2023华 南 理 工 大 学 学 报(自 然 科 学 版)Journal of South China University of Technology(Natural Science Edition)公共交通乘客的活动模式和规律性研究陈艳艳 王子帆 孙浩冬 张野(北京工业大学 城市建设学部,北京 100124)摘要:为了探究公共交通乘客的活动模式和规律性,文中利用北京市2020年10月份3周的公共交通智能卡数据,构建乘客多天的出行活动序列,利用PrefixSpan算法挖掘乘客的频繁活动模式序列,并基于最长公共子

2、序列的方法定义活动模式相似性度量方法,分别计算了个体乘客日活动序列相似度和不同乘客之间的活动模式相似度,基于乘客间的相似度,利用层次聚类算法对乘客进行分类。结果表明:工作日或非工作日之内的相似度明显高于工作日与非工作日之间的相似度;在工作日中,周五与其他天的活动序列相似度较低;在不同周次的同一天,乘客的活动序列相似度更高。层次聚类结果显示,乘客有4类典型的活动模式导向,分别为娱乐购物导向、生活外出导向、工作通勤导向和个人事务外出导向,并且活动模式为工作通勤导向的乘客个体的日活动序列相似度高于其他活动模式的乘客。文中研究结果可有助于科学制定精准化的公共交通运营管理和服务政策。关键词:公共交通;乘

3、客活动序列;频繁序列挖掘;序列相似性;活动模式中图分类号:U491文章编号:1000-565X(2023)08-0040-11公共交通作为绿色环保并且大运量的交通方式,承担了城市中大部分的交通需求,是城市交通系统的重要组成部分。人们的出行往往伴随特定的社会活动,掌握公共交通出行者的出行活动模式和规律性,有助于精准预测公共交通的出行需求,从而为公交系统的日常管理运营和相关政策的制定提供支撑。居民的出行活动轨迹不仅在不同的出行者之间存在差异,同一个体多日的出行活动也会表现出波动性,这给交通需求感知和预测带来了巨大的挑战。传统的出行行为研究主要基于问卷调查数据展开,Zhou等1利用南京市居民出行调查

4、数据构建个体一天的活动序列,并采用基于马尔可夫链的混合模型对居民的活动模式进行聚类,得到不同导向的活动模式。Zhai等2利用华盛顿地区的居民出行调查数据构建个体的出行活动序列,使用改进的编辑距离计算出行活动序列的相似度,基于不同个体之间的距离矩阵,利用近邻传播算法将居民出行活动模式分为不同的类别。随着通信技术的发展,越来越丰富的大数据被应用于出行行为的研究中,如手机数据、全球定位系统(GPS)数据和公共交通刷卡数据。现有的研究主要是利用集计的出行数据(如出行时间、空间和其他某些出行特征等)对群体的出行模式进行分类。Ma等3利用公交刷卡数据提取乘客的出行天数、频繁出行时刻、站点和路线特征,用以表

5、征乘客的出行行为,并利用 ISODATAdoi:10.12141/j.issn.1000-565X.220658收稿日期:20221011基金项目:北京市科技计划项目(K2038001201902)Foundation item:Supported by the Beijing Science and Technology Planning Program(K2038001201902)作者简介:陈艳艳(1970-),女,教授,博士生导师,主要从事交通运输规划与管理及大数据挖掘研究。E-mail:第 8 期陈艳艳 等:公共交通乘客的活动模式和规律性研究聚类方法挖掘通勤乘客;Kieu等4利用DB

6、SCAN聚类方法挖掘乘客的出行时空模式,并将乘客分为通勤、时间规律、空间规律和不规律出行 4 类。Manley等5利用聚类方法从出行时间和空间两个层面分别度量了公交乘客的出行规律性。Zhong等6利用刷卡数据度量了北京、新加坡和伦敦3个城市的公交乘客的出行时间规律性。在出行活动规律性方面,Goulet-Langlois等7 利用多天的公共交通智能卡数据挖掘乘客不同活动地到访的频次,并按照时间顺序构建活动序列,其中活动的特征标签为访问频次,最后利用基于熵率的方法挖掘乘客出行活动的规律性。Dharmowijoyo等8 利用多天的问卷调查数据构建居民的出行活动序列,并利用序列对比模型挖掘居民出行活动

7、序列的规律性。林鹏飞等9利用北京市多天的公共交通刷卡数据构建乘客的活动链,将乘客的活动类型分为居家、工作和其他3类,并通过编辑距离度量活动链的相似性,挖掘乘客的日活动链相似性。Shou等10利用车辆的GPS数据构建车主的活动序列,通过频繁序列挖掘和序列相似性分析度量车主多天的活动序列相似度。综上所述,在出行者活动模式挖掘方面,现有的基于居民出行问卷调查的研究通常只包含个体一天的出行活动信息,因此无法度量个体多天出行活动的规律性,同时居民一天的出行活动信息可能存在偶然性,不能代表居民典型的活动模式;基于出行时空大数据的研究主要是提取集计的出行时空特征,再通过聚类方法将出行者划分为具有不同出行模式

8、的群体。在出行活动规律性方面,现有的基于公共交通智能卡数据的研究主要从出行时间和空间的角度对个体的出行活动规律性进行度量,没有从更细粒度的活动角度挖掘个体的活动规律性和群体的活动模式。文中拟基于公共交通智能卡数据,通过精细化活动类型判别构建乘客多天的活动序列,利用PrefixSpan算法挖掘乘客的频繁活动模式,并定义了活动模式相似性度量方法,计算得到个体乘客不同日的活动序列相似度和乘客间活动模式相似度,通过层次聚类得到不同活动模式导向的乘客,以期为更精细地划分并预测乘客需求,从而有针对性地制定公共交通政策提供参考。1数据基础及预处理1.1公共交通智能卡数据文中所用的数据源为北京市公共交通智能卡

9、数据,其中包括地铁和常规公交两种出行方式,数据详细记录了乘客每次公共交通出行的线路、时间、站点以及乘客的卡号等信息,数据的时间覆盖范围为2020年10月11日至10月31日,共计3周。当乘客的出行起点与终点不在一条线路上时,乘客需要经过换乘到达目的地,例如常规公交换乘地铁。参考文献 11 中的方法识别乘客的换乘过程,最后得到的出行链数据包括乘客的卡号、出行方式、上下车刷卡时间、起终站点等信息。原始数据集中包含超过1 000万名乘客的公共交通出行数据,文中选取研究周期内出行天数大于10 d、日均出行次数大于等于2的乘客作为研究对象,最后获取约100万名乘客的出行链数据,考虑计算时间成本,从中随机

10、抽取1万名乘客的出行记录,分析公共交通乘客的出行活动模式和规律性。1.2兴趣点(POI)数据及公共交通站点功能属性挖掘文中所用的2020年北京市POI数据通过高德地图API获取,根据高德官方的POI数据一级分类方法,获取到的POI类别分为23类,包括汽车服务、汽车销售、汽车维修、摩托车服务、餐饮服务、购物服务、生活服务、体育休闲服务、医疗保健服务、住宿服务、风景名胜、商务住宅、政府机构及社会团体、科教文化服务、交通设施服务、金融保险服务、公司企业、道路附属设施、地名地址信息、公共设施、事件活动、室内设施和通行设施。考虑到后续的活动判别,文中对原始的POI类别进行了合并和筛选处理。首先,将汽车服

11、务、汽车销售、汽车维修、摩托车服务、住宿服务和生活服务统一合并为生活服务;不考虑道路附属设施(如红绿灯)、地址地名信息(如自然地名)、公共设施(如公共厕所)、事件活动(如城市新闻)、室内设施(如扶梯)、通信设施(如建筑物门)这几类POI数据,因为它们不对应具体的出行活动。此外,交通设施服务中大部分POI点为汽车停车场、公共交通站点,少数为长途汽车站、火车站和机场,考虑到文中的研究对象为出行频次较高的公共交通乘客及其日常的公共交通出行活动,针对长途汽车站、火车站和机场承担的长途跨市出行,通常涉及其他的交通方式且出行活动时间较长,对乘客来说此类出行的频次较少,故文中不考虑交通设施服务对应的POI。

12、最后,文中采用的POI数据类别为餐饮服务、41第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)医疗保健服务、商务住宅、生活服务、体育休闲服务、公司企业、购物服务、科教文化服务、风景名胜、金融保险服务、政府机构及社会团体共11类,总计865 526条数据。每条POI数据的信息包含其所归属的类别、经纬度坐标和具体的名称。为了探究乘客在目的地的活动类型,文中首先挖掘终到站点对应的功能属性。计算站点服务范围内各类POI的分布特征向量vi(vi1,vi2,vi11),地铁站点取800 m服务半径,常规公交站点取500 m服务半径,vij表示站点i的第j类POI的分布特征值,采用文本处理方

13、法中的TF-IDF(词频-逆向文件频率)加权法计算。TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件集或一个语料库中其中一份文件的重要程度12,具体的计算公式为vij=TijIj=nijjnijlnm|fi:j fi(1)式中:Tij为站点i的服务范围内第j类POI的数量nij占POI总数量的比例;Ij为第j类POI的权重值,用于衡量第j类POI的重要程度,该值由总站点数除以服务范围内包含该类POI的站点数+1,再对商值m|fi:j fi-1取对数得到,这个指标可以增大稀有POI的贡献度;m为总站点数;|fi:j fi|为站点i服务范围内存在第j类POI的站点

14、数+1。计算得到站点服务范围内POI分布特征向量之后,取最大的vij对应的POI类型来表征站点的功能属性,并根据不同的活动类型对 POI类别进行划分,如表1所示。2个体乘客活动序列的构建乘客的出行由日常的社会活动需求所驱使,每次出行都伴随乘客在出行终点的特定社会活动。假设某乘客有3次出行,如图1所示,根据乘客的出行链信息,通过活动类型判别,可以得到乘客一天中所有的活动信息,将所有的活动按照时间顺序连接,可以得到乘客的活动序列,即居家-工作-生活外出-居家。2.1居住地和工作地识别文献 13 基于AFC刷卡数据对地铁乘客的出行行为进行研究,发现乘客一天中第一次出行的起点和最后一次出行的终点通常在

15、居住地附近。文献 9 将乘客除居住地以外访问频率最高的活动地判别为工作地。参考以上研究,可利用乘客的多天出行链数据识别乘客的居住地和部分乘客的工作地。考虑到市区内公共交通站点分布较密集,乘客日常出行可选择附近的多个站点,所以文中先利用改进的DBSCAN算法3对所有站点进行聚类并重新编号,该算法可以将空间邻近的站点聚为一类,而且避免了原始DBSCAN算法在处理空间数据点时出现长条形聚类结果的情况;然后基于站点聚类结果替换乘客出行链数据中的出发站点和到达站点。具体识别步骤如下:(1)将乘客的出行链数据按出发时间升序排序。(2)对于任意乘客任意一天的出行链数据,如果该乘客当天的总出行链条数大于等于2

16、,则直接保留第一次出行和最后一次出行的数据;如果该乘客当天的出行链条数为1,则将出发时间早于12:00的出行链定义为乘客的第一次出行,而将出发时间晚于12:00的出行链定义为乘客的最后一次出行。(3)提取研究周期内该乘客出行链数据中所有第一次出行的出发地和最后一次出行的目的地,并将出现最频繁的地点定义为该乘客的居住地。(4)针对该乘客所有工作日的出行链数据,预定时间范围(7:0010:00和16:0022:00),提取该乘客所有出发时间在预定时间范围内的第一次出行的目的地和最后一次出行的出发地作为候选工作地,数量记为n1,并计算其中出现最频繁的地点及表1POI类别与活动类型的对应关系Table

17、 1Mappings between POI categories and activity categories活动类型个人事务其他生活外出购物休闲娱乐POI类别公司企业、科教文化服务、金融保险服务、政府机构及社会团体、医疗保健服务商务住宅、生活服务购物服务餐饮服务、体育休闲服务、风景名胜居住地地理空间时间轴活动过程出行过程工作地商场图1乘客出行活动轨迹示例Fig.1Sample of individual travel activity trajectory42第 8 期陈艳艳 等:公共交通乘客的活动模式和规律性研究其出现的次数n2,如果n1/n2 50%并且n2 9,则定义该地点为该乘客

18、的工作地,否则未能识别到该乘客的工作地。2.2活动类型判别文中根据乘客连续的出行链判断活动类型,将乘客当前出行链记为c,下一条出行链记为c+1,具体的判别步骤如下:(1)如果c为乘客在某一天的第一条出行链,且行程c的起点为乘客的居住地,则起始活动类型为“居家”;如果行程c的起点为乘客的工作地,则起始活动类型为“工作”,否则起始活动类型为“其他”。(2)如果出行链c与c+1在同一天,或者c在c+1的前一天,并且c对应的下车站点与c+1对应的上车站点在同一站点簇内,即活动地相同,则认为乘客在c对应的下车站点处于有效活动状态,否则认为乘客在该期间采用了非公共交通方式出行,此次出行链终点对应的活动类型

19、为“其他”。(3)如果出行链c与c+1间隔大于1 d,或者c是乘客在研究时段内的最后一次出行,则认为乘客在c对应的下车站点处于有效活动状态。针对步骤(2)和(3)中有效活动状态对应的活动地,如果为居住地,则乘客此次出行链对应的活动类型为“居家”;如果活动地为工作地,则活动类型为“工作”;如果活动地既不是居住地也不是工作地,则根据1.2节中站点的功能属性判别乘客的活动类型。将“居家”“工作”“个人事务”“生活外出”“购物”“休闲娱乐”和“其他”活动分别记为H、W、A、L、S、R和O,得到乘客多天的活动序列示例如表2所示。3频繁活动模式挖掘3.1活动序列和频繁活动模式序列对于某公共交通乘客,将其一

20、天的出行活动按照活动时间顺序排列,可以构成一条活动序列a=a1,a2,an,该序列包含n个活动片段,其中ai表示乘客当天的第i次活动。若乘客这天的活动从 居 住 地 开 始 并 终 止 于 居 住 地,则a1=an=“居家”。对于研究周期天数N,乘客在研究周期内所 有 的 活 动 序 列 构 成 活 动 序 列 集 合B=ai|i=1,2,N。对于大部分公共交通乘客,日常生活中规律的活动需求(如通勤)决定了其出行活动轨迹的重复性,但由于某些临时的社会活动需求(如外出就餐、办事),乘客每天的出行活动轨迹会存在一定的差异。然而,在乘客多天的不完全相同的活动序列中,某些活动序列或其中的一部分出现的频

21、率较高,将这些活动序列或子序列视为乘客的频繁活动模式序列。对于活动序列a=a1,a2,an与b=b1,b2,bm,如果b可以由从a中任意选取的几个元素在不改变原有顺序的情况下组成,则称序列b为 序 列a的 子 序 列,即 存 在 一 组 下 标 序 列k1,k2,km,使得b1=ak1,b2=ak2,bm=akm;相应地,称序列a为序列b的超序列。对于给定乘客的活动序列集合B,序列a为集合B中任一序列的子序列,a的支持度为集合B中a的超序列数占总序列数的比例。给定最小支持度阈值,当子序列在集合B中的支持度大于,则为频繁活动模式序列,中包含的元素个数为频繁活动模式序列的长度。一个乘客研究周期内的

22、活动序列集合可能有多个(设为R)频繁活动模式序列,共同组成频繁活动模式序列集合=r,r=1,2,R。3.2PrefixSpan算法频繁活动模式序列挖掘需要遍历乘客活动序列集合中所有的活动子序列,并计算对应的支持度。当活动序列集合较大时,相应的计算量和复杂度也较高。文中采用PrefixSpan算法14挖掘频繁活动模式序列,该算法采用分治思想,可以快速高效地实现频繁活动模式序列的挖掘,已被广泛应用于轨迹序列、生物序列等序列挖掘研究中。该算法涉及的相关概念定义如下:给定活动序列a=a1,a2,an与b=b1,b2,bm(m n),当且仅当ai=bi(i 1,2,)m时,序列b为a的前缀,相应地,am

23、+1,am+2,an为a关于b的后缀。给定活动序列a=a1,a2,an与b=b1,表2乘客多天的活动序列示例Table 2Samples of passenger s multi-day activity sequence日期2020-10-122020-10-132020-10-142020-10-152020-10-17活动序列H-W-HH-W-A-HH-W-HH-W-S-HH-R-S-H43第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)b2,bm,b是a的前缀,则a关于b的后缀a即为b在a上的投影。给定活动序列集合B和活动序列a,集合B中每条活动序列以a为前缀的所有后缀

24、集合为a的投影数据库,记为B|a。基于以上概念,PrefixSpan算法的核心步骤有两项:筛选,其操作对象为活动序列集合。获得活动序列集合中所有不同的元素,根据包含每个元素的序列数来确定元素的支持度。根据支持度阈值要求,仅保留支持度大于或等于阈值的元素,最终获得由所有满足支持度阈值的元素构成的元素集合。建立投影数据库,其操作对象为前缀和序列集合。PrefixSpan算法描述如下:PrefixSpan(a,l,B|a)/当前前缀a不为空集时,l为当前前缀的长度,B|a为a的投影数据库;否则l=0,B|a=B。输入:研究周期内乘客的活动序列集合B,最小支持度阈值输出:频繁活动模式序列(1)初始化a

25、为空集,遍历B|a,查询所有支持度大于或等于最小支持度阈值的元素e;(2)对于每个频繁元素e,与当前a中的前缀相连,形成新的活动模式序列a;(3)对于新的活动模式序列a,遍历并构建相应的投影数据库B|a,重复调用 PrefixSpan(a,l+1,B|a),直至生成的新活动模式序列不满足最小支持度阈值的要求或投影数据库为空集。3.3频繁活动模式序列筛选由PrefixSpan算法描述可知,结果中可能包含许多的频繁活动模式序列,为了下一步的乘客活动模式序列相似性分析,需要挑选合适的频繁活动模式序列来代表乘客的典型活动模式序列。以往的研究有以下3种处理方法:保留所有的频繁活动模式序列、保留最长的频繁

26、活动模式序列以及通过设定序列长度阈值来筛选频繁活动模式序列。前两种方法都存在明显的不足:当保留所有的频繁活动模式序列时,会导致其中许多相同的信息被重复计算;当只保留最长的频繁活动模式序列时,其他携带重复信息的频繁活动模式序列均被舍弃,因而可能造成最后采用的频繁活动模式序列不能准确代表乘客日常的出行活动行为偏好。考虑到以上问题,文中采用第3种处理方法,即通过设定序列长度阈值来筛选频繁活动模式序列。参考文献 9-10,将频繁活动模式序列的最小长度设置为3,最小支持度阈值设置为0.2,同时频繁活动模式序列的第一个元素和最后一个元素为居家H。4活动模式序列相似性分析得到乘客的频繁活动模式序列后,需要计

27、算不同乘客活动模式的相似性,以及乘客自身活动模式的规律性。文中根据两个活动序列相似性的度量方法10,15,提出了不同乘客以及个体乘客自身活动模式规律性的度量方法。4.1频繁活动模式序列相似性度量方法给定两个频繁活动模式序列和,两者的相似度记为s,根据相似度的特性,s需要满足下列条件():(1)0 s 1;(2)s=1,当两个频繁活动模式序列完全相同时,即=;(3)s=0,当两个频繁活动模式序列没有共同元素时,即 =;(4)s是对称的,即s=s。定义最长公共子序列(LCS)为两个频繁活动模式序列拥有的相同且最长的子序列,设=H-W-H,=H-W-R-H,则 两 者 的 最 长 公 共 子 序 列

28、 为LCS(,)=H-W-H;最长公共子序列的参与率为最长公共子序列的长度占初始频繁活动模式序列长度的比例。考虑到越长的频繁活动模式序列可以为乘客的出行活动行为提供更多的信息,所以在度量相似性时,文中采用对频繁活动模式序列的长度进行加权的方法,具体的计算公式为s=len()(LCS(,),)len()+len()+len()(LCS(,),)len()+len()(2)式中,len(x)为序列x的长度。可以证明,式(2)得到的频繁活动模式序列的相似度满足条件()。4.2乘客间的活动模式相似性度量方法在频繁活动模式序列挖掘的基础上,记任意两个乘客i和j在研究周期内的频繁活动模式序列集合分别为i=

29、ri,r=1,2,R和j=qj,q=1,2,Q,两者的活动模式相似度记为sij,根44第 8 期陈艳艳 等:公共交通乘客的活动模式和规律性研究据相似度的特性,sij需要满足条件():(1)0 sij 1;(2)sij=1,当两位乘客的频繁活动模式序列集合完全相同时,即i=j;(3)sij=0,当两位乘客的频繁活动模式序列集合没有共同元素时,即ri qj=,r 1,2,R,q 1,2,Q;(4)sij是对称的,即sij=sji。sij的具体计算公式为sij=r=1Rq=1QW(ri,qj)sriqjr=1Rq=1QW(ri,qj)(3)式 中,W(ri,qj)为 频 繁 活 动 模 式 序 列

30、支 持 度support(ri)和support(qj)的几何平均值,即W(ri,qj)=support(ri)support(qj)。然而,存在如下特殊情况,使得式(3)的计算方式违反了条件()中的第(2)项。例如:乘客i和j的频繁活动模式序列集合分别为i=1i=H-L-H,2i=H-W-H和j=1j=H-L-H,2j=H-W-H,可以看出两位乘客的频繁活动模式序列集合是相同的,但因为同一乘客的两个频繁活动模式不相同,导致s1i2j1,从而sij 1,与条件()的第(2)项相悖。所以在计算乘客间的活动模式相似度前,需要先判断两者的频繁活动模式序列集合是否相同,如果相同,相似度sij=1,如果

31、不相同,则根据式(3)计算相似度值。4.3乘客日维度活动序列规律性度量方法在研究周期内,乘客有多天的活动序列,给定乘客 i在 N 天内的活动序列集合|nin=1,2,N,该乘客自身的活动序列相似度记为sii,根据相似度的特性,sii需要满足条件():(1)0 sii 1;(2)sii=1,当乘客在研究周期内的活动序列完全相同时,即ni=mi(m,n 1,2,N);通过比较乘客任意两天的活动序列的相似性,计算加权平均值得到乘客的日维度活动序列相似度值,具体计算公式为sii=2m=1N n=m+1NsminiN(N-1)(4)4.4乘客活动模式聚类基于不同乘客之间活动模式的相似性度量结果,得到乘客

32、之间的距离矩阵,并利用聚类算法对乘客进行聚类。目前主要的聚类算法有K-均值聚类、基于密度的带有噪声的空间聚类(DBSCAN)以及层次聚类16。K-均值聚类算法在初始状态需要指定K个对象为聚类簇的质心,初始质心的选取对聚类结果存在影响;DBSCAN 算法是基于密度的聚类,除了聚类数目K外,算法还需要预先给定聚类对象的邻域半径和邻域半径内的最小对象数,因而不适用于文中的乘客活动模式聚类。层次聚类算法分为凝聚型和分裂型两类,前者在聚类初始阶段将每个对象都视为一类,然后基于对象之间的距离合并相似的对象,后者则相反。可以看出,凝聚型层次聚类算法更适用于文中的乘客活动模式聚类问题。首先,将每个乘客看作一类

33、,根据乘客之间的活动模式相似度,可以计算两两乘客之间活动模式的距离dij=1-sij,将距离最小的两个类合并成一个新类,并重新计算新类与所有类之间的距离;重复以上步骤直到所有类最后合并成一类。根据以上聚类过程构建层次聚类树形图,在合适的位置截取最后的聚类结果。聚类数K采用轮廓系数法确定,轮廓系数(Cs)为描述聚类后各个类别的轮廓清晰度的指标17,包含内聚度和分离度。内聚度反映一个样本点与类内元素的紧密程度;分离度反映一个样本点与类外元素的紧密程度。轮廓系数的计算公式为Cs,K=meang(i)-h(i)max(h(i),g(i)(5)式中,Cs,K为聚类数等于K的情况下所有样本点的轮廓系数均值

34、,g(i)和h(i)分别为数据点i的内聚度和最小分离度。Cs,K的取值范围为 1,1,轮廓系数越大,说明样本与当前类内其他样本的匹配程度越好,与其他类中的样本匹配度越低,聚类效果越好。5结果分析5.1频繁活动模式序列挖掘结果分析对于文中选取的1万名乘客样本,研究周期内总计有172 094条活动序列,乘客的活动序列数量分布如图2(a)所示,大部分乘客的活动序列数量分布在17左右,即大部分乘客在研究周期内的出行天数为1618;乘客活动序列的长度分布如图2(b)所示,活动序列长度主要分布在211之间,将长度大于等于7的活动序列归为一组统计,可以看出乘客大部分的活动序列长度为3,表明大部分乘客45第

35、51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)日常有两次公共交通出行,并到访2个活动地,与文献 18 中的研究结果相符。利用PrefixSpan算法(支持度阈值为0.2)挖掘乘客的频繁活动模式序列,最后提取到16 815条频繁活动模式序列。乘客的频繁活动模式序列数量分布见图3(a),频繁活动模式序列数量主要分布在130之间,将频繁活动模式序列数量大于等于7的乘客归为一组统计,可以看出,大部分乘客只有一条频繁活动模式序列,如日常的通勤活动序列 H-W-H;频繁活动模式序列长度分布在37之间,各长度占比见图3(b),大部分乘客的频繁活动模式序列长度为3或4,如活动序列 H-W-H 和

36、 H-W-R-H。5.2相似性分析基于乘客活动序列和活动模式相似性度量方法,计算得到不同乘客之间的活动模式相似度和个体乘客自身的活动序列相似度平均值,结果如图4所示。在计算不同乘客之间的相似度时,乘客的活动模式以少数的频繁活动模式序列为代表,部分乘客的频繁活动模式序列相似或相同,从而导致乘客之间的相似度会出现相对集中的值,如图4(a)中相似度为0.67和0.97处。对比之下,个体乘客自身的活动序列相似度平均值的分布更均匀(见图4(b)。根据研究周期内个体乘客的日维度活动序列相似度,计算乘客一周内的活动序列相似度矩阵,结果如图5所示。从图中可以看出:工作日之间的相似度明显高于工作日与非工作日之间

37、的相似度,说明乘客工作日的活动序列较非工作日的活动序列更为规律;非工作日之间的相似度也较工作日与非工作日之间的相似度略微高,可能原因是乘客在非工作日也有相对固定的生活或休闲娱乐活动;在工作日中,周五与其他天的活动序列相似度较低,可能原因是临近周末,乘客有一定的休闲娱乐活动需求;除了周五外,矩阵中对角线上的值均为同一行或同一列中的最大值,而对角线上周五的值(0.717)也 近 似 为 同 一 行 或 同 一 列 的 最 大 值频繁活动模式序列长度频繁活动模式序列数量2170606090504030302010003456734567(a)频繁活动模式序列数量分布(b)频繁活动模式序列长度分布占比

38、/%占比/%图3乘客频繁活动模式序列统计特性分布Fig.3Distribution of statistical characteristics of passenger frequent activity pattern sequence活动序列数量活动序列长度(a)活动序列数量分布(b)活动序列长度分布占比/%占比/%82300204060805102015101214161820224567图2乘客活动序列统计特性分布Fig.2Distribution of statistical characteristics of passenger activity sequence46第 8 期

39、陈艳艳 等:公共交通乘客的活动模式和规律性研究(0.718),说明在不同周次的同一天,乘客的活动序列相似度趋向于更高,可能原因是部分乘客在不同周次的同一天有较为固定的活动需求。5.3活动模式聚类结果分析基于不同乘客之间的活动模式相似度值,计算得到乘客之间的活动模式距离矩阵,并基于乘客之间的距离矩阵,利用层次聚类算法对乘客的活动模式进行聚类。首先根据轮廓系数选择合适的聚类数,测试不同的聚类数K(K=2,3,4,5,6,7)下聚类结果的轮廓系数值,结果如图6所示。图中显示轮廓系数最大值对应的聚类数为3,考虑到聚类样本中会存在少数离群点,而层次聚类算法会将离群点单独分为一类,故文中选择第二大的轮廓系

40、数对应的聚类数6为最终的聚类数。最终得到的聚类结果中包含 4 个主要的聚类簇,其中的样本数分别为2 827、133、6 467和527,剩下的2个聚类簇都只有一个样本点,文中将它们视为离群点且不对它们做进一步的分析。4 个主要的聚类簇中不同类型活动的占比如图7所示,因为频繁活动模式序列的首尾元素都为“居家”,所以在每一个聚类中,“居家”的占比均0.750.7350.7280.7280.7330.7310.7310.7320.7320.7320.7350.7180.7180.7170.7170.6290.6260.7170.7290.7290.7280.7280.7260.7260.7140.7

41、140.7150.7150.5710.5710.5720.5720.5740.5740.5760.5760.5770.5770.5650.5650.5650.5650.6000.6000.5660.5660.5640.5640.5640.5640.700.650.600.550.50周一相似度周一周二周二周三周三周四周四周五周五周六周六周日周日图5乘客一周内的个体活动序列日相似度矩阵Fig.5Intra-personal activity sequence similarity matrix of passenger in one week不同乘客间活动模式相似度乘客个体活动序列相似度(a)不

42、同乘客间(b)乘客个体0.40515252510200515102030350.50.60.70.80.91.00.40.30.50.60.70.80.91.0占比/%占比/%图4乘客活动模式相似度分布Fig.4Distribution of passenger activity pattern similarity占比/%类别1活动类型类别2类别3类别4H010203040506070WASRLO图7不同聚类簇中各类活动占比Fig.7Proportions of different activities in different clustersK轮廓系数320.350.450.550.65

43、4567图6不同聚类数下聚类结果的轮廓系数Fig.6Silhouette coefficient of clustering result under different cluster numbers47第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)最高。除去“居家”活动,每个聚类簇中占比第二的活动均不相同。类别1中“休闲娱乐”和“购物”的占比较高,类别2中“生活外出”的占比最高,类别 3 中“工作”的占比最高,类别 4 中“个人事务”的占比最高。进一步计算各聚类簇中频繁活动模式序列的占比,结果如表3所示,从表中可以看出,该结果与图 7 的结果相呼应,类别 1 乘客的频繁活

44、动模式序列主要为 H-R-H 和 H-S-H,类别 2中频繁活动模式序列 H-L-H 的占比最高,类别 3 和类别 4 乘客的频繁活动模式序列主要为H-W-H 和 H-A-H。根据上述聚类结果,可以将4个类别的乘客活动模式分别定义为娱乐购物导向、生活外出导向、工作通勤导向和个人事务外出导向。对于4种不同导向的活动模式,分别计算对应活动模式下个体乘客的活动序列日平均相似度分布,结果如图8所示。从图中可以看出:活动模式为工作通勤导向的乘客的活动序列日平均相似度值最高,这部分乘客日常的公共交通出行大部分为家至工作地的刚性通勤出行,所以活动序列的规律性最高;活动模式为生活外出导向的乘客的活动序列日平均

45、相似度值较低,可能因为这部分乘客日常的公共交通出行多为弹性出行,所以活动序列的规律性较低。6结论文中利用公共交通智能卡数据构建乘客多天的活动序列,利用PrefixSpan算法挖掘乘客频繁活动模式,并定义了活动模式相似性度量方法,计算得到个体乘客不同日的活动序列相似度和不同乘客间的活动模式相似度。基于个体乘客不同日的活动序列相似度分析发现:工作日或非工作日之内的相似度明显高于工作日与非工作日之间的相似度;在工作日中,周五与其他天的活动序列相似度较低;在不同周次的同一天,乘客的活动序列相似度更高。基于乘客间的活动模式相似度,利用层次聚类算法将乘客进行分类,最后得到乘客的4类典型活动模式导向,分别为

46、娱乐购物导向、生活外出导向、工作通勤导向和个人事务外出导向,并且活动模式为工作通勤导向的乘客的日活动序列相似度高于其他活动模式的乘客。表3不同聚类簇中不同频繁活动模式序列占比Table 3Proportions of different frequent activity pattern sequences in different clusters类别1(娱乐购物导向)频繁活动模式序列H-R-HH-S-HH-O-HH-A-HH-L-HH-A-R-HH-R-S-HH-R-A-HH-S-R-HH-R-O-H占比/%50.717.312.411.13.21.31.11.11.00.8类别2(生活外

47、出导向)频繁活动模式序列H-L-HH-R-HH-A-HH-S-HH-L-R-HH-O-HH-R-L-HH-L-H-L-HH-L-S-HH-W-H占比/%65.68.37.14.64.63.72.51.21.21.2类别3(工作通勤导向)频繁活动模式序列H-W-HH-R-HH-A-HH-S-HH-W-R-HH-O-HH-W-A-HH-R-W-HH-W-H-W-HH-L-H占比/%74.210.64.02.92.82.21.11.00.70.7类别4(个人事务外出导向)频繁活动模式序列H-A-HH-S-HH-O-HH-R-HH-R-A-HH-L-HH-A-R-HH-A-S-HH-O-A-HH-A-

48、O-H占比/%65.412.611.05.31.21.01.00.90.90.71平均相似度2340.30.40.50.60.70.80.91.0聚类簇类别编号图8不同聚类簇中个体活动序列相似度分布Fig.8Distribution of intra-personal activity sequence similarity in different clusters48第 8 期陈艳艳 等:公共交通乘客的活动模式和规律性研究未来,可以进一步结合个体的出行时间和空间特征细化乘客的出行行为序列,从不同的维度进一步挖掘个体的出行活动模式;同时,可以结合问卷调查数据探究乘客的社会经济属性与活动模式之

49、间的关系。参考文献:1 ZHOU Y,YUAN Q,YANG C,et alWho you are determines how you travel:clustering human activity patterns with a Markov-chain-based mixture model JTravel Behaviour and Society,2021,24:102-112.2 ZHAI W,BAI X,PENG Z,et alFrom edit distance to augmented space-time-weighted edit distance:detecting

50、and clustering patterns of human activities in Puget Sound region J Journal of Transport Geography,2019,78:41-55.3 MA X,LIU C,WEN H,et alUnderstanding commuting patterns using transit smart card data J Journal of Transport Geography,2017,58:135-145.4 KIEU L,BHASKAR A,CHUNG E Passenger segmentation u

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服