1、第21卷 第2期2023年06月交通运输工程与信息学报Journal of Transportation Engineering and InformationVol.21 No.2Jun.2023文章编号:1672-4747(2023)02-0001-13关联路网拓扑特性的车辆出行行为画像分析研究关联路网拓扑特性的车辆出行行为画像分析研究姚文彬1,2,戎栋磊1,胡佑薇1,苏弘扬1,陈 诺1,金 盛*1,2(1.浙江大学,建筑工程学院,杭州 310058;2.浙江大学,平衡建筑研究中心,杭州 310058)摘要:基于交通时空大数据的微观出行行为分析可以为精细化、个性化的交通管控措施制定提供支持
2、,车牌识别数据作为一种精度高、准确性高、采样率全的时空大数据,近年来受到广泛关注。但是现有基于车牌识别数据的出行行为分析文献在进行行为分析的过程中较少考虑路网特征,即没有将出行者的行为与路网特性结合起来分析,这导致挖掘得到的出行模式与路网本身的关联不高。本文首先对车牌识别数据和路网拓扑数据进行数据融合,基于此融合数据,根据机动化出行者的出行行为特性使用聚类算法进行车辆画像,将路网上的车辆划分为临时办事车辆、频繁过境车辆、家庭不常用车辆、通勤车辆、网约出租车辆五类车辆。同时,结合复杂网络方法和聚类算法对交叉口进行画像分析,挖掘出交通管理者需要重点关注的交叉口。在此基础上,结合车辆出行行为和路网拓
3、扑信息深入挖掘出行车辆的出行模式,构建车辆画像-交叉口画像-过车频次矩阵、车辆画像-交叉口画像-过车占比矩阵,进而对车辆出行时空特性进行深入挖掘,为交通管控措施的制定提供支持。关键词:智能交通;出行行为;画像分析;车牌识别数据;交通管控中图分类号:U491.4文献标志码:ADOI:10.19961/ki.1672-4747.2022.09.011Analysis of vehicle travel behavior portrait relating to topologicalcharacteristics of road networkYAO Wen-bin1,2,RONG Dong-le
4、i1,HU You-wei1,SU Hong-yang1,CHEN Nuo1,JIN Sheng*1,2(1.College of Civil Engineering and Architecture,Zhejiang University,Hangzhou 310058,China;2.Center for Balance Architecture,Zhejiang University,Hangzhou 310058,China)Abstract:Travel behavior analysis based on spatiotemporal big data can provide su
5、pport for formu-lating refined and personalized traffic control measures.License plate recognition data is a type ofspatiotemporal big data with high precision,high accuracy,and full sampling rate,and it has attract-ed significant attention in recent years.However,previous studies on travel behavior
6、 analysis basedon license plate recognition data seldom considered the road network characteristics in travel behav-ior analysis,which resulted in a low correlation between the mined travel patterns and the road net-work.This paper presents a combination of license plate recognition data and road ne
7、twork topologydata.Based on the fused data,a clustering algorithm was used to classify vehicles based on the travel收稿日期:2022-09-15录用日期:2022-10-26网络首发:2022-11-02审稿日期:2022-09-1509-24;09-2810-04;10-1210-21;10-26基金项目:国家自然科学基金项目(92046011);浙江省“尖兵”“领雁”研发攻关计划项目(2022C01050)作者简介:姚文彬(1997),男,博士研究生,研究方向为交通大数据分析
8、,E-mail:通信作者:金盛(1982),男,教授,博导,研究方向为智慧城市与智能网联汽车交互、人工智能技术在交通流建模和交通管控中的应用、交通大数据和智能交通系统,E-mail:引文格式:姚文彬,戎栋磊,胡佑薇,等.关联路网拓扑特性的车辆出行行为画像分析研究J.交通运输工程与信息学报,2023,21(2):1-13.YAO Wen-bin,RONG Dong-lei,HU You-wei,et al.Analysis of vehicle travel behavior portrait relating to topological characteristicsof road netw
9、orkJ.Journal of Transportation Engineering and Information,2023,21(2):1-13.2交通运输工程与信息学报第21卷behavior characteristics of motorized vehicles.Vehicles on the road network were divided into fivecategories:vehicles for temporary business trips,vehicles passing through the area,rarely used vehi-cles for fa
10、milies,commuting vehicles,and taxis.In addition,we classified intersections on the roadnetwork using a complex network method and a clustering algorithm,and the intersections that traf-fic managers need to focus on were mined successfully.The travel pattern of travel vehicles was fur-ther explored b
11、ased on the vehicle travel behavior and road network topology information.The pass-ing frequency matrix and passing frequency ratio matrix were constructed,supporting the formula-tion of traffic control measures and recommendations.Key words:intelligent transportation;travel behavior;user portrait;l
12、icense plate recognition data;traffic control0引言近年来,随着智能交通系统的发展,越来越丰富的交通时空大数据被采集和保存1。时空大数据在宏观层面可以对城市规划、用地性质、总体交通状况分析等进行全面描述;在中观层面可以对局部区域(如:交通小区)的交通状态演化情况进行详细分析;在微观层面可以对路段/路口流量分布、个体出行行为特性等进行细致刻画2-3。为了支持政策的制定和管理者的科学决策,各个城市均开始建设城市大脑,运用大数据和人工智能等技术对时空大数据进行深入处理和挖掘,以支撑交通智能管控的需求4。目前,已经涌现出一大批基于时空大数据的车辆出行时空特性
13、分析方面的研究。在这类研究中,常被使用的时空大数据包括手机信令数据、车牌识别数据、出租车GPS数据、浮动车GPS数据、互联网地图数据、检测器数据等5。借助这些时空大数据,在宏观层面可以进行城市规划、用地性质分析6;在中观层面可以进行交通子区划分、区域交通状态研判7;在微观层面可以进行交通状态参数获取、预测,出行行为分析8。微观层面的出行行为分析对数据的精度、准确性要求较高,且分析算法复杂,因此研究相对较少。车牌识别数据是一种借助广泛布设在城市中的电警卡口设备对过车信息进行采集的数据,该数据具有精度、准确性高,采样率全,数据量大的特点,基于该数据能够对城市中的全样本机动车进行时空行为分析。然而由
14、于车牌识别数据涉及车辆隐私问题,目前主要被政府部门使用。如果隐私问题得以妥善解决,车牌识别数据有望在工程中发挥出更大的作用,因此基于车牌识别数据进行出行行为挖掘有较大意义9-10。Yao等人11基于义乌市车牌识别数据使用prefix-span算法对出行者的频繁出行模式进行挖掘,然后分析了新冠肺炎疫情发展过程中出行者频繁出行模式的变化,进而挖掘得到了疫情对出行者频繁出行模式的定量影响。Yao 等人12基于车牌识别数据提出了一种基于聚类算法和决策树算法的通勤模式车辆分析框架,该框架首先基于车牌识别数据提取出反映出行者通勤行为的特征,然后借助聚类算法和决策树算法提取出通勤规则,借助通勤规则可以对超大
15、数据集进行通勤模式车辆识别。Chen等人13基于车牌识别数据提取出了车辆的出行行为特性,然后用聚类算法对车辆进行了分类。Chang等人14基于车牌识别数据提出了一种两阶段聚类算法对外地车牌车辆的出行行为进行挖掘,在此基础上分析了上海市限行政策对外地车牌车辆行为的影响。Shen等人15基于车牌识别数据获取得到各个交通小区的机动车出行需求,然后基于手机信令数据得到各个交通小区内的总出行需求,分别以各个交通小区的机动车出行需求和总出行需求为因变量,土地利用性质为自变量,构建GTWR模型,并在此基础上,使用GTWR模型的系数来分析出行需求的时空特性。Liu等人16基于车牌识别数据使用断点回归法分析了不
16、同程度的限行政策对出行行为和交通状态的影响效果,发现限行政策对道路速度提升效果显著。Yao等人17基于车牌识别数据分析了在杭州市限行政策的影响下,出行者出行行为的改变情况和改变程度,分别统计出了受限行政策影响而提早出行、延迟出行、放弃机动化出行的比例。Sun等人18提出了一个二维LDA主题模型对出行者的出行链进行建模,该模型可用于相对稀疏的数据集。该研究基于车牌识别数据借助该模型成功对出行者的出行模式进行挖掘。姚文彬 等:关联路网拓扑特性的车辆出行行为画像分析研究3第2期Zhao等人19首先基于车牌识别数据挖掘出起讫点信息,然后使用kmeans算法挖掘出热点检测摄像头,并在此基础上,使用LDA
17、主题模型挖掘出出行车辆的出行时间特性,结果显示出6种不同的出行需求形式。畅玉皎和杨东援20基于上海市车牌识别数据通过kmeans聚类算法挖掘出路网中的通勤车辆,并分析了通勤车辆的时空出行特性,结果显示,早晚高峰占比2.8%的通勤车辆却贡献了36%的交通量。王宇21基于车牌识别数据分析了违法出租车的时空分布情况,并提出了违法出租车时空分布预测模型。赵雨慧22基于车牌识别数据和驾驶员登记信息对城市出行模式进行了挖掘,同时对驾驶员进行了画像分析。蔡正义23基于车牌识别数据和手机信令数据提出了一套基于张量分解的OD挖掘和模式分析的框架。综上可知,相关研究主要借助车牌识别数据提取出每一个出行者的行为特征
18、指标,然后基于机器学习算法对行为指标进行分析,得到出行者的行为模式或对出行者进行画像。但是在进行行为分析或出行画像的过程中较少考虑路网特征,即没有将出行者的行为与路网特性结合起来,这就导致挖掘得到的出行模式与路网本身的关联度不高或者仅有宏观维度的关联,比如仅仅知道总体的通勤流向。出行模式与路网的关联度低会导致数据挖掘结果无法支撑具体的政策实施,比如要对通勤车流进行管控时,无法知道关键路段和关键路口。因此,本文首先基于车牌识别数据对每一辆出行车辆的时空出行特性进行挖掘,然后使用聚类算法对车辆进行画像分析。其次,在对研究区域的路网拓扑数据使用网络爬虫进行爬取之后,将车牌识别数据和路网拓扑数据进行数
19、据融合。在此基础上,基于融合数据使用复杂网络方法和聚类算法将路网中的交叉口划分为若干类别。最终结合车辆画像和交叉口画像结果,对出行车辆的出行模式进行深入分析。1数据描述本文所使用的数据主要包括两类:第一类是车牌识别数据;第二类是路网拓扑数据。车牌识别数据是由安装在路网上的电警卡口设备采集到的过车信息数据,这一类数据包括下列字段:设备ID、设备地址、设备经度、设备纬度、过车被检测时间、过车车牌、过车被拍摄车道、过车转向信息、过车车辆类型。本文采用杭州市萧山区2019年3月18 日至 3 月 22 日一周五个工作日的数据进行分析。车 牌 识 别 数 据 原 数 据 平 均 每 天 共 包 含7 0
20、01 473行,对车牌识别数据的清洗主要包括两步:第一,对识别错误的记录进行处理;第二,对重复检测的数据进行处理。重复检测问题指在同一个时刻同一辆车被多个摄像头采集的情况,这是因为有的摄像头安装在相邻车道,而一个摄像头往往能拍摄到几个车道的过车信息,因此会出现重复采集同一辆车的过车数据的情况。平均每天识别错误的数据占比为9.10%,对于错误检测的数据,采取直接删除操作。平均每天重复检测的数据占比为2.50%,对于重复检测问题,我们采用随机保留一条记录的方式进行处理。路网拓扑数据来自 OpenStreetMap,借助 OS-Mnx24爬取研究区域内的路网拓扑信息,本文的研究区域为电警卡口设备所包
21、围成的区域。在进行路网爬取时,将研究区域边界往外延伸1 km,使得对边界结点的分析更为准确,爬取得到的路网以及电警卡口分布如图1所示,红色点位为电警卡口设备位置,蓝色实线为路网拓扑信息。爬取得到的路网拓扑数据共包含交叉口1 140个,路段3 260条。图1 电警卡口设备及路网分布Fig.1 Road network and device distribution两种数据在后续处理中需要进行数据融合,为了将车牌识别数据与路网拓扑数据相关联,计算每一个电警卡口设备与每一个交叉口之间的直线距离,然后按照直线距离最短的原则将设备和路网进行关联匹配。此外过滤掉与最近的交叉口距离大于100 m的设备,这些
22、设备的经纬度信息被认为是错误的,原来一共包括1 407个电警卡口设备,数据融合过程中被过滤掉87个电警卡口设备。2车辆画像分析2.1出行行为特征提取首先需要基于车牌识别数据进行时空出行行为特征的提取,根据之前的研究9,12显示,车辆的时空行为关联性较强,因此仅仅提取时间行为特性就可以较好地刻画车辆的时空出行行为。我们提取出6个出行特征,分别是:(1)出行天数 Nt,统计在一周工作日中,每一辆车的出行天数。(2)日均被检测频次Ft,计算公式如下:Ft=i=1NtfiNt(1)式中:fi是第i日的被检测总频次;Nt是工作日出行总天数。(3)早晚高峰出行天数Ntp,即统计车辆在早晚高峰时段的出行天数
23、,根据之前的研究,杭州市早晚高峰时间段分别设定为06:30 AM10:00 AM和05:00 PM07:30 PM12。(4)早晚高峰日均被检测频次 Ftp,计算公式如下:Ftp=i=1NtpfipNtp(2)式中:fip是第i日早晚高峰被检测频次;Ntp是工作日早晚高峰出行总天数。(5)非早晚高峰出行天数Nto,即统计车辆在非早晚高峰出行的总天数。(6)非早晚高峰日均被检测频次Fto,计算公式如下:Fto=i=1NtofioNto(3)式中:fio是第i日非早晚高峰被检测频次;Nto是工作日非早晚高峰出行总天数。绘制1、3、5特征的分布直方图如图2所示,可以发现出行天数为1天的车辆占比超过一
24、半,达到了64.1%,这部分车辆主要由以下部分出行车辆构成:(1)临时到萧山办事车辆,因此一周工作日仅仅出现一天;(2)临时过境车辆,也就是因办事需要经过萧山区的车辆。我们将这类车辆统一称为临时办事车辆,将这类车辆从总样本中去除,防止对后续的分析造成干扰。(a)Ntp分布直方图(b)Nto分布直方图(c)Nt直方图图2 Ntp、Nto、Nt分布直方图Fig.2 Histogram of Ntp,Ntoand Ntdistributions4交通运输工程与信息学报第21卷分析2、4、6特征,绘制直方图如图3所示,发现日均被检测一次及两次的车辆占比几乎达到一半,占比为49.4%。这类车辆主要是过境
25、车辆,但是与之前提到的过境车辆的区别是这类车辆可能是用作通勤,因为一周内被检测天数大于1天,因此出行规律性强于之前的临时办事车辆。现将这类车辆称之为频繁过境车辆,将这类车辆从样本中去除,防止对后续的分析造成影响。(a)Ftp分布直方图(b)Fto分布直方图(c)Ft直方图图3 Ftp,Fto,Ft分布直方图Fig.3 Histogram of Ftp,Ftoand Ftdistributions2.2 聚类分析使用kmeans聚类算法对剩余样本进行聚类分析。进行聚类分析前先确定最优聚类数目,使用轮廓系数作为评价聚类算法效果的指标25,得到敏感性分析结果如图 4 所示,当聚类数目选择为 3时,效
26、果最佳。图4 聚类效果随聚类数目的变化情况Fig.4 Clustering performance for different initial clusteringnumbers对整个样本进行聚类,得到三个簇,三个簇的描述性统计结果如表1所示。第0个簇中的车辆出行天数较少,高峰时期和平峰时期出行频次和天数差异也不大,这类车辆主要由家庭不常用车辆、办事车辆构成。第1个簇中的车辆高峰时期几乎每天都有出行,且被检测频次达到7.389次,平峰时期出行天数相较于高峰时期少,被检测频次也相较于高峰时期少,这类车辆主要由通勤车辆构成。第2个簇中的车辆几乎每天都有出行,高峰时期出行天数和频次相较于平峰时期多,
27、但是差异没有第1个簇中的车辆大。这类车辆出行频次很多,主要由网约车、出租车、公司商务车辆构成。表1 各个簇的描述性统计结果Tab.1 Descriptive statistical results for each cluster簇第0个第1个第2个数 量193 826202 70144 661簇均值Ftp5.7907.38924.92Fto5.5504.70319.049Ft8.5689.91438.842Ntp1.7974.2854.299Nto1.5312.4993.519Nt2.5124.6804.547总的来说,路网上所有车辆被划分成五类,第一类是临时办事车辆,这类车辆的特征是仅仅到
28、萧山区1天;第二类车辆是频繁过境车辆,这类车辆的特征是日均被检测频次少于等于2次,但是出行天数大于1天;第三类车辆主要由家庭不常用车姚文彬 等:关联路网拓扑特性的车辆出行行为画像分析研究5第2期辆、办事车辆构成,这类车辆的特征是出行天数少,被检测频次少,但是均强于第一、二类车辆;第四类车辆为通勤车辆,这类车辆的特征为主要在早晚高峰通行,且几乎每天都出行,出行规律性强;第五类车辆主要由网约车、出租车、公司商务车辆构成,这类车辆的特征是几乎每天都出行,且出行强度很大。五类车辆的数量分别是1 558 287、430 840、193 826、202 701、44 661,需要说明的是这五类车辆的数量是
29、一周工作日车牌识别数据所包含的总车辆数。3交叉口画像分析交叉口画像分析主要可以分为三步:第一,分析交叉口的拓扑重要性;第二,分析交叉口在实际路网中承担的交通量,进而衡量其实际重要性;第三,结合第一步和第二步得到的拓扑重要性及实际重要性对交叉口进行画像。3.1 拓扑重要性分析拓扑重要性主要是衡量交叉口从整个路网拓扑的角度来看,对路网承担运输作用的大小。结点(交叉口)重要性度量在复杂网络中是一个十分重要的模块,因此许多指标和方法被提出用来进行结点重要性分析,最为经典的如度中心性、介数中心性、Hyperlink-Induced Topic Search(HITS)算法、PageRank算法、K壳分解
30、等26。交叉口在路网中所需承担的交通量大小与多个因素有关,比如所在区域的用地性质、交叉口的拓扑性质等,在本节我们主要从拓扑的角度来度量结点的重要性,拓扑重要性没有考虑周边用地性质等因素,仅仅从网络的角度考虑了交叉口对网络的重要性。将拓扑重要性和其他因素分离单独分析可以使得对交叉口的分析和刻画更为全面,比如可以知道拓扑上重要实际不重要的交叉口,这类交叉口可能是由于设计建造等原因,未发挥出其对于网络运输的重要作用。对于交通网络而言,介数中心性27是一个相对合理的重要性度量指标,因为介数中心性通过衡量某个结点所占最短路径的比例来度量该结点的重要性,而在交通网络中,个体出行往往遵循最短路的出行准则。介
31、数越大的结点意味着扮演越重要的角色,当介数大的结点失去功能时,将会对路网的运输功能产生巨大影响。使用介数中心性对交叉口重要性进行分析,重要性排名前20的交叉口如图5所示。归一化后交叉口重要性分布如图6所示,重要性排名前5的交叉口依次是市心北路建设四路交叉口、金一路建设四路交叉口、博奥路建设一路交叉口、市心北路建设一路交叉口、市心北路建设二路交叉口。从图5可以发现市心北路沿线交叉口均为拓扑上十分重要的交叉口。图5 拓扑重要性排名前20的交叉口分布Fig.5 Distribution of top 20 intersections based ontopological importance图6
32、拓扑重要性分布直方图Fig.6 Histogram of topological importance distribution6交通运输工程与信息学报第21卷3.2 实际重要性分析用交通量大小来衡量交叉口在实际路网中所承担的作用。此外,由于我们更看重早晚高峰时期的交叉口的作用,因此分别统计早晚高峰时期和平峰时期的交通量大小,并以一定的权重加权。统计得到高峰时期交叉口i的平均电警总交通量为 Qpi,平峰时期交叉口 i的平均电警总交通量为Qni,通过公式4计算得到交叉口i的平均电警加权总交通量为Qwi:Qwi=Qpi+(1-)Qni(4)式中:为高峰和平峰时期的交通量的权重系数,该系数反映的是我
33、们对高峰时期和平峰时期的交叉口发挥交通运输作用的看重程度,当设置为0时,则意味着完全忽视高峰时期的流量,而仅仅考虑平峰时期交叉口承担的运输作用大小,相应地,设置为1时,则意味着只考虑高峰时期交叉口承担的运输作用。一般而言,高峰时期城市的交通量较大,可能会诱发严重的拥堵,此时城市几乎达到或超过了城市容量,因此高峰期往往更被交通管理者关注,因此一般设置为0.51,具体设置可根据实际情况进行确定,在本研究中选取为0.812。得到归一化后的交叉口实际重要性分布直方图如图7所示。重要性排名前5的交叉口依次为通惠北路宏达路交叉口、市心中路山阴路交叉口、市心北路建设四路交叉口、市心北路建设二路交叉口、市心北
34、路皓月路交叉口。重要性排名前20的交叉口如图8所示,从图8可以发现市心北路沿线交叉口均为实际十分重要的交叉路口,这与之前拓扑重要性结果相当一致。图7 交叉口实际重要性分布直方图Fig.7 Histogram of intersection importance distribution图8 实际重要性排名前20的交叉口分布图Fig.8 Distribution of top 20 important intersections3.3聚类分析得到归一化的拓扑重要性和实际重要性之后,利用K-means算法对交叉口进行聚类分析,使用轮廓系数对聚类效果进行度量。首先通过聚类数量的敏感性分析得到最佳聚类
35、数如图9所示。图9 不同聚类数目下的聚类效果分析Fig.9 Clustering performance for different initialclustering numbers当聚类数目为 4 时,轮廓系数达到最大为0.489。选择初始聚类数目为4,进行K-means聚类分析,得到各个簇的描述性统计结果如表2所示。姚文彬 等:关联路网拓扑特性的车辆出行行为画像分析研究7第2期表2 各个簇的描述性统计结果Tab.2 Descriptive statistical results for each cluster簇第0个第1个第2个第3个簇样本数量511035126簇均值拓扑重要性0.18
36、00.6770.5080.080实际重要性0.3740.6440.1970.104第0个簇中的交叉口为实际上中等重要但是拓扑上并不重要的交叉口,第1个簇中的交叉口为拓扑上和实际上都非常重要的交叉口,第2个簇中的交叉口为拓扑上较重要但是实际上并不重要的交叉口,第3个簇中的交叉口为实际上和拓扑上都不重要的交叉口。其中管控需要重点关注的交叉口是第1个簇中的交叉口,这类交叉口承担的通行交通量大,且其在路网中扮演着关键角色,对这类交叉口施加管控措施将起到更明显的效果。第0个簇中的交叉口承担的通行交通量也较大,但是其网络的介数中心性较低,这说明这些交叉口较少比例位于起讫点的最短路上,因此这些结点的可替代性
37、较强。各个簇的交叉口分布如图10所示,其中第0图10 各个簇的交叉口分布示意图Fig.10 Intersection distribution of each cluster个簇中的交叉口用红色圆点表示,该簇交叉口主要分布在金鸡路和市心南路萧绍路通惠路南秀路包围的区域中。第1个簇中的交叉口用绿色圆点表示,该簇交叉口主要分布在市心北路、市心中路,可见萧山区管控重点为市心北路及市心中路。第2个簇中的交叉口用黑色圆点表示,该簇交叉口主要分布在博奥路、金一路、市心中路南段。第3个簇中的交叉口用黄色圆点表示,该簇交叉口主要分布在研究区域的西北面。4时空出行特性挖掘车辆画像和交叉口画像分别被成功挖掘,在此
38、基础上对出行模式进行更深入的分析。我们将车辆画像结果标记为0、1、2、3、4,按照序号从小到大分别代表:主要由家庭不常用车辆、办事车辆构成的车辆库(V0),通勤车辆库(V1),主要由网约车、出租车、公司商务车辆构成的车辆库(V2),临时办事车辆(V3),频繁过境车辆(V4)。交叉口画像结果标记为0、1、2、3,按照序号从小到大分别代表:实际上中等重要但是拓扑上并不重要的交叉口库(Inter0),拓扑上和实际上都非常重要的交叉口(Inter1),拓扑上较重要但是实际上并不重要的交叉口库(Inter2),实际上和拓扑上都不重要的交叉口库(Inter3)。构建各类型交叉口各类型车辆出行行为矩阵,矩阵
39、下标为车辆画像标记,交叉口画像标记,因此为54的矩阵。通过分析不同的车辆画像-交叉口画像-出行行为矩阵可以得知不同类型交叉口对整个路网的各类型车辆的交通压力分担作用。4.1各类型交叉口各类型车辆小时过车频次分析(车辆画像-交叉口画像-过车频次矩阵)对于车辆画像-交叉口画像-过车频次矩阵,矩阵的元素(i,j)为Vi车辆类别在Interj类别交叉口各个小时被检测到的总频次,以及经过该类别交叉口平均每个交叉口的过车频次(平均频次)。车辆画像-交叉口画像-过车频次矩阵Mvif如下所示:Mvif=f(0,0)f(0,3)f(i,j)f(4,0)f(4,3)(5)式中:f(i,j)为Vi类别车辆在Inte
40、r 3类别交叉口的小时被检测总频次及平均过车频次序列,f(i,j)=fallij0,fallijt,fallij23,favgij0,favgijt,favgij23,ftall是t:00 t+1:00时间段的被检测总频次,ftavg是t:00 t+1:00时间段的8交通运输工程与信息学报第21卷平均被检测频次。以车辆类别为基点将车辆画像-交叉口画像-过车频次矩阵可视化,得到车辆画像-交叉口画像-过车频次矩阵如图11所示。图11(a)5张图分别代表5类不同类别车辆经过不同类别交叉口时的小时被检测总频次,图11(b)5张图分别代表5类不同类别车辆经过不同类别交叉口时的小时被检测平均频次。(a)总
41、过车频次折线图(b)平均过车频次折线图图11 车辆画像-交叉口画像-过车频次矩阵Fig.11 Visualization of Mvif由图11可知,V1类别车辆的早晚高峰通勤现象最为明显,V2和V4类别车辆也有明显的早晚高峰出行现象,而V0和V3早晚高峰出行现象则不明显。因此对于V1,V2,V4类别车辆,早晚高峰时段的管控措施可能会更加有效,而对V0和V3类别车辆,白天的管控措施可能将更加有效。对于 V0V3类别车辆而言,各类别交叉口分担的小时车辆绝对数均值从大到小排序为Inter0Inter3Inter1Inter2,具体数值详见附表1,各类别交叉口分担的车辆的小时平均频次从大到小排序为I
42、nter1Inter0Inter2Inter3,具体数值详见附表2。对于V4类别车辆而言,平均经过每个Inter0和Inter2交叉口的车辆数差不多,具体数值详见附表2。4.2 各类型交叉口各类型车辆小时过车频次比例分析(车辆画像-交叉口画像-过车占比矩阵)在上一节我们分析了各类型车辆经过各类型交叉口的过车频次,本节主要分析各类型车辆经过各类型交叉口的比例情况。姚文彬 等:关联路网拓扑特性的车辆出行行为画像分析研究9第2期首先计算经过各类型交叉口的车辆比例,然后以车辆为基点,比较同一类车辆经过各类型交叉口的比例差异,即构建车辆画像-交叉口画像-过车占比矩阵,矩阵的元素(i,j)为Vi车辆类别在
43、Interj类别交叉口各个小时被检测到的车辆占比。车辆画像-交叉口画像-过车占比矩阵Mvir如公式6所示:Mvir=r(0,0)r(0,3)r(i,j)r(4,0)r(4,3)(6)式中:r(i,j)为Vi类别车辆在Interj类别交叉口的小时被检测频次比例,r(i,j)=rij0,rijt,rij23,rijt是t:00 t+1:00时间段的被检测频次比例。将车辆画像-交叉口画像-过车占比矩阵可视化,得到车辆画像-交叉口画像-过车占比矩阵如图12所示。各类别车辆在各类别交叉口的占比差异不大,都在5%以内。以V1(通勤车辆库)为例,高峰时期车辆在Inter0类别交叉口的比例略高于其他类别交叉口
44、,约高2%。图12 车辆画像-交叉口画像-过车占比矩阵Fig.12 Visualization of Mvir10交通运输工程与信息学报第21卷4.3基于各类型车辆占比的交叉口分类虽然根据第4.2节的结果显示,各类型交叉口的各类型车辆占比差异不大,但是这并不能说明车辆在每个交叉口的占比都是均匀的,本节就将分析不同类型车辆在不同交叉口的出行占比差异。根据之前的研究显示,杭州市早晚高峰时间段分别为 6:3010:00 和 17:0019:30,由于交通管控更关注早晚高峰的车辆出行情况11,因此计算早晚高峰每一个交叉口的各个类型车辆占比。以早晚高峰时期各个类型车辆占比为特征,进行聚类分析。特征向量为
45、(r01,r11,r21,r31,r41),其中ri1为类别 Vi的车辆在早晚高峰时段的占比。通过初始聚类数敏感性分析得到最佳聚类个数是 2个,设置初始聚类数目为 2对交叉口进行聚类分析,得到聚类结果的描述性统计如表 3 所示。对于V0,V1,V3,两个簇的占比差值小于0.02,对于V4,V2,两个簇的占比差值均大于等于 0.035,可见,V4,V2类别车辆在各个交叉口的占比分布差异较 V0,V1,V3类别车辆大,其中在不同交叉口占比分布差异最大的是V2,即由网约车、出租车、公司商务车辆组成的车辆库,分布差异最小的是 V1,即通勤车辆库。表3 聚类结果描述性统计Tab.3 Descriptiv
46、e statistics of clustering results簇第0个第1个数 量10991簇均值r010.2230.207r110.2590.250r210.1670.227r310.1660.149r410.1970.162虽然从路网所有车辆的角度看,通勤车辆在不同交叉口的占比差异是最小的,但是这并不能说明在不同的交叉口施加管控措施会对通勤车辆起到相似的管控效果。单独取出通勤车辆在早晚高峰的交叉口出行频次占比作为特征进行kmeans聚类,聚成两类,第一类中平均每个交叉口通勤车占比为23.1%,第二类中平均每个交叉口通勤车占比为28.0%,两类交叉口分布如图13所示,其中红色圆点和绿色
47、圆点分别表示第一和第二类交叉口的分布情况。可见,通勤车辆在不同交叉口的占比也有一定的差异,若想针对通勤车进行管控,则可考虑选择通勤车出行占比较大的交叉口。图13 基于通勤车占比的聚类结果分布图Fig.13 Distribution of clustering results based on proportionof commuting vehicles5结 论本文基于杭州市萧山区车牌识别数据和路网拓扑数据,首先对两种数据进行数据融合,然后基于融合数据对出行车辆和交叉口进行了画像分析。在此基础上,结合车辆出行行为和路网拓扑信息深入挖掘出行车辆的出行模式,构建车辆画像-交叉口画像-过车频次矩阵、
48、车辆画像-交叉口画像-过车占比矩阵,进而对车辆出行时空特性进行深入挖掘,为交通管控措施的制定提供支持。所得结论总结如下:(1)城市中的出行车辆可以被划分为五大类,包括临时办事车辆,频繁过境车辆,家庭不常用车辆、办事车辆,通勤车辆,网约车、出租车、公司商务车辆。以杭州市萧山区为例,五类车辆的数量 分 别 是 1 558 287、430 840、193 826、202 701、44 661。(2)路网交叉口可以被划分为四类:第一类为实际上中等重要但是拓扑上并不重要的交叉口;第二类为拓扑上和实际上都非常重要的交叉口;第三类为拓扑上较重要但是实际上并不重要的交叉口;第四类为实际上和拓扑上都不重要的交叉
49、口。姚文彬 等:关联路网拓扑特性的车辆出行行为画像分析研究11第2期(3)通勤车辆的早晚高峰通勤现象最为明显,网约出租车、公司商务车辆和频繁过境车辆也有明显的早晚高峰出行现象,而家庭不常用车辆、办事车辆和临时办事车辆早晚高峰出行现象则不明显。因此对于通勤车辆、网约出租车辆、办事车辆和频繁过境车辆,早晚高峰时段的管控措施可能会起到较好的效果,而对家庭不常用车辆、办事车辆和临时办事车辆,白天的管控措施可能将更为有效。本文对各类别车辆在各类别交叉口的过车频次及过车频次比例进行了分析,根据分析结果可以对政策的制定提供支持,比如,在制定针对通勤车辆的管控措施时,可考虑选择通勤车出行占比较大的交叉口。本文
50、的分析主要借助车牌识别数据和路网拓扑数据展开,后续将收集更多来源的数据,比如手机信令数据、共享单车数据、公交IC卡数据等,构建基于多源时空大数据的全方式出行模式分析,使得分析更为全面。附 录附表1 各类别交叉口各类别车辆的小时过车频次Tab.A1 Hourly passing frequency of vehicles for eachcategory of intersectionsV0V1V2V3V4Inter014 51534 27828 23710 9784 416Inter15 11911 0689 8984 2161 852Inter24 93111 7219 5334 6102