1、第 48 卷第 1 期2023 年 2 月Vol.48 No.1Feb.2023测绘地理信息Journal of Geomatics一种基于多源数据验证的手机信令数据分析结果不确定性研究方法韩钰1 史文中2 涂伟31 武汉大学遥感信息工程学院,湖北 武汉,4300792 香港理工大学智慧城市研究院,香港,9990773 深圳大学建筑与城市规划学院城市空间信息工程系,广东 深圳,518061An Uncertainty Research Method of Mobile Phone Signaling Data Analysis Results Validated by Multi-source
2、 DataHANYu1 SHIWenzhong2 TUWei31 School of Remote Sensing and Information Engineering,Wuhan University,Wuhan 430079,China2 Smart Cities Research Institute,Hongkong Polytechnic University,Hong Kong 999077,China3 Department of Urban Spatial Information Engineering,School of Architecture and Urban Plan
3、ning,Shenzhen University,Shenzhen 518061,China摘要:手机信令数据被广泛应用于城市人群的动态特征分析,但其分析结果的不确定性尚不明确。因此,提出一种多源数据验证的不确定性分析方法。将从手机信令数据中提取的分布特征与多源数据进行对比,用人群代表性、转移覆盖率、聚集一致性 3个指标评价分析结果的不确定性。并基于深圳市手机信令数据,选取了城市感知中人群分布、区域流动、热点识别 3个典型城市动态特征,用人口网格分布、营运车辆 GPS 数据、高德兴趣点(point of interest,POI)等数据集对手机信令数据的分析结果进行验证,得出该区域手机信令数据
4、分析结果的不确定性特征。关键词:手机信令数据;不确定性;多源数据;城市感知中图分类号:P208文献标志码:AAbstract:Mobile phone signaling data(MPD)are widely used to analyze the dynamic characteristics of urban population.However,the uncertainty of the analysis results is not clear.Therefore,we propose an uncertainty analysis method verified by multi
5、-source data.We compare the distribution characteristics extracted from the mobile phone signaling data with multi-source data,and evaluate the uncertainty of the analysis results by representativeness of population,coverage rate of transfer and consistency of aggregation.Based on the mobile phone s
6、ignaling data in Shenzhen,we select three typical urban dynamic characteristics in urban sensing(population distribution,regional flow and hot spot identification),and verify the uncertainty of the analysis results obtained by mobile phone signaling data with data sets including distribution data of
7、 population grid,GPS data of operating vehicles,and point of interest(POI)data from Amap to get the uncertainty characteristics of analysis results obtained by the mobile phone signaling data in the study area.Key words:mobile phone signaling data;uncertainty;multi-source data;urban sensing当前智慧城市发展进
8、程不断加快,空间大数据使实时精细的时空感知成为可能1。空间大数据的不确定性对地理分析结果至关重要,对其不确定性的客观认识及针对性改善有利于提升空间大数据分析结果的可靠性2。手机信令数据覆盖范围广、样本数据量大,已被广泛用于城市人口调查、空间格局感知等领域3-5。但其定位原理存在固有缺陷,导致手机信令数据空间分辨率较低且存在区域差异。同时,通信运营商市场份额不均匀导致手机信令数据的人群覆盖不均匀,给基于手机信令数据的空间分析带来了较大不确定性6。不确定性本身无法避免,但可以通过认知分析中存在的不确定性,采取相应对策减轻负面影响,使分析结果更加可靠。由于缺乏真实地面数据集的验证,手机信令数DOI:
9、10.14188/j.2095-6045.2021217文章编号:2095-6045(2023)01-0044-05引用格式:韩钰,史文中,涂伟.一种基于多源数据验证的手机信令数据分析结果不确定性研究方法 J.测绘地理信息,2023,48(1):44-48(HAN Yu,SHI Wenzhong,TU Wei.An Uncertainty Research Method of Mobile Phone Signaling Data Analysis Results Validated by Multi-source Data J.Journal of Geomatics,2023,48(1):
10、44-48)基金项目:国家重点研发计划(2019YFB2103102);国家自然科学基金与欧洲城市化联合研究计划合作研究项目(71961137003)。第 48 卷第 1 期韩钰等:一种基于多源数据验证的手机信令数据分析结果不确定性研究方法据不确定性评估多从应用效果出发7,分微观和宏观两个角度。在微观层面,针对个体流动探究手机数据集特征对人类移动性指标的影响8。在宏观层面,多将从手机信令数据中提取的人群流动特征与官方统计的旅行日志进行对比9。少量研究通过外置 GPS设备采集定位数据,以此为基准测量手机信令数据的定位偏差10,但该方法的样本区域远小于手机信令数据的覆盖范围,缺乏推广应用的潜力。本
11、文将一组由原始手机信令数据预先编译生成的起讫点(origin-destination,OD)数据应用于分析城市人口分布、区域间流动及识别城市热点,并结合多源数据对分析结果进行验证,研究手机信令数据在城市空间分析中的不确定性,以了解手机信令数据在城市感知领域的优势和局限性,提高手机信令数据分析的可靠性。1 研究区域和数据源本文研究区域为广东省深圳市。深圳市近年来发展迅速,城市现代化程度很高,截至 2018年末,常住人口有 1 302万人,人口密度达 6 484人/km2,位居全国前列。实验数据是 2019年某工作日的手机信令 OD数据,数据汇集网格大小为 250 m,时间窗口为 1 h。研究区域
12、及数据分布密度如图 1所示。实验及验证数据集详情如表 1所示。2 多源数据验证的不确定性分析方法为了分析手机信令数据在城市感知应用中的不确定性,本文以人口网格数据、营运车辆 GPS 数据及高德兴趣点(point of interest,POI)数据为参考数据集,首先分别提取实验数据集和验证数据集中对应的分析特征,然后对提取出的分析特征进行对比验证,定义人群代表性、转移覆盖率、聚集一致性 3个指标分别对分布、转移、聚集 3个分析特征进行评价,得出不确定性分析结果,提出改善方法。2.1分析特征提取1)时空分布特征。以往研究使用手机信令数据估计城市人口分布时,通常假设手机通信活跃量与人口分布成正比,
13、但由于现实中通信活跃量有时空差异,用手机数据分布推断人口分布存在一定偏差。本文提取手机信令数据的时空分布特征,以探究该偏差的具体表现。验证数据集为 WorldPop 人口网格数据11,网格大小为 100 m,通过重采样将数据匹配到与手机数据相同的 250 m网格中。2)区域转移矩阵。手机 OD 数据集可被用于分析城市区域间的人群流动,对应的分析特征为转移矩阵。首先将 OD 数据集中的起点和终点对应到深圳市的 10个行政区中,删除起点和终点在相同区的记录;然后构建10 10的转移矩阵,矩阵值是以纵轴为起点,横轴为终点的记录数。该矩阵按照同一起点进行标准化。用于验证的营运车辆 GPS 数据包括出租
14、车、公交车、货车等营运车辆定时上传的GPS 数据,经过起点-终点提取后,采用与实验数据相同的方法提取区域转移矩阵。3)聚集热点。手机信令数据可被用于识别城市职住空间分布,一般用手机信令数据密度分布进行空间聚类与密度分级,识别居住和就业功能区12。分别对上班时段(07:0010:00)、下班时段(17:0020:00)OD数据集中的起点与终点进行具有噪声的基于密度的空间聚类(density-based spatial clustering of applications with noise,DBSCAN),提取聚类中心。验证数据集为高德 POI数据,提取 POI中类别为住宅和公司企业的数据,利
15、用 DBSCAN 对其进行聚类,并在ArcGIS中进行核密度分析,提取POI热点。2.2验证方法及指标1)人口分布。以往研究通常利用手机信令数据模拟城市人口分布,但很少将其与实际人口进行对比。本文选取 3个模型探究手机信令数据通信量与参考人口数据间的关系:P=V+(1)P=i=0kiVi(2)lgP=lgV+(3)式中,P为因变量,表示将参考人口数据重采样到实验网格后,每个网格包含的人口总量;V为自变量,表示每个网格内的通信总量,包含该网格内的起点图 1研究区域Fig.1The Study Area表 1实验数据及验证数据详情Tab.1Details of Experimental Data
16、and Validation Data数据名称手机信令数据WorldPop人口网格数据营运车辆 GPS数据高德 POI数据数据类型实验数据验证数据验证数据验证数据格式csvtiffcsvcsv时间节点2019年初2019年2018年底2019年样本数量4 816 903-2 133 6961 334 38845测绘地理信息2023 年 2 月和终点记录;、分别为自变量系数和常数项。手机数据时间窗口为 1 h,共 24个时间窗口,将每个小时的手机数据作为自变量,每个模型产生 24组参数。将全天的手机数据总量作为自变量,每个模型产生 1组参数。用 Spearman相关系数与均方根误差(root m
17、ean square error,RMSE)衡量模型的拟合程度。定义所有模拟中的最大值为人群代表性(representativeness of population,ROP),用于衡量手机数据最多能解释人口分布的程度:ROP=max fi(Vj),P (4)式中,fi代表第i个模型;Vj代表第j个手机数据集。2)区域转移。假设营运车辆出行占所有出行方式的比例相同,在不考虑出行方式的情况下,将手机数据和营运车辆 GPS数据得出的转移矩阵相减,分析差值矩阵的特征,并计算相关系数。转移覆盖率(coverage rate of transfer,COT)被用于衡量手机数据对不同区域人群转移的覆盖程度,
18、计算公式如下:COT=i=110(Mi,Ti)/10(5)式中,Mi、Ti分别表示以第i个区为起点的手机和营运车辆数据转移矩阵。3)聚集热点。将聚类得出的手机通勤热点和POI热点导入 ArcGIS,以 POI核密度分析结果作为底 图。聚 集 一 致 性(consistency of aggregation,COA)被用于衡量手机通勤热点与 POI热点之间的一致性,用落在相应 POI数据热点区域内的通勤热点个数占通勤热点总数的比例表示,计算公式如下:COA=COUNT(Hm Hp)/COUNT(Hm)(6)式中,Hm、Hp分别为由手机数据和 POI数据生成的热点。3 结果与分析3.1人口分布把每
19、个小时的手机信令数据分别代入式(1)式(3),将计算结果与参考人口数据进行比较,得出和 RMSE,见图 2(a)和图 2(b)。把全天手机信令数据代入 3 个模型,将计算结果与参考人口数据进行比较,得出 3个模型的和 RMSE,见图 2(c)。不同时段的模拟效果差异很大,在 01:0006:00间,模型1和模型 3的值均低于 0.5,模型 2的值在此期间出现最低值,这段时间人们使用手机较少。3种模型的在 07:0010:00 间达到峰值,这期间人们的通勤上班活动较为频繁。由于手机数据量与实际人口数量间存在较大差异,故本文只比较 RMSE 的相对大小。RMSE 随时间的变化趋势与随时间的变化趋势
20、相反,白天时段的误差低于凌晨时段的误差。综合对比,拟合效果最好的为使用全天数据的模型 3,预测的人口分布与参考数据的相关系数为0.76,即 ROP=0.76,手机数据最多可以解释 76%的人口分布。但该预测结果与参考数据仍存在一定偏差,两者对应关系见图 3。在y=x上方的部分为高估,下方的部分为低估。在人口密度较小的网格中低估更明显,在人口密度较大的网格中更易出现高估,且形状相对收敛,说明人口密度大时预测结果更准确。这是因为在高密度人口聚集区,手机基站分布更密集且人口流动较多,手机通信活动频繁,而在人口稀疏地区,基站少、手机通信不频繁。在对手机数据进行预处理时,常设置阈值剔除不活跃的用户,导致
21、在低密度区域的预测不准确,结果偏低。3.2区域转移手机信令数据和营运车辆数据的行程距离百分位数分布见图 4(a)。手机数据的行程距离总体长于营运车辆,计算得出两者相关系数=1,变化趋势一致,且对应百分位数的比值稳定在 1.72间,可认为营运车辆出行在所有出行中占固定比例。基于此假设对手机数据和营运车辆数据生成的转移矩阵进行比较。图 5(a)和图 5(b)分别为由手机数据和营运车辆 GPS数据产生的转移矩阵,颜色越深表示从纵轴起点到横轴终点的出行数量越多。图 5(c)展示了两个转移矩阵的差值,大部分差值都在 10%以下。图 23种模型的拟合效果Fig.2Fitting Effects of Th
22、ree Models46第 48 卷第 1 期韩钰等:一种基于多源数据验证的手机信令数据分析结果不确定性研究方法计算得出手机数据的转移覆盖率为 0.88,即手机数据记录了 88%的区域转移。由图 4(b)可知,最低值出现在以大鹏新区、坪山区为起点的矩阵中,这说明在相对偏远的地区,利用手机信令数据预测的出行不准确。图 5(c)中以大鹏新区和坪山区为起点的行中网格颜色相对更深,说明此处手机数据和营运车辆数据的分析结果差异较大,同样印证了上述判断。3.3聚集热点手机数据通勤热点、POI 聚类热点与核密度分析结果见图 6。手机数据与 POI数据的热点一致性见表 2,整体聚集一致性 COA=0.93,表
23、明手机通勤热点可以在很大程度上代表职住空间的聚集。表 2中上班起点、下班终点与住宅热点的一致性高于上班终点、下班起点与公司企业热点的一致性,说明手机数据对住宅聚集地的识别比对工作聚集地的识别更准确。但也存在部分手机通勤热点在 POI热点范围之外的情况,如图 6(b)红圈处,超出了 POI热点范围。对比该位置实际地理环境发现,图 6(e)为华为深圳园区,POI密度不大但员工较多,且该园区主要负责手机业务,通信频率高于其他公司企业,说明在用手机数据进行空间分析时要考虑特殊地点通信频率的影响。图 6(f)附近有学校聚集,早上为上学时间,故在用手机信令数据进行职住空间分析时,应注意用时段代表特定活动会
24、产生解释性偏差。3.4不确定性改善方法针对由人群覆盖不均匀导致的手机信令数据分析结果的不确定性,可以融合多个运营商数据,并结合人口普查数据中的年龄、性别等进行特征配准,提高人群覆盖率和分析结果的可靠性。手机信令数据缺乏语义信息是其在转移与聚集分析时出现不确定性的原因之一,可耦合 POI、社交媒体数据等其他多源数据,探究各时段分布及出行的时空特征,丰富手机数据的内涵,获得更为可靠的分析结果。4 结束语本文使用多源数据集分析手机信令数据在人口分布、区域转移、热点识别方面的不确定性。实验结图 5由两种数据得出的转移矩阵及差值矩阵Fig.5Transfer Matrix and Difference
25、Matrix图 4两种数据的行程距离百分位数和转移矩阵相关系数Fig.4Percentile of Travel Distance and Correlation Coefficients of Transfer Matrix图 3网格人口与手机数据预测人口Fig.3Population of the Grid Data and MPD47测绘地理信息2023 年 2 月果表明:手机通信量与人口分布之间更符合对数模型,可以解释城市 76%的人口分布;利用手机数据感知人口分布存在两极化现象,即在低密度区低估,高密度区高估;不考虑出行方式的情况下,手机数据可识别 88%的区域转移,在偏远地区识别不
26、准确;手机数据对城市热点识别的聚集一致性为 93%,手机数据更倾向于识别人群聚集,且与时段相关性强,容易受实际环境及人群活动影响;可采用不同运营商数据融合、人群特征配准及耦合多源数据等方法改善手机信令数据分析的不确定性。参考文献1Liu J Z,Li J,Li W F,et al.Rethinking Big Data:A Review on the Data Quality and Usage Issues J.ISPRS Journal of Photogrammetry and Remote Sensing,2016,115:134-1422Shi W Z,Zhang A S,Zhou
27、X L,et al.Challenges and Prospects of Uncertainties in Spatial Big Data AnalyticsJ.Annals of the American Association of Geographers,2018,108(6):1 513-1 5203曹劲舟,涂伟,李清泉,等.基于大规模手机定位数据的群体活动时空特征分析 J.地球信息科学学报,2017,19(4):467-4744Kang C G,Liu Y,Ma X J,et al.Towards Estimating Urban Population Distributions
28、 from Mobile Call DataJ.Journal of Urban Technology,2012,19(4):3-215赵莹,关可汗,赖丽娜.基于手机信令数据的长春市居民时空活动分析 J.测绘地理信息,2020,45(5):129-1326Landmark A D,Arnesen P,Sdersten C J,et al.Mobile Phone Data in Transportation Research:Methods for Benchmarking Against Other Data SourcesJ.Transportation,2021,48(5):2 883-
29、2 9057Mamei M,Bicocchi N,Lippi M,et al.Evaluating Origin-Destination Matrices Obtained from CDR Data J.Sensors(Basel,Switzerland),2019,19(20):44708Zhao Z Y,Shaw S L,Yin L,et al.The Effect of Temporal Sampling Intervals on Typical Human Mobility Indicators Obtained from Mobile Phone Location DataJ.In
30、ternational Journal of Geographical Information Science,2019,33(7):1 471-1 4959Do C X,Tsukai M,Fujiwara A.Data Quality Analysis of Interregional Travel Demand:Extracting Travel Patterns Using Matrix Decomposition J.Asian Transport Studies,2020,6:10001810 Zandbergen P A.Accuracy of iPhone Locations:A
31、 Comparison of Assisted GPS,WiFi and Cellular Positioning J.Transactions in GIS,2009,13:5-2511 Tatem A J.WorldPop,Open Data for Spatial Demography J.Scientific Data,2017,4:17000412 苗壮.基于手机信令数据的数据清洗挖掘与居民职住空间分析 D.成都:西南交通大学,2017 修回日期:20221107第一作者:韩钰,硕士生,主要方向为空间数据可靠性分析及质量控制。E-mail:hanyu_通讯作者:史文中,教授,主要从事
32、智慧城市、人工智能和遥感图像识别、空间数据智能分析和质量控制等方面的研究。E-mail:john.wz.shipolyu.edu.hk表 2手机数据与 POI 数据热点一致性Tab.2Hotspot Consistency of MPD Data and POI Data手机数据热点类型上班时段起点上班时段终点下班时段起点下班时段终点合计聚类个数2320141976与对应 POI热点重合个数2317121971一致性10.850.8610.93图 6手机通勤聚类热点与 POI聚类热点、核密度热点Fig.6Clustering Hotspots of MPD and POI,and Nuclear Density Hotspots of POI48