1、中国科技信息 2024 年第 2 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Jan.2024-102-三星推荐近年来,由于城市发展的需要,对人口统计工作提出了更高的要求。基层政府统计部门准确地掌握辖区内“有多少人”一直是一大难题。对辖区内常住人口,流动人口的数量和分别的占比更是很难摸清。目前,各市区高度重视人口调控工作,对人口数据的掌握也不再满足于之前粗粒度的情况,而是要更高的精度,更灵活的划分统计区域。各个基层政府部门按照“底数清,情况明”要求做好人口监测工作。通过对常住人口和流动人口的统计分析,可以掌握不同人群的生活特征,社会活动,有助于对人口流动
2、趋势做出判断,进而为人口政策、城市规划、公共资源配置等方面提供决策依据。国内外学者对人口属性的获取方法这一问题进行了大量的研究。崔凌云将人口流动的研究数据分为七类,分别为人口普查数据,动态监测调查数据、年鉴数据、高校及科研机构的微观调查数据、课题组实地调研数据、人口迁徙大数据、部分其他数据。人口普查是一项庞大的社会系统工程,调查的数据对象具有全面、覆盖面广、权威性高的优点。但往往需要花费大量的人力、物力和财力,并且两次普查之间间隔周期长,难以获取基年同期数据。其次人口普查数据弱时效性以及低空间分辨率的特点,进一步加大了对人口分布精确描述的难度。统计年鉴数据统计周期相对较短,是城市规划中计算常住
3、人口总数最常用的数据来源之一,获取容易,且为官方数据。但是该数据通常以行政区为单位,且统计数据所采用的标准不同,数据的准确性时常受到质疑。问卷调查数据能够刻画目标区域人口分布情况,但样本量会很大程度上的影响精度,且调查成本较高。高校及科研机构的微观调查数据开放程度不高,难以获取。并且因为统计口径的问题,人口普查、统计年鉴等官方数据也并不一致。随着信息通信技术的发展,移动手机普及率达到 119.2 部/百人,移动设备通信过程中产生的手机信令数据被应用到人口监测等领域,手机信令数据的研究越来越受到研究者的推崇。与调查数据相比,手机记录的轨迹数据具有采集周期短、样本量大、时效性强、空间和时间覆盖范围
4、广的优点。该数据能及时且精细地描述人口分布格局和流动模式,很好地体现流入地和流出地的一一对应与互动关系。因此,这些数据源为研究人员分析人口属性提供了新的视角和契机。移动通信信令数据不受居民主观意向的影响,是被动采集的,作为可靠的数据源,结合当下发展迅猛的大数据和人工智能技术,能有效地进行人口分布估算及特征研究。目前手机信令数据在人口分布、空间移动,出行行为特征等领域得到广泛应用。李梁基于手机信令数据遥感与倾斜摄影技术相结合对城市及行业曲线开放度创新度生态度互交度持续度可替代度影响力可实现度行业关联度真实度基于手机信令数据的数据清洗挖掘与常住人口分析韩珍珍 王甜甜 王 程 成 彬韩珍珍1,2 王
5、甜甜1,2 王 程1,2 成 彬1,21.河北省科学院应用数学研究所2.河北信息安全认证技术创新中心韩珍珍(1990),女,河北石家庄,硕士,工程师,研究方向:机器学习,大数据。基金项目:河北省科学院高层次人才培养项目(2023G14)。-103-CHINA SCIENCE AND TECHNOLOGY INFORMATION Jan.2024中国科技信息 2024 年第 2 期三星推荐其远郊人口分布规律进行分析。李明晓等人基于信令的连续轨迹数据,对上海的人口分布特征及时空移动过程实现了精细尺度的分析。黄伟等人基于手机信令数据结合问卷调查数据,利用朴素贝叶斯方法,识别出居民的实际居住地。手机信
6、令数据移动电话终端与附近基站进行信息交换产生了手机信令数据。手机用户在基站之间的信息交换可以得到用户的位置信息。平均每个用户每天会发送 10 余万条信号,这些时间上连续的手机信令数据结合空间地理信息可以推算出一个手机用户轨迹。手机信令数据包含用户与基站信息交换时产生的数据,比如手机识别号,基站编码,小区编码,时间戳,信令类型等。另外还包括基站信息,主要是基站的经纬度,所属的网格编码信息。通过此数据可以推算出数据的空间信息。相比于传统数据、GPS 数据以及其他数据,手机信令数据具有以下特点:(1)在实际的数据记录过程中,没有任何个人属性信息,不涉及个人隐私,是一种匿名数据;(2)基站覆盖范围广泛
7、,用户持有率高,数据更新记录周期较短,数据量大,更好的体现用户时空轨迹;(3)具有动态的实时性和连续性,数据稳定可靠,时间单位精确到秒可以细粒度地记录用户每一时刻的位置信息,能够准确反映手机用户在不同时间的空间位置,进而能够定量描述区域内用户轨迹;(4)数据采集过程为非自愿数据,用户被动采集,不受用户主观意念的影响。手机信令数据预处理和停留点识别手机信令数据预处理在手机信令数据记录过程中,冗余的数据会增加无效的重复数据,设备故障等会引起数据缺失、另外还存在乒乓数据和数据漂移等问题。为了保证数据分析的准确性,首先要对原始的手机信令数据进行预处理。(1)数据清洗 在进行数据分析前,首先要对原始的信
8、令数据进行清洗,去除空值、错误值等噪声数据。数据清洗的过程为删除某个字段为空的记录;删除两条或者几条重复记录;删除用户字段异常的数据;检查其他错误数据。(2)数据修补由于信令采集设备和信令系统的原因,在数据记录的时候可能会丢失某些字段,这称为缺省数据。这种丢失的字段会影响数据分析的准确度,因此一般选择将此条缺省的记录删除。(3)乒乓切换数据在通信过程中,为了保证通信的稳定性与连续性,需要将通信链路从信号较弱的基站切换至信号较强的基站。从而在这个过程中产生乒乓切换数据,具体表现为用户的信令记录位置短时间内在两个或多个的基站之间来回多次切换。例如当手机连接的基站为 A,若此时基站 B 的信号强度升
9、高,手机会将链路从基站 A 切换至基站 B,若基站 C 的信号强度大于基站 B,手机会将链路从基站 B 切换至基站 C。同样的,若基站 A 的强度变高,手机也有可能将链路切换至基站 A。所以在本研究中主要存在两种切换形式,为 A-B-A 或 A-B-C-A。乒乓数据的特点为切换的频率较快,时间间隔较短,不能真实反映用户的实际位置,会干扰到用户出行模式的研究,影响研究结果的精确性与准确性。(4)漂移数据的清洗漂移数据表现在手机信令记录中的特点为短时间内发生较大的位移。即手机信号在距离较远的两个基站之间发生了切换,用户的移动速度不符合实际,超过给定速度阈值和移动距离。这种错误的数据不能真实反映用户
10、的轨迹,会造成研究结果的不准确,因此需要对此类数据进行删除。停留点提取居民的每一次出行组成的出行链都是一组有序的停留点。分析居民的停留点不仅有助于掌握居民的活动空间,而且对停留点聚集程度的分析,对整个城市的商业发展以及城市交通规划有重要意义。根据大量的手机信令数据组成的轨迹可以识别出有效的居民出行停留点。手机用户运动轨迹的示意图如图 1 所示。当用户不固定在某一地方移动时,其轨迹点间隔较远,并且具有一定的方向;当用户停留时,轨迹点间距离较近,轨迹点之间方向无规则。一般,将手机用户停留点聚集的区域称为停留区域。停留区域中包含的信息有最早停留时间,最晚停留时间和停留位置。在停留区域中,轨迹点具有一
11、定的特征。一方面在停留区域的轨迹点的运行速度相对于正常行进中的轨迹点会比较低,轨迹点之间的距离相对比较小。另一方面,在停留区域的轨迹点的比较集中,轨迹点的密度相对大一些。轨迹点与点之间的时间距离和空间距离都比较接近,轨迹点聚合在一起,本文采用基于距离特征的聚类算法进行停留点的识别。由于在停留区域内,任意两轨迹点的空间距离与时间距离均较为接近,因此使用聚类算法的停留点识别算法进行停留点的提取。考虑到手机信令数据的特点,数据量大,离群点异常点多,因此采用基于 K-中值的聚类算法获取手机用户的停留点的信息。中值算法受到离群点的干扰程度相对较小,算法的抗干扰能力强。该算法从时间维度和空间维度提取停留点
12、。算法过程如下:初始化停留点半径设置为 D、停留点中的最小数量为 N 以及停留点最短时间为 MinT。计算N 个轨迹点之间的时间差,如果最大时间差小于 MinT,则计算 N 个轨迹之间的距离,若距离最大值小于停留点半径D,图 1 手机用户运动轨迹示意图中国科技信息 2024 年第 2 期CHINA SCIENCE AND TECHNOLOGY INFORMATION Jan.2024-104-三星推荐则将连续 N 个轨迹点数据视为一个聚类簇。计算簇中心与簇外下一个轨迹点的距离,若此距离小于聚类半径,则将该点归入簇中,否则结束循环。K-中值聚类算法提取算法的流程图如图 2 所示。常住人口分析规则
13、设计 判定规则设计 传统的常住人口的定义指的是在某地居住 6 个月以上的人口。但是目前社会发展速度快,交通便利等原因,传统的常住人口定义方法已经不能适应现在的政府人口调控和实时监测需求。本节结合现在社会发展情况的需要,基于手机信令数据设计一种新的“常住人口”监测口径。人口属性的识别主要是基于活动规律的特征进行判别。流动人员一般为商务出差,旅游等人员,该类别人员的出行不具有规律性。常住人员相对于流动人员具有固定的出行周期和居住所。获得用户停留点后,通过计算用户在某个时段的留点位置,制定一定的规则筛选出满足不同停留条件的用户。最后累计用户在该区域一月内累计出现的天数 T。该规则可根据不同地区用户生
14、活习惯的不同定制,规定各参数的参考值如表 1 所示。表 1 常住人口规则参数表项目常住人群流动人群统计日期周一至周日周一至周五(工作日)统计时段工作日 22:00 第二天 6:00周末 0:0022:008:0018:00每个月累计天数=T(=16)常住人口判定假设常住人口手机用户大概率出现在居住地位置的时段为每天 20:00 次日 6:00。本文以工作日 20:00 次日 6:00,周六日的 0:0022:00 为考察时段,分别计算手机号码停留点的位置,选择发生次数最多的小区站点作为手机持有者当天的住所。以一个月 30 天数据周期为例,统计用户在固定的时段满足条件的天数,然后将阈值分别设置为
15、 1020 天这 10 种不同的情况,依次统计居住常住人口的数量。通过观测不同阈值下常住人口的数据,依据实际情况选定最终阈值,将居住时长超过一定天数的人口定义为常住人口。常住人口总数推算由一家运营商公司信令数据推算出常住人口数量后,首先根据运营商市场份额占比推算出该区域的基于信令方法获得的常住人口数量。由于信令信号采集不全,设备丢包等原因,还需要对该结果进行扩样。如何选定放样基准是很关键的问题。一般可根据实际需要,选择官方数据如人口普查,统计年鉴、公安局数据等进行扩样。扩样系数确定以后,人口分布或者人口密度等数据统计不再受到传统行政区域的限制,可以根据此方法获得任何区域的人口数据。此方法的应用
16、还会打破时间的限制,对人口的基本情况的可以推算出任意一年的数据,不再局限于传统的人口普查,统计年鉴等方法。结语手机信令数据采集方便,样本量大,时效性强,通过手机信令数据可以全面动态的掌握居民的人口属性。本文从手机信令数据的清洗,停留点的识别,借助手机信令的大数据源,从常住人口统计角度出发,依据信令数据识别居住地的方法和常住人口定义,研究了基于手机信令数据清洗方法和常住人口测算方法,本研究能够为外来人口管理,完善服务,人口政策等提供决策支持。基于手机信令的常住人口识别除了技术上还有一些机制方面的障碍值得关注。全量的大数据和智能的算法模型能够得到更为满意的结果。但是在利用手机信令大数据时,全量的数据获取有一些难度,需要政企之间打破数据壁垒。图 2 k-中值聚类算法流程图