1、 70 TRAFFIC&TRANSPORTATION2023 年 9 月 第 39 卷第 5 期(总第 229 期)Sep.2023,Volume 39No.5(Serial No.229)收稿日期:2023-06-08基金项目:2021-2022 年度上海市促进产业高质量发展专项(人工智能专题)项目面向 MaaS 出行的核心算法集及典型场景应用示范 (2021-GZL-RGZN-01007)第一作者简介:沈 峰(1979-),男,汉族,上海人,博士,正高级工程师,主要研究方向:智能交通、数字孪生。沈 峰,张 璐,吉 静(上海电科智能系统股份有限公司,上海 200063)摘 要:对城市共享单车
2、的骑行影响因素进行深入研究,并对城市共享单车的未来骑行需求量进行科学预测,不仅为共享单车企业对单车调度运营提供参考,也为监管部门的精细化和智能化共享单车监管提供决策依据。为了对共享单车骑行影响因素进行量化分析,并构建高精度的骑行量预测模型,提出基于 Res-GRU 深度学习网络模型,将用于卷积神经网络的残差神经网络模块融入到门控循环神经网络模型 GRU 中,可以进一步提高 GRU 模型精度;同时,首次使用互信息模型对共享单车骑行使用的影响因素进行量化分析。以上海市骑行量数据为研究案例,结果显示,3 d 在线量是对共享单车日骑行量影响最重要的因素之一。传统的机器学习模型对共享单车骑行量预测精度为
3、 80.1%,GRU 模型预测精度为83.7%,而 Res-GRU 深度学习网络模型对共享单车骑行量预测精度为 90.1%,取得较为明显的预测效果。关键词:共享单车骑行量预测;Res-GRU 模型;互信息;GRU 模型;特征工程中图分类号:U491文献标志码:A文章编号:1671-3400(2023)05-0070-05Abstract:In-depth research on the influencing factors of urban shared bicycle riding,and accurate prediction of the total future riding vol
4、ume of urban shared bicycles,not only provides reference for bicycle-sharing companies in bicycle scheduling operations,but also provides a basis for decision-making to bike sharing regulatory authorities.In order to quantitatively analyze the influencing factors of bike sharing riding and construct
5、 a high-precision forecasting model for the total amount of riding,a Res-GRU deep learning network model is proposed,which integrates the residual neural network module in the convolutional neural network into the gated recurrent unit model GRU.It can further improve theprediction accuracy of the GR
6、U model.At the same time,the mutual information model is used for the first time to quantitatively analyze the factors affecting the use of bike sharing riding.Taking Shanghais cycling data as a case study,the results show that three-day online bike volume is one of the key factors of bike sharing r
7、iding.the prediction accuracy of traditional machine learning model is 80.1%,and the GRU model prediction accuracy is 83.7%.The proposed Res-GRU deep learning network model prediction accuracy is 90.1%.Keyword:Biking sharing riding prediction;Res-GRU deep network;Mutual Information;GRU model;Feature
8、 engineering0 引言 共享单车以互联网技术为基础,由运营企业投放车辆,给城市居民日常短距离出行和对接公共交通提供自行车租赁服务。随着共享单车迅速发展,各个互联网自行车运行企业进入激烈市场竞争阶段,单车投放数量激13基于 Res-GRU 模型的共享单车骑行量预测和影响因素分析Analysis of Bike Sharing Riding Amounts Prediction Based on Res-GRU Model and FactorsSHEN Feng,ZHANG Lu,JI Jing(Shanghai SEARI Intelligent System Co.,Ltd,Sha
9、nghai 200063,China)2023 年第 5 期 71 增,共享单车已经到了“泛滥”的地步。据统计,我国共享单车数据超过 2 000 万辆,高峰时使用达到 7 000万人次/d1。对城市共享单车的骑行影响因素进行深入研究,对城市共享单车的未来骑行量进行准确预测,不仅为共享单车企业对单车调度运营提供参考,也为监管部门的精细化和智能化共享单车监管提供决策依据,可以有效缓解单车泛滥与乱停放带来的城市交通问题。随着近年来共享单车的兴起,国内外学者开展了一系列对于共享单车的骑行影响因素和骑行量预测的研究,如:Kim2研究天气情况对共享单车骑行的影响,使用聚类算法对不同区域的影响程度进行分析;
10、杨军等3使用公开共享单车数据集数据,构建多层感知机模型预测共享单车需求量;种颖珊等4使用加利福尼亚弯曲的共享单车数据,基于时空聚类及随机森林技术,对共享单车站点需求量进行预测;黎鹏5以摩拜共享单车数据集为研究对象,重点分析天气指标对骑行的影响,基于 ARIMA 模型以及多元线性回归模型,对骑行量进行预测。总体而言,目前对于共享单车骑行量影响因素的研究指标较少,主要关注天气因素的影响,同时因子的影响程度只用了相关性分析单一算法;对于共享单车骑行量预测模型,研究主要是基于常规的机器学习和深度学习方法。基于此,本文首次提出基于 Res-GRU 深度学习网络模型,将用于卷积神经网络的残差神经网络模块融
11、入到门控循环神经网络模型 GRU 中,进一步提高GRU 模型的预测精度。同时,首次使用互信息模型对共享单车骑行使用的影响因素进行量化分析。对影响共享单车骑行的因素通过互信息模型进行影响程度分析,构建基于 Res-GRU 模型的共享单车骑行量预测模型,得到更准确的结果。1 研究方法1.1 特征工程 特征工程可以有效衡量和分析对目标值的影响因素以及量化这些因素的影响程度。采用皮尔逊相关系数算法和基于互信息(Mutual Information)算法来进行特征选择以及重要影响因子量化分析。1.1.1 皮尔逊相关系数 2 个变量 xi和 xj之间的协方差 Ci可以被定义为 Cij=E(xi E(xi)
12、(xj E(xj)(1)如果 i=j,这个变量的协方差就是它的方差:Ci2=E(xi E(xi)2(2)式中:E(xi)和 E(xj)为期望值。矩阵|Cij|称为协方差矩阵。通常用协方差与标准差的商ij来度量 2 个变量之间的相关程度。矩阵|ij|被称为相关矩阵,ij称为相关系数,相关系数取值在 1 1,它度量了 2 个变量xi和 xj之间的线性关系。1.1.2 基于互信息的特征工程 互信息算法可以从信息论的角度量化 2 个变量之间的相关性。相比于相关系数只能度量 2 个变量之间的线性关系,互信息还可以度量 2 个变量之间的非线性关系。2 个随机变量 x 和 y 之间的互信息定义为 I(x,y
13、)=P(x,y)log2 P(x,y)(3)P(x)P(y)式中:I(x,y)为 x 和 y 之间的互信息值;P(x,y)为 x 和y 之间的联合概率分布函数;P(x)和 P(y)分别为 x 和 y的边缘概率分布函数。互信息代表了 1 个随机变量由于已知另 1 个随机变量而减少的不确定性。如果变量 x 与变量 y 完全不相关,那么 x 和 y 之间的互信息 I(x,y)值为 0。1.2 Res-GRU 模型原理与结构1.2.1 GRU 模型原理与结构 门控循环神经网络(Gated Recurrent Units,GRU)模型能够学习长期依赖关系,是由 Cho 在 2014 年提出的6,并在随后
14、的很多工作中被推广,GRU 在处理各种序列建模问题方面表现出色。GRU 的参数较少,能够有效提高训练速度和网络性能效果(见图 1)。图 1 1 个 GRU 单元结构 GRU 单元通过以下公式进行信息的流动与传递:zt=(Wz ht1,xt)(4)rt=(Wr ht1,xt)(5)ht=tanh(W rt ht1,xt)(6)ht=(1 zt)ht1+zt ht (7)式中:t 为时刻;zt和 rt分别为更新门和重置门;为sigmoid 函数;xt为输入;ht1为上 1 个时刻的隐藏值;Wz为更新门矩阵;Wr为重置门矩阵,tanh 为双曲正切函数。1.2.2 Res-GRU 模型原理与结构 He
15、 等7为了进一步提高图片识别的准确率,提出残差卷积神经网络用于图片识别相关任务中。通常随着卷积神经网络层数变多,模型精度随之增高,在训练模型过程中会出现模型精度退化这一现象。为了解决深度卷积网络模型精度退化,引入残差网络 ResNet。在图片信息前向传送的过程中,特征图包含的图像信息xX yYht1hthtxtrtztcttanh1+沈 峰,张 璐,吉 静:基于 Res-GRU 模型的共享单车骑行量预测和影响因素分析2023 年第 5 期 72 会逐层减少,但是 ResNet 会在浅层卷积模块和深层卷积模块之间添加 1 条直接映射(Identity Mapping),这使得第 N+1 层网络比
16、第 N 层提取了更多图像信息,最终可以使得卷积网络模型的精度得到有效提高。借鉴残差网络用于卷积神经网络这一思想,本文将残差网络用于循环神经网络中,使用直接映射来连接深度循环神经网络不同层,这就是深度残差循环神经网络模型 Res-GRU。Res-GRU 模型结构中输入的为结构化时序:连接 1 个门控循环模型模块 GRU Block1,GRU Block1 中设定有 50 个单元 Unit,激活函数为双曲正切 tanh 函数,得到第 1 层时序特征值;连接第 2 个门控循环模型模块 GRU Block2,GRU Block2 中设定有 100 个单元 Unit,激活函数为 tanh 函数,设定 D
17、ropout 的比例为50%,即 50%的单元之间的连接随机断掉,以防止模型的过拟合,从而提高模型精度,得到第 2 层时序特征值;通过 1 个深度残差路径,将上 1 层的输入(第 1 层时序特征值)与第 2 层时序特征值相加后,连接第 3 个门控循环模块 GRU Block3,这样就能够包含更多的时序信息,GRU Block3 中设定有 150 个单元 Unit,激活函数 tanh 函数,Dropout 比例为 30%,得到第 3 层时序特征;再通过 1 个深度残差路径,将第 2 层时序特征值与第 3 层时序特征值相加后,连接第 4 个门控循环模型模块 GRU Block4,设定有 100 个
18、单元 Unit,激活函数tanh 函数,Dropout 比例为 70%,设定输出的维度为一维;连接1个Dense层,Dense层中的神经元个数为1,也为模型的输出。1.3 模型精度评价1.3.1 均方根误差 均方根误差(Root Mean Square Error,RMSE)代表了模型预测值和实际测量值之间的差异,计算公式为 K=(Qi Qi)2(8)n式中:K 为均方根误差;Qi为时刻 t 时的实际测量值;Qi为时刻 t 时的模拟值;n 为数据序列长度。模型值与实际测量值越接近,K 值越小;当预测值与实测值一致时,K为零。1.3.2 判定系数和相关系数 判定系数 和相关系数 R 是模型精度另
19、一个重要指标,代表模型与实际结果的相关程度,计算公式为 R2=1 A(9)B式中:A=(yi y)2,B=(yi y i)2;A 为总离差平方和;yi为 t 时的实际测量值;y为平均实际测量值;B 为残差平方和;y i为 t 时的模型预测值。判定系数取值范围为0 1,当值接近 1 时,模型精度越高。ni=12 实验设计2.1 数据集介绍 以共享单车每日骑行量为研究对象,时间范围从2019 年 1 月 2 日2021 年 4 月 2 日,共 822 d,每一天有 1 条数据统计记录,即有 822 个样本记录。每条记录包含 10 个字段,分别为:温度、天气状况、风速、星期、节假日、投放量、可用车辆
20、数、3 d 在线量、COVID-19疫情和骑行需求量。预测对象为第 2 天的共享单车骑行需求量,骑行需求量、投放量、3 d 在线量和可用车辆数在样本数据中是采集到的上海市多种品牌单车当天统计值的总和。由于共享单车品牌并不是完全不变的,如 ofo单车在 2020 年后慢慢退出市场,整体数据以较稳定的摩拜单车为主,叠加其他一些品牌的单车数据。因此,样本数量是多种品牌单车的统计值。上海市总体投放量约为 29 万辆/d,从统计值角度而言,用骑行需求量除以投放量,取平均值得到 1 辆共享单车平均骑行约 5 次/d。对数据集中骑行需求量进行描述。2.2 特征指标设计 焦志伦等9指出多因素会综合影响共享单车
21、的骑行需求。为了充分研究对共享单车骑行需求的影响因素,从天气维度、时间维度、共享单车投放维度、疫情维度四大类因素对共享单车的骑行需求影响进行分析,其中:天气维度包括温度、天气状况、风速 3 个因素;时间维度包括星期、节假日 2 个因素。所有影响因素描述如下。(1)温度。温度对骑行者的骑行意愿有一定影响,采用气温中的最高气温表示。(2)天气状况。将天气划分为 6 个状况:阴、多云、小雨、有雪、晴、中/大/暴雨,分别用 0、1、2、3、4、5 这 6 个数字表示。(3)风速。根据天气记录数据,“微风”用数字 0表示;“一级风”用数字 1 表示;“二级风”用数字 2 表示;“三级风”用 3 表示;依
22、次类推。(4)星期。划分为星期一、星期二、,星期日,分别对应数字 1、2、3、4、5、6、7。(5)节假日。将所有法定节假日用 0 表示,其余时间用 1 表示。(6)投放量。即共享单车当天的投放量。(7)可用车辆数。即共享单车可用车辆数。(8)3 d 在线量。即共享单车前 3 d 的在线数量之和。(9)COVID-19 疫情。疫情对人们的出行活动造成了重要的影响,将 COVID-19 疫情严重程度也作为对共享单车的影响因子考虑,将疫情严重程度分为:没有影响、轻微、一般、严重四大类,分别用数字 0、1、2、3 表示。2.3 建模 建立 Res-GRU 深度学习网络模型,Res-GRU 是在沈 峰
23、,张 璐,吉 静:基于 Res-GRU 模型的共享单车骑行量预测和影响因素分析2023 年第 5 期 73 门控循环神经网络模型 GRU 基础上进行改进的模型,GRU 模型作为 Res-GRU 对比模型。同时,选择经典机器学习模型决策树模型为另一个对比模型。2.3.1 数据集划分 模型训练集为 2019 年 1 月 2 日2020 年 8 月 23日数据,共 600 个样本用来训练 Res-GRU 模型、门控循环神经网络模型 GRU 和决策树模型。测试集是 2020年 8 月 24 日2021 年 4 月 2 日的数据,共 222 个样本来检测模型精度。训练集和测试集比例接近 73。2.3.2
24、 模型训练参数 Res-GRU 深度学习网络模型训练 epochs 为 3 轮,优化器是“Adam”,学习率为 0.001,单次传递的训练样本数据个数 batch_size 是 16。对于门控循环神经网络模型 GRU,模型参数设置与 Res-GRU 模型相同。2.4 预测模型推理与使用 用训练好的模型对新数据进行预测,在机器学习工程上叫推理(Inference)。当深度学习模型(Res-GRU模型和 GRU 模型)和机器学习模型(决策树模型)使用历史数据构建与训练完成后,可以直接用来进行未来的骑行需求量预测。如在 12 月 3 日当天,对 12 月 4 日的骑行需求量进行预测,其具体步骤如下:
25、给模型输入新的数据,包括:12 月 4 日天气预报的温度、12 月4 日天气预报的天气状况、12 月 4 日的天气预报的风速、12 月 4 日的星期、12 月 4 日是否为节假日、12 月 3 日当天的投放量、12 月 3 日当天的可用车辆数、12 月 3日的 3 d 在线量、12 月 3 日的 COVID-19 疫情情况;将这些数据喂给已经使用样本数据训练好的模型,模型会自动计算得到后一天(12 月 4 日)的骑行需求量预测结果。3 结果分析3.1 对骑行量影响因素结果 9 个对共享单车日骑行量有影响的因子,它们的影响程度量化结果各有不同,通过皮尔逊相关系数算法和互信息模型计算得到相应的结果
26、(见表 1、2)。通过从表 2 和表 3 中可以看出,3 d 在线量、投放量、可用车辆数和温度是对共享单车日骑行量影响较大的因素,其中 3 d 在线量是最重要影响因素;星期、疫情和风速对共享单车的日骑行量有一定影响,而天气状况和节假日对共享单车日骑行量影响较低,主要原因是:天气中降雨会对骑行量有影响,但是本研究无法获得每天的降雨数据,因而使用阴、多云、小雨、有雪、晴、中/大/暴雨表示的话会对最终结果的准确性有一定影响;本研究中的天气状况是按照历史天的天气情况,但是对于共享单车骑行高峰流量时段的天气状况难以掌握,难以获取每小时的历史天气状态,导致结果并不理想。同时对于节假日,由于相对于非节假日的
27、时日过多,该数据集非常不均衡,导致结果也并不理想。3.2 骑行量预测结果分析 基于 Res-GRU 深度学习网络模型、GRU 模型和决策树模型在测试集上的预测结果(见图 2、3)。图中,横轴为时间,时间间隔为 1 d,即每天有 1 个预测结果,竖轴为共享单车日骑行量,采用的是标准化以后的值。图中实线是实际观测值;虚线是 Res-GRU 深度学习网络模型预测值;三角虚线是门控循环神经网络模型GRU 预测结果;圆形实线是决策树模型预测结果。图 3 是 3 个模型在所有测试集(即 2020 年 8 月 24表 1 相关系数算法影响因子结果影响因子共享单车日骑行量3 d 在线量0.823投放量0.59
28、3可用车辆数0.593温度0.470COVID-19 疫情0.385风速0.353节假日0.163星期0.101天气状况0.010表 2 互信息算法影响因子结果影响因子共享单车日骑行量3 d 在线量6.707可用车辆数4.462投放量4.383温度4.383星期2.941风速2.516COVID-19 疫情2.514天气状况2.382节假日1.578?图 2 3 个模型在整个测试集上精度比较沈 峰,张 璐,吉 静:基于 Res-GRU 模型的共享单车骑行量预测和影响因素分析2023 年第 5 期 74 日2021 年 4 月 2 日)的结果,曲线非常稠密,从图中可以看出,对于决策树和 GRU
29、模型预测值,Res-GRU深度学习网络模型预测结果与实际结果更加接近。图 3是放大图 2 中的一个月时间(2020 年 10 月 1 日10 月29 日),可以明显地看出,不论是日骑行量在低谷时期还是在高峰时期,Res-GRU 模型的预测结果精度都明显高于决策树和 GRU 模型。基于 Res-GRU 深度学习网络模型、GRU 模型和决策树模型在相同测试集上的 RMSE 和 R 结果(见表3)。从表 3 中可以看出,基于 Res-GRU 模型的 RMSE为 0.105 35,精度 R 为 90.1%。决策树模型的 RMSE 为0.124 53,R 为 80.1%。GRU 模型的 RMSE 为 0
30、.114 59,R 为 83.7%。Res-GRU 模型的误差是 3 个模型中最小的,对比决策树模型,Res-GRU 模型精度提高了 10%;对比 GRU 模型,Res-GRU 精度提高了 6.4%。虽然本研究中的样本数量只有 822 个,但是 Res-GRU 模型的预测精度在 90.1%。首先,由于 Res-GRU 在 GRU 模型基础上,又增加了一个残差映射层,能够包含更多的时序信息,模型精度会进一步提高;其次,循环神经网络会学习过去的骑行量信息,由于预测的是单日的骑行总量,是一个统计值,总体来说,昨天和今天的骑行总量总体变化不会非常大;最后,在输入中有一个指标是过去 3 d 的在线骑行量
31、,从影响因素中可以看出 3 d 在线量对日骑行总量的影响较高,这个与预测中的重要影响因子数据相当。4 结语 本研究探索了对共享单车骑行量影响因素的量化分析,对影响共享单车骑行的因素通过相关性和互信息表 3 模型预测结果精度指标模型RMSER/%Res-GRU 模型0.105 3590.1决策树模型0.124 5380.1GRU 模型0.114 5983.7模型进行影响程度分析,同时探索和验证了基于 Res-GRU 深度学习网络模型在共享单车骑行量预测上的表现效果,结果显示在影响因素上,3 d 在线量、投放量、可用车辆数和温度是对共享单车日骑行量影响较大的因素,星期、疫情和风速对共享单车的日骑行
32、量有一定影响,而天气状况和节假日对共享单车日骑行量影响较低。同时,Res-GRU 模型对共享单车日骑行需求的预测效果较好,模型预测 RMSE 为 0.105 35,模型准确率为90.1%;相比于未改进的 GRU 模型,RMSE 小了 8.8%,模型准确率提高了 6.4%;对比决策树模型,RMSE 小了 18.2%,模型准确率提高了 10%。在影响因素分析中,天气情况对共享单车的影响程度理论上影响较大,尤其是否下雨,但是由于本研究难以获取每小时的历史天气状态以及降雨数据,对于共享单车流量高峰时段的天气情况难以掌握,因而按照天气状况对日骑行量的分析并不非常合理。因此,在未来的研究中,将精准的天气状
33、况给与考虑,尤其是能够使用降雨量来代替天气状况,将会得到更准确的结果。同时,本研究中的样本量只有 822 个,数据集过少,尤其对于深度学习模型,数据集越多,模型精度越高,本研究中的数据集过少对模型的精度有很大影响,后续研究中增加模型的样本量,可以进一步提高模型的精度。参考文献:1 杜开瑞,贺蓉.共享单车停放需求影响因素分析和预测研究 J.交通节能与环保,2022,18(1):54-58.2 Kim K.Investigation on the effects of weather and calendar events on bike-sharing according to the trip
34、 patterns of bike rentals of stationsJ.Journal of Transport Geography,2018,66(1):309-320.3 杨军,赵继新,易安军,等.基于 BP 神经网络算法的共享单车需求预测 J.西部交通科技,2019(2):155-158.4 种颖珊,韩晓明.基于随机森林与时空聚类的共享单车站点需求量预测 J.科学技术与工程,2018,18(32):89-94.5 黎鹏.基于天气因素的共享单车骑行量预测:以摩拜为例D.成都:电子科技大学,2018.6 CHO K,MERRIENBOER B V,GULCEHRE C.,et al.L
35、earning phrase representations using rnn encoder-decoder for statistical machine translationJ.arXiv preprint arXiv:1406.1078.7 HE K,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers:surpassing human-level performance on imagenet classification J.IEEE International Conference on Computer Vision ICCV,2015:1026-1034.8 张璐,柳爽,田野.基于卷积和递归神经网络融合的交通状态指数预测 J.交通与运输,2021,37(1):91-95.?图 3 3 个模型在 1 个月测试集上精度比较沈 峰,张 璐,吉 静:基于 Res-GRU 模型的共享单车骑行量预测和影响因素分析
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100