1、山 东 科 学 第 卷 第 期 年 月出版.:./.【交通运输】收稿日期:基金项目:国家自然科学基金()作者简介:王宁()女研究生研究方向为交通运输规划与管理:.通信作者昌锡铭男讲师研究方向为轨道交通管理:.基于改进的 算法的铁路事故风险源关联分析方法王宁昌锡铭杨欣吴建军(北京交通大学 轨道交通控制与安全国家重点实验室北京)摘要:为了预防铁路事故的发生需要对造成铁路事故的风险源因素进行探索和分析揭示铁路事故的发生规律 提出利用改进的 算法对铁路事故与风险源进行数据挖掘分析 考虑铁路事故伤亡的严重程度提出新的支持度、置信度指标计算方法对铁路事故因素进行加权量化 同时添加时间约束探索不同时间的铁路
2、事故风险源关联规则 利用英国铁路事故数据挖掘铁路事故与风险源之间的关联规则针对实际案例制定切实有效的预防措施 结果表明利用改进的 算法能够得到更多的铁路事故与风险源之间的关联规则对于预防铁路事故的发生具有重要的作用关键词:风险源铁路事故关联规则 算法数据挖掘分析中图分类号:.文献标志码:文章编号:()开放科学(资源服务)标志码():().山 东 科 学 年 随着铁路运营里程和铁路运输量的增加与铁路有关的事故屡屡发生 例如 年 月 日次列车与 次列车追尾事故造成 人死亡、人受伤 年 月 日 次列车撞上塌方体导致空调发电车起火部分车厢脱轨倾覆事故导致 人伤亡 年 月 日 次列车与作业人员相撞造成
3、人死亡 铁路运输安全风险时刻在威胁着铁路运输的健康发展和人员的生命安全造成事故发生的风险源因素十分复杂 因此有必要对铁路事故中的风险源因素进行分析挖掘风险源与事故之间隐含的关联关系以便认识铁路事故发生的规律进一步保障铁路运输安全目前广泛使用的关联规则算法为 关联规则算法是典型的数据挖掘算法 利用关联规则算法对各领域的分析研究已相对成熟 在医学数据挖掘领域张萌等使用 算法对病人的就诊资料进行了挖掘得到了病人的病症和疾病之间的关联规则 降惠等利用 关联规则算法探讨了长治市手足口病与气象因素的关联关系 陈治等利用 关联规则算法对宫颈癌样本数据集进行了分析得到了不同因素对宫颈癌的影响情况 刘媛等利用了
4、关联规则和网络药理学方法对治疗消化性溃疡的用药规律进行了探索对其作用机制有了更深一步的了解和认识 在工业智能化生产领域何林等利用 均值聚类算法()和改进的 关联规则算法对工业大数据进行挖掘分析得到了有利于企业生产调整智能化的关联规则并最大化利用了资源 在海洋灾害预警数据挖掘方面程岩等采用改进的 模型形成了海洋预警决策的支持库预测风暴潮水发生的可能性并预警海洋灾害 等使用贝叶斯网络和关联规则挖掘方法分析了全长 及以上的土耳其渔船未报告的职业事故数据 等使用关联规则技术确定了与全损海事事故的发生和严重程度相关的模式了解了全损事故的特点制定针对性的预防措施在交通领域刘文雅等建立了考虑故障关联的改进的
5、 算法得到的关联规则有助于地铁故障的影响分析 许未等应用传统的 算法构建了铁路事故致因网络探索了铁路事故致因因素的内在联系这些研究在使用 算法进行数据挖掘的过程中未将事故后果的严重程度进行考虑 因此在铁路事故预防领域相对应的研究仍存在不足之处 与铁路事故发生有关的风险源数据往往是大量的利用改进的 算法挖掘风险源因素与事故因素之间的关联关系可以获得事故中的有用信息 本文提出了考虑事故危害加权的关联规则指标进行铁路事故风险源和事故的关联性分析并在时间上进行约束以期挖掘更多隐含铁路事故的关联规则为铁路安全管理提供更加智能化与精细化的管理建议预防铁路事故的发生 事故风险源关联分析方法.传统的关联规则当
6、前各学者对于结构化的数据多有研究提出卷积神经网络的二分类结构化非平衡数据分类算法、敏感属性识别与分级算法等探讨结构化数据的有效信息 但是对于非结构化数据如铁路事故数据报告的研究并未深入 而 算法作为经典的频繁项集挖掘算法可以针对非结构化数据进行挖掘从数量庞大的非结构化铁路事故数据中挖掘出频繁出现的风险源与事故的集合并将挖掘到的隐含铁路事故的信息进行直观呈现 根据挖掘到的规则可以关注到不同风险源与事故之间的关联关系针对风险源关联规则进行防控从而对铁路系统进行有效的安全管理在铁路事故数据集合中将铁路事故的类型与造成铁路事故发生的事故风险源记作一个事务集合 中包含 个项即所有风险源与铁路事故的数量总
7、和 、均表示为非空项集 如果 中包含 个项则 为 项集 记不同事务之间的关联规则为 即表示项集 和项集 间的关联关系此时 在关联规则挖掘中常用支持度、置信度两个指标来对关联规则进行挖掘与衡量分别对这两个指标进行定义第 期王宁等:基于改进的 算法的铁路事故风险源关联分析方法()支持度指标关联规则 的支持度表示的是 、项集同时出现的概率如式()所示:()()()()()式中()代表项集 、同时出现的事务数量()代表事务数据库中所有事务的数量()置信度指标关联规则 的置信度表示的是一个项集 出现以后另一个项集 出现的概率如式()所示:()()()()()式中()代表项集 出现的事务数量.基于改进 算
8、法的关联规则传统的关联规则在进行数据挖掘时将事务中的项均视为同等重要 然而在铁路事故当中不同的事故与风险源所造成的危害是不同的利用传统的关联规则将风险源与事故数据一起进行数据挖掘是不严谨的因此本研究提出了改进的支持度、置信度指标采用加权的关联规则对铁路交通事故数据进行分析 对铁路事故进行加权铁路事故加权指标的设定通过造成的铁路事故后果来进行设定 铁路事故后果通过事故造成的人员伤亡严重程度来衡量伤亡严重程度通过表 所示的死亡和加权伤害来量化表 死亡率和加权伤害量化 伤害程度权重 级轻伤/多人 级受伤.多人 级轻伤/重伤.级重伤.多起重大/单一死亡多人死亡 改进的支持度指标()见式():()()(
9、)()()()()改进的支持度指标表示 、项集同时出现的概率 当项集 或项集 中出现铁路事故信息时对其进行加权计算未出现铁路事故信息时保持原指标结果 式中()为 项集的加权()为()与()中权值较大者 表示铁路事故数据置信度指标()见式():()()()()()()()()改进的置信度指标表示项集 出现之后另一个项集 出现的概率 当项集 或项集 中出现铁路事故信息时对其进行加权计算未出现铁路事故信息时保持原指标结果传统的 算法是挖掘数据关联规则的经典算法其思路是对数据进行逐一层次的迭代不断产生更高维度的频繁项集和强关联规则 本文在 算法的基础上添加时间约束从时间角度对关联规则进行划分并利用改进
10、的提升度和置信度指标来筛选的强关联规则步骤如下:山 东 科 学 年步骤 设定最小支持度、最小置信度指标的值所设定的指标是后续产生频繁项集与强关联规则的基础步骤 对整个铁路事故风险源数据的集合进行扫描 第一次扫描产生候选 项集记 根据时间约束将 划分为日间和夜间数据集分别为 和 根据步骤 设定的最小支持度指标的值由候选 项集 和 生成频繁 项集 和 步骤 由候选 项集 和 直接生成候选 项集 和 再根据步骤 设定的最小支持度指标的值生成频繁 项集 和 步骤 不断重复步骤 依次产生候选 项集和频繁 项集直至无法产生新的候选 项集 和时得到了所探索数据集的全部频繁项集步骤 根据步骤 设定的最小支持度
11、、置信度指标得到不同时间下数据集合中风险源与铁路事故之间的强关联规则图 为改进的关联规则算法流程图图 改进的关联规则算法流程.铁路事故数据挖掘本研究通过英国政府网站:/./获取了 年共计 年的英国铁路事故数据报告 份从每份事故报告中提取发生的事故类型和风险源 在研究中所用到的事故数据并未包括地铁事故和有轨电车事故 值得注意的是在对事故类型进行统计时存在一份事故报告中记录发生多种类型事故的情况如在编号为 的事故报告中记录表明先发生了失控事故再发生了脱轨事故将这两种类型的事故都进行了统计 收集到发生的事故类型分别为碰撞、脱轨、失控、坠落、超速、拖拽、触电、未遂事故共计 种类型 各事故类型的分布情况
12、如图 所示第 期王宁等:基于改进的 算法的铁路事故风险源关联分析方法图 事故类型分布.统计风险源为人员、设备、环境、管理 种类型共计 种风险源 将风险源进行编号 种风险源分别编号为 其中 的风险源为人员类型风险源 的风险源为设备类型风险源 的风险源为环境类型风险源 的风险源为管理类型风险源 由于篇幅限制这里仅选取部分人员、设备、环境和管理类型风险源进行列举如表 所示 详细的各类风险源及描述详见 科学数据与内容附表表 部分风险源及描述 风险源编号风险源描述风险源类型列车司机经验或能力不够人员列车司机对危险形势的误判人员列车司机忽视或误解警告警示人员刹车系统问题设备制动系统设备、性能问题设备公路轨
13、道车辆故障或异常状态设备树叶环境山体滑坡环境天气温度过高环境应对洪水、暴雨的准备计划不足管理不合适的排班次作业或工作规划管理对安全工作制度的监督审查无效管理铁路事故的后果通过在事故中造成的人员伤亡的严重程度来衡量伤亡严重程度通过表 所示的死亡和加权伤害()来量化 通过计算得到每种事故的危害以此确定铁路事故的加权 表 为编号 的事故类型及危害后果量化值山 东 科 学 年表 铁路事故类型及其危害后果量化值 事故编号事故描述事故危害后果(/年)碰撞事故.脱轨事故.失控事故.坠落事故.拖拽事故.电气事故.超速事故.未遂事故.案例分析根据上述实际铁路事故数据采用改进的关联规则算法挖掘风险源之间、风险源与
14、铁路事故之间的关联关系 铁路事故的发生频率较低所造成的事故损失是巨大的设定不同的最小支持度和最小置信度的指标组合进行实验得到不同的关联规则数量如图 所示 可以看出改进后的关联规则在相同的最小支持度和最小置信度指标组合下所得到的强关联规则数量更多获取的有利于铁路事故防控的信息也更加充分图 不同指标组合的关联规则变化情况.在本文中设定不同的指标组合其得到包含铁路事故信息的关联规则均占比增加如图 所示 其中设定在日间的最小支持度为.最小置信度为.得到 条强关联规则 相较于未进行加权计算的关联规则所获得强关联规则中包含铁路事故的关联规则占比由.提升到了.设定在夜间的最小支持度为.最小置信度为.得到 条
15、强关联规则 相较于未进行加权计算的关联规则所获得强关联规则中包含铁路事故的关联规则占比由.提升到了.在这两个时间段获取的包含更多铁路事故信息的关联规则占比均提高得到的包含铁路事故与风险源之间关联关系的规则也更多有利于进一步探索风险源与铁路事故之间的关联关系有利于后续进行铁路事故的预防和控制第 期王宁等:基于改进的 算法的铁路事故风险源关联分析方法图 包含铁路事故信息的关联规则占比变化情况.在不同时间得到的部分强关联规则如表 所示 针对此类结果可以提出具体的预防措施如下:()在日间往往由于人员的误判以及一些人员不遵守交通规则的行为导致碰撞事故的发生需要进一步加强对行人、乘客、骑行者等人的规范和引
16、导()在夜间失控事故的发生往往伴随着碰撞事故的发生因此在发生失控事故时需要注意对事故进行及时干预防止碰撞事故的进一步发生()在夜间车辆、机械设备等操作员的违规操作或操作错误往往会使车辆或者设备不安全运行从而导致碰撞事故的发生 因此需要重点加强铁路作业车辆、设备等人员的管理培训预防事故的发生()夜间列车司机也容易产生过大的压力或者作业疲劳分心从而导致碰撞事故的发生针对这一情况需要进一步合理安排司机作业时间并在司机上岗前确认其身体状况从而保障铁路列车的安全运行表 部分强关联规则 时间强关联规则脱轨 碰撞日间行人、乘客、骑行者进行的不安全行为 碰撞行人、乘客、骑行者对危险形势的误判 碰撞夜间脱轨 碰
17、撞失控 碰撞车辆、机械设备等操作员违规操作或操作错误 碰撞列车司机压力、疲劳或者分心 碰撞 结语本研究所提出的改进的 算法根据不同的铁路事故造成的危害不同在进行支持度与置信度指标计算时考虑了事故的权重挖掘到了包含更多铁路事故信息的关联规则 同时添加时间约束包含铁路事故与风险源的强关联规则数量在不同时间维度下均有所提高 最后针对典型强关联规则提出具体的预防措施有利于铁路的安全管理本文仍存在一些不足需要在今后的工作中进一步研究和改进 可以考虑使用更加丰富且具有一致性山 东 科 学 年的数据便于关联规则的探索研究 也可以将风险源的重要性程度进行考虑在进行支持度和置信度指标的计算过程中对风险源的重要性
18、程度进行科学合理的加权量化分析以便进一步探讨探讨风险源之间关联关系为铁路安全管理提供更加切实有效的预防措施参考文献:国家铁路局.“.”兰新线 次旅客列车与作业人员相撞铁路交通事故调查处理情况公告/.:/./.张萌 梁正 祝思清.基于关联规则的数据挖掘在医疗诊断中的应用.山东科学 ():.降惠 尹振保 武丽娟 等.算法在手足口病与气象因素关系分析中的应用.智能计算机与应用 ():.:./.陈治 吴娟娟.基于关联规则的医疗数据挖掘研究.统计与决策 ():.:./.刘媛 孙辉 许苑南 等.基于数据挖掘及网络药理学探讨中药治疗消化性溃疡的用药规律及作用机制.山东科学():.:./.何林 刘宇红 张荣芬.基于关联规则对工业铀测量数据挖掘分析研究.计算机技术与发展 ():.:./.程岩 任国兴 杜立彬.基于 模型的海洋灾害预警数据挖掘技术.山东科学 ():.()().:.:./.:.:./.刘文雅 徐永能.基于改进 算法的地铁故障关联规则挖掘.兵器装备工程学报 ():.:./.许未 何世伟 刘朝辉等.基于关联规则的铁路事故致因网络构建与分析.铁道运输与经济 ():.:./.徐红 矫桂娥 张文俊 等.基于卷积神经网络的结构化非平衡数据分类算法.计算机工程 ():.:./.何文竹 彭长根 王毛妮 等.面向结构化数据集的敏感属性识别与分级算法.计算机应用研究 ():.:./.