收藏 分销(赏)

信息通信网络运行事故分析与对策_马凝芳.pdf

上传人:自信****多点 文档编号:477172 上传时间:2023-10-16 格式:PDF 页数:6 大小:402.95KB
下载 相关 举报
信息通信网络运行事故分析与对策_马凝芳.pdf_第1页
第1页 / 共6页
信息通信网络运行事故分析与对策_马凝芳.pdf_第2页
第2页 / 共6页
信息通信网络运行事故分析与对策_马凝芳.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 44 卷 第 2 期安全Vol44 No22023 年 2 月Safety SecurityFeb 2023引用格式:马凝芳,蒋皓,张玉涛,等信息通信网络运行事故分析与对策 J 安全,2023,44(2):7176作者简介:马凝芳(1975),女,北京人,高级工程师,多年从事电信法律监管政策研究、通信网络运行和安全生产管理技术研究工作。Email:maningfangcaictaccn蒋皓(1980),男,北京人,高级工程师,多年从事电信设备检测技术、电信设备设施安全管理技术研究工作。Email:jianghaocaictaccnDOI:1019737/jcnkiissn100236312

2、02302012信息通信网络运行事故分析与对策马凝芳高级工程师蒋皓高级工程师张玉涛鲁陈立(中国信息通信研究院,北京 100191)【摘要】为提升信息通信网络运行安全水平,统计分析近 3 年国内外发生的网络运行安全事故的持续时间、事故原因变化规律等;从标准体系、技术改进、风险管理、人员培训、应急力量、事故调查等方面提出提升网络运行安全管理的建议。结果表明:近 3 年平均事故影响时长出现逐年增长的趋势;系统(网络)故障是导致网络运行安全事故的最大诱因;由割接升级引发的事故,平均影响时长最大。提出的提升网络运行安全管理的建议能帮助网络运行维护人员明确管理工作要点。【关键词】信息通信网络;运行事故;事

3、故预防措施中图分类号:X913文献标识码:A文章编号:10023631(2023)02007106Analysis and Countermeasures for Information andCommunication Network Operation AccidentMA NingfangJIANG HaoZHANG YutaoLU Chenli(China Academy of Information and Communication Technology,Beijing 100191,China)Abstract:In order to reveal the rules of in

4、formation and communication network operation accidents in recentyears and improve its safety level The network operational accidents that occurred at home and abroad in thepast three years were statistically summarised,and the overall situation,duration and cause of the accidentswere analysed Sugge

5、stions to improve network operation security management in terms of standard system,technical improvement,risk management,personnel training,emergency response force,incident investiga-tion,etc It was found that the average duration of the accidents over the last three years has increased yearon yea

6、r;In terms of accident causes,system(network)is the largest factor;Accidents occurring during cu-tover upgrade have the greatest impact on the durationThe proposed recommendations for improving the se-curity management of network operations can help network operations and maintenance staff to clarif

7、y the keypoints of managementKeywords:information and communication networks;operational accidents;accident prevention measures17安全管理2023 年第 2 期信息通信网络运行事故分析与对策0引言欧盟网络安全局发布2021 年电信安全事件年度报告,显示 2021 年来自 26 个欧盟成员国和 2个欧洲自由贸易联盟(European Free Trade Associa-tion,EFTA)国家的 168 起电信事故总损失为 51.06亿用户小时数,相较 2020 年的

8、 8.41 亿用户小时大幅增加1。2022 年 7 月日本 KDDI 株式会社(KDDICorporation,KDDI)、加 拿 大 罗 杰 斯 通 信 公 司(ogers Communications Inc,ogers)、美国谷歌公司(Google Inc,Google)3 家公司相继出现波及全国、历时数日的特大型信息通信网络运行事故,引起了全世界的高度关注2。其带来的灾难性后果充分表明人类社会对信息通信网络的依赖程度非常高。罗丹、张治兵3 分析国内外通信网络运行风险管理现状,并从加强顶层管理体系建设、提升监督管理要求、提升风险防范能力等方面提出风险管理的改进建议;赵松柏4 从我国网络运

9、行维护管理制度的演变过程出发,分析网络运行维护管理现状、管理重点与目标、影响网络稳定的因素、运维管理工作存在的不足等问题,提出优化资源、落实集约化管理,落实网络线路的优化、调整工作,研发新型保障技术,发挥政府协同管理的作用等建议;在具体技术方面,农毅杰5 提出一种以 Web 为基础的网络化运营与维护信息管理体系,逐级进行深层次的故障定位,查找根源并进行处理;美国国家标准与技术研究院(National Institute of Standards and Tech-nology,NIST)开发了一种风险管理框架,提供灵活、动态的方法用于管理高度多样化的信息系统安全风险,为信息通信网络运行安全风险

10、管理提供参考6。目前国内外针对网络运行安全事故发生规律、事故原因、事故后果开展的研究较少,同时也缺少涵盖网络运维、监管、系统设计等的事故预防体系。本文从国内外网络运行安全事故出发,分析事故原因、总结事故规律,在此基础上提出预防措施和建议,提高网络运行安全水平。1事故分析为了全面掌握网络运行事故的基本特征,总结事故发生的规律,对国内外 2020 年11 月2022 年9月发生的 29 起网络运行事故信息进行统计分析。1 1总体情况由于我国目前无公开的官方网络运行安全事故统计数据,本文的数据来源于媒体报道。为揭示事故规律,提出针对性的预防措施,统计的信息主要包括:事故发生的时间、事故过程、事故原因

11、、事故影响持续时间等。国内外网络运行事故,见表1、2。从持续时间方面分析显示,影响 24h 及以上的事故数量占事故总数的 14%,324h 的占比 38%,13h 的占比 14%,20min 1h 的占比 27%,小于20min 的占比 7%,如图 1。表 1国内网络运行事故Tab1Domestic network operation accidents序号时间事故简述影响持续时间12020/11/14福建三明某运营商承载网故障约 3h22020/11/21宝鸡某运营商通信机房不间断 电 源(UninterruptiblePower Supply,UPS)故障约 7h32021/2/10某运营

12、商北京大区长期演进语音承载(Voice over Longterm Evolution,VoLTE)网关故障约 3h20min42021/4/13湖南省某运营商出省互联网访问质量劣化约 17min52021/7/23郑州大雨致洪灾,通信基站大规模停电或退服超过 24h62021/11/2某互联网企业机房核心交换机服务异常约 25min72021/11/21甘肃某运营商 5G 核心网设备故障约 7h82021/12/24某互联网企业互联网数据中心(Internet Data Center,IDC)机房供电模块故障约 20min92022/1/12新疆、吉林 2 省某运营商宽带用户互联网访问异常约

13、 16min102022/2/28江西南昌某运营商洪城枢纽楼发生传输设备掉电约 22min112022/4/23湖南某运营商机房开关电源熔断器故障约 56min122022/4/28山东某运营商短信故障约 3h132022/9/16湖南某运营商通信机楼火灾,影响网络运行超过 10h272023 年第 2 期安全管理信息通信网络运行事故分析与对策表 2国外网络运行事故Tab2Foreign network operation accidents序号时间事故简述影响持续时间12020/3/3微软位于美国东部的数据中心发生服务中断约 6h22020/3/26Google 服务中断约 20min320

14、20/5/13特斯拉系统全球性宕机约 35min42020/6/15美国 T Mobile 公司(T Mobile US,Inc,TMobile)通信中断12h52021/6/2法国 Orange 公司(OrangeS A,Orange)急 救 热 线故障约 6h62021/6/8美国互联网云端服务供应商 Fastly 公司(Fastly Inc,Fastly)宕机约 1h72021/10/14日 本 NTT Docomo 公 司(NTT Docomo,Inc,NTTDocomo)物联网割接故障29h82021/10/25韩国 KT 公司(KT Corpora-tion,KT)全国范围网络大规

15、模瘫痪约 1h92021/12/7亚马逊云服务宕机3h35min102021/12/16亚马逊云服务宕机30min112021/12/23亚马逊云服务宕机2h25min122022/7/2日本 KDDI 移动通信服务全国范围内发生故障86h132022/7/8加拿大 ogers 移动和互联网中断约 36h142022/8/8谷歌数据中心发生爆炸致多项服务全球性宕机约 30min152022/8/19巴基斯坦国有电信有限公司(Pakistan Telecommuni-cationCompanyLimited,PTCL)的光纤骨干网故障约 7h162022/8/24日本第二大移动 运 营 商KDD

16、I 旗下产品语音通话无法接通约 1h近 3 年,每年事故平均影响时长(事故影响总时长/事故起数)呈增长趋势。其中 2022 年事故平均影响时长较 2021 年增长了 1498%,如图 2。特别需要关注的是超过 3h 的事故已经超过 50%。图 1事故影响时间分布情况Fig1Time distribution of accident impact图 2近 3 年事故平均影响时长变化趋势Fig2Trends in the average length of impact ofincidents over the last 3 years图 2 显示,网络运行事故持续时长增加趋势明显,主要原因在于随

17、着网络云化的不断发展,网络运行事故原因定位和溯源难度加大,网络运维管理复杂度提高。网络脆弱性增加的趋势与后疫情时代生产、生活和学习在线上开展不断增加的实际情况产生矛盾,如果放任矛盾发展必然给社会经济发展带来不可估量的损失。以 2022 年 7 月日本 KDDI 网络运行事故为例,事故由核心路由器割接过程中突发通信中断事故导致全日本范围内手机用户无法正常拨打电话、收发短信。约 3915 万用户受影响,相当于日本人口的 1/3 左右;事故还波及了固网用户、大批政企互联网/物联网业务和基础设施;还致日本204 处气象观测系统无法传送资讯;部分银行的自动取款机、公交系统乘车卡、丰田等车企的部分车联网服

18、务无法使用;铁路货运的物流信息系统也受到影响,引发物流迟滞,邮件和包裹投递延误。事故持续超过3 天,严重影响了日本国内正常的社会生活秩序。1 2事故原因分析造成信息通信网络运行安全事故的原因可以分为 3 大类,即环境因素、系统(网络)因素和人为因素,其中环境因素包含极端天气、外部施工挖断37安全管理2023 年第 2 期信息通信网络运行事故分析与对策光缆、火灾等;系统(网络)因素包含网络架构冗余失效、网络设备硬件故障、网络设备软件故障、动环设备故障、线路设施故障等;人为因素包含割接升级操作不当、配置错误等。通过对 29 起网络运行事故进行分析,发现系统(网络)因素是导致网络运行事故的主要原因,

19、占比为 61%,而人为因素占比为 32%,环境因素占比为 7%,如图 3。图 3事故原因占比情况Fig3Percentage of causes of accidents实践中,网络运行事故通常是多因素共同引发的,如长时间降雨可能导致供电基础设施损坏、用电设备短路或通信电缆被洪水冲断等,造成设备断电或传输中断,最终引发网络运行事故。图 4 显示,割接升级、动力系统故障及网络设备软件故障为引发事故的主要因素,可占事故总数的 66%。因此在系统设计、日常维护等工作中应重点关注动环系统和网络设备软件的运行情况,必要时部署自动化的监测设备,实时监控设备运行状况,预防事故发生。图 4事故因素占比情况Fi

20、g4Accident factors as a percentage在影响时长方面,根据事故因素分类计算事故总数和总影响时长,得到事故因素平均影响时长,如图 5。在统计范围内,割接升级平均影响时长最大,达到了 1336min;其次为自然灾害因素,平均影响时长为1213min;网络设备软件故障因素为 897min;网络设备硬件故障的平均影响时长最小为 87min。图 5事故因素平均影响时长Fig5Average duration of impact of accident factors割接升级是系统的变更升级环节,操作复杂、风险较大,在实际操作中建议各网络运营者制定严格的操作流程、经过多次测试

21、验证,并制定详尽的应急预案后再进行正式操作。操作中应严格监测系统各参数变化情况,发现异常及时应对,适时启动应急预案严防事故进一步扩大。2事故特征分析信息通信网络作为经济社会发展的重要基础设施,其重要性与日俱增。目前随着传统通信技术(Communication Technology,CT)与信息技术(Infor-mation Technology,IT)融合发展,信息通信网络运行安全面临新的挑战,通信网络运行安全事故也出现了新的特征。(1)网络结构变化导致网络运行风险增加。当前通信网络广泛应用网络功能虚拟化(NetworkFunctions Virtualization,NFV)、网络服务化结构

22、(Servicebased Architecture,SBA)等新技术,通过分层解耦实现网络功能服务自动化管理,增强网络的灵活性和可扩展性;但是由于涉及厂家、平台众多,跨层关联紧密,发生故障极易由点及面,网络容灾保护方式由传统的网元级上升到机房(DataCenter,DC)级、大区级,甚至各张网之间、网络与云472023 年第 2 期安全管理信息通信网络运行事故分析与对策资源之间,保证容灾生效的同时还要考虑信令冲击、业务均衡等诸多问题,单一故障极有可能带来严重并发症。日本 KDDI 事故成因与甘肃 5G 事故类似,因出现局部单点故障,用户注册失败导致服务器资源消耗增加,网络性能下降进一步引发注

23、册用户数的激增,造成数据库同步失败,最终发生网络整体瘫痪。与传统的 CT 网络不同,IT 提供的是“尽力而为”的服务,其基础资源复用率更高,导致发生网络故障时更容易从点扩散到面,形成连锁反应,造成大规模的网络运行事故。(2)故障原因日益复杂化、隐蔽化,导致故障排除所需时间增加。网络云化的技术特征决定了网络运行事故原因定位和溯源难度加大,网络运维管理复杂度提高7。日本 KDDI 事故处理经历了倒回、处理信令拥塞、应对高负荷冲击、网元不同步等多个环节。运营商在如此复杂的环境中进行大量变更操作,很难做到在制定方案时遍历所有的业务和服务场景。一旦发生事故,经常由于预案不充分,经验不丰富,错失遏制事态发

24、展的机会,导致事故影响面不断扩大。(3)既有运维方式逐渐不能满足信息技术网络的发展要求。随着网络发展和演进,传统以人工为主的运维方式已经无法适应网络不断增加导致的运维复杂性、参数配置更加灵活等新型挑战8。网络系统中存在多个厂家专业设备,网络调整密集,对维护人员综合技能要求不断提高。加之核心网网元大多部署在省级或大区级,网络集中管理需要跨专业、跨部门、跨地域、跨厂家协同,应急处置和指挥调度难度倍增。3事故预防建议(1)完善制度标准,提升网络健壮性。预防信息通信网络运行安全事故关键是从本质安全的角度出发,优化系统设计提升网络健壮性。通过网络架构保护、冗余设计等手段,预防环境因素、系统(网络)因素和

25、人为因素引发事故。要进一步完善网络架构保护的相关技术标准,从冗余要求、运维管理和运行环境支撑 3 个方面完善相关标准体系。(2)强化技术手段,预防信令风暴。针对易引起网络瘫痪的信令风暴,事故预防工作一是优化网络结构,控制大区/网元规模,降低信令风暴影响范围;二是提升网络设备抗冲击的能力,完善过载保护机制;三是做好无线网、核心网中信令处理网元的数据备份,避免因容灾倒换引发信令风暴;四是建立多维度流量分析和监控体系,在接入类、信令类网元中分级部署流量控制系统,提高流量精细化管理能力。(3)落实风险评估,提升网络运行安全水平。风险是事故的根本原因,未遂事故是事故的前兆,控制风险、重视未遂事故对事故预

26、防具有举足轻重的作用9。因此,应落实风险分级管控和隐患排查治理双重预防控制机制,加强信息通信设施风险评估管理,识别和控制网络设备软件、网络设备硬件、动力系统中存在的风险,防止风险转化为隐患,将隐患排除在事故发生之前。主要工作内容包括:明确风险评估的组织形式、评估内容、评估结果的使用等关键要求;落实风险评估制度,建立风险和隐患清单;定期组织评估,识别分析系统中存在的风险(如数据库服务能力风险、应急策略风险、系统升级风险等),在此基础上制定风险控制措施(如倒换演练、应急演练的实施要求)等。(4)加强人员培训,提高运维人员工作技能。高水平的运维人员是通信网络安全运行的重要保障,提升运维人员能力,预防

27、参数配置错误等人为操作引发的事故,也有利于及时发现系统中的风险和隐患。因此应加强运维人员培训,定期组织知识技能比赛等,使运维人员熟练掌握各项操作技能,提升知识水平,完善运维能力。(5)构建应急体系,强化事故处置能力。为降低网络运行事故影响,建议各相关企业制定信令风暴等故障的监测制度、完善监测方法,尽早预警,人员提前介入,迅速排除故障;其次,制定多项流量控制应急预案,在事故发展的不同阶段都能有效介入,控制影响范围,逐步排除故障。各项专项应急预案应明确应急组织形式、人员构成、应急处置流程等内容,保障各项应急资源配备。定期组织人员进行应急演练,使工作人员熟悉应急处置流程和在应急活动中的任务分工。做到

28、在事故发生后第一时间进行处置,防止事故后果扩大。(6)推进技术研发,完善事故溯源机制。我国拥有世界上规模最大的信息通信网络,且网络系统结构复杂,相应的事故隐患存在的可能性较大,事故发生后,发展演化过程复杂,为事故原因排查和57安全管理2023 年第 2 期信息通信网络运行事故分析与对策事故调查带来挑战。建议加强技术研究,完善事故监测和记录的手段,准确完整地记录事故发生、发展、排除全过程,提升事故溯源分析能力。将事故发生、处置的经验做法梳理转化为事故预防的经验,促进行业技术水平提升。4结论当前,信息通信网络逐渐成为一项重要的社会基础设施,为其他各行业的发展提供支撑,起到“一业带百业”的作用。本文

29、通过分析近 3 年国内外发生的网络运行安全事故,并总结事故规律,得到以下结论:(1)网络技术跃迁给网络运行安全带来新的挑战,事故影响时长出现逐年增长的趋势。建议从网络架构保护、网络运行维护、运行环境防护 3 方面采取措施予以应对。(2)网络运行事故具有定位难、处置难、持续时间长的特点,建议构建高效的应急管理体系,推进故障记录、事故溯源等技术手段,降低事故影响。(3)系统割接升级引发的事故平均影响时长最大。建议充分发挥主观能动性,提升一线操作人员的工作技能,提供多场景模拟实操环境,强化人员工作能力,同时优化系统设计提升网络健壮性,预防事故发生。参考文献 1 European Union Agen

30、cy for Cybersecurity(ENISA)Telecom Security Incident 2021/OL(20220727)20221201 https:/wwwenisaeuropaeu/publications/telecomsecurityincidents2021 2 云晴国外运营商网络服务中断带来的反思 J 通信世界,2022(14):1820 3 罗丹,张治兵通信网络运行安全风险管理 J 中国电信业,2022,260(8):6972 4 赵松柏现代通信网络运行维护管理体系的创新措施 J 数字通信世界,2022(11):185187 5 农毅杰基于 Web 的网络运行

31、维护信息管理系统设计 J 电子技术与软件工程,2022,229(11):14 6 National Institute of Standards and Technology(NIST)NIST risk management framework/OL (2022713)20221201 https:/csrcnistgov/Projects/iskManagement 7 王琦5G 云化安全风险研究 J 信息通信技术与政策,2021,47(2):9296 8 程强,刘姿杉电信网络智能化发展现状与未来展望 J 信息通信技术与政策,2020(9):1622 9 游鹏飞,寇玮华浅析墨菲定律及海因里

32、希法则对控制事故的作用 J 安全、健康和环境,2008,8(8):1415(上接 70 页)参考文献 1 李金志,李艳辉,李娜“安全管理学”课程体系改革与教学实践 J 淮海工学院学报(人文社会科学版),2019,17(10):130133 2 李波波安全管理学课程教学现状及改进的研究 J 教育教学论坛,2017(23):173174 3 陈娜,张景飞,毛熠安全管理学教学调查及改进的思考 J 安全,2012,33(2):5759 4 怀霞,王丽安全管理学课程教学内容与方法改革探讨 J 中国轻工教育,2016(6):7780 5 宫运华,樊建春,马庆春安全管理学课程多类型教学方法研究 J 中国安全

33、生产科学技术,2012,8(5):173177 6 董宪伟,赵树果安全管理学课程项目式教学的研究与实践 J 河北能源职业技术学院学报,2013,13(1):9192 7 马池香,刘辉安全管理学案例教学法应用研究 J 中国安全生产科学技术,2012,8(2):158163 8 鲁征,傅贵安全管理学及其试验设计研究 J 安全与环境学报,2016,16(4):225231 9 佟瑞鹏,马晓飞,栗婧,等新工科理念下安全工程专业教学模式与效果评价 J 中国安全科学学报,2019,29(6):144149 10 田水承,景国勋安全管理学 M 北京:机械工业出版社,2016:2327 11 宫博,张福群,刘冰心,等“以学生为中心”的安全管理学课程教学改革探索 J 山东化工,2020,49(12):164165 12 傅贵安全管理学事故预防的行为控制方法 M 北京:科学出版社,2013:535467

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服