1、文章编号:1001-8956(2023)02-0128-09中图分类号:P3157文献标识码:A基于新浪微博的四川芦山 61 级地震和马尔康 60 级震群舆情分析及灾情信息获取李亚芳,谭 明,李金香,王新刚,李 波(新疆维吾尔自治区地震局,新疆 乌鲁木齐 830011)摘要:震后对网络舆情信息的监控与分析,及灾情信息的快速获取、处理、分析和研判对于部署抗震救灾、掌握灾情舆情、稳定民众情绪具有重要意义。基于新浪微博数据,获取四川芦山 61 级地震和马尔康 60 级震群相关的微博和评论等信息,通过对信息进行充分挖掘、分析和表达,研究地震事件中微博舆情的演化、民众情绪反应特征、关注热点等,并在此基础
2、上对房屋破坏、生命线工程破坏、人员伤亡等灾情信息分类提取,可为地震应急决策提供科技支撑。关键词:芦山地震;马尔康震群;新浪微博;舆情分析;灾情获取doi:1016256/jissn1001-8956202302002破坏性地震发生后,网络舆情和灾情信息对抗震救灾工作中科学调配救援力量、调拨救灾物资,疏导群众情绪、反馈社会关切、稳定社会秩序发挥着重要的信息支撑作用。随着网络新兴媒体的迅速发展,微博、微信等社交媒体在传播台风、暴雨、地震等灾害事件信息的即时性愈发凸显。在灾害事件发生后,社交媒体上会出现相关信息短时间内激增的现象,这是因为随着公众安全意识的日益提升,对灾害事件的关注度普遍提高;加之信
3、息传播和交流越发便捷,人们不仅做信息的接收者,同时也在做信息的发布者和传播者。因新浪微博所具有的实时性、交互性、强扩散性、空间分布广泛性等特点,目前已成为灾害事件发生后舆情及灾情等信息的重要来源之一。国内外学者基于微博数据,对不同的灾害事件开展舆情时空变化分析、情感分析、灾情收集分析等方面的研究。陈齐超、李绍攀等研究基于微博数据下的台风灾情过程探测、舆情分析与灾害损失估计等1-2;黄晶以 2019 年“411 深圳暴雨”为例,研究了基于社交媒体的暴雨灾情信息实时挖掘与分析3;还有学者针对不同的地震事件开展了地震舆情时空变化分析、情感分析及灾情收集等方面的研究4-9。本文中以四川芦山 61 级地
4、震和马尔康 60 级震群为例,基于新浪微博数据,获取地震相关的微博和评论等信息,通过对信息进行充分挖掘、分析和表达,研究地震事件中微博舆情的演化、民众情绪反应特征、关注热点等,对房屋破坏、生命线工程破坏、人员伤亡等灾情信息分类提取,可为地震应急处置工作提供第37卷第2期2023年6月内陆地震INLANDEATHQUAKEVol37No2Jun2023收稿日期:2022-06-22;修回日期:2022-09-08课题项目:中国地震局地震应急青年重点任务(202120)作者简介:李亚芳(1985),女,高级工程师,硕士,2010 年毕业于山东师范大学教育技术学专业,主要从事地震科普宣教、新媒体运维
5、等工作E-mail:lyfoe 126com参考。1研究对象11芦山 61 级地震2022 年 6 月 1 日 17 时 00 分在四川雅安市芦山县发生 61 级地震,雅安市震感强烈,成都、宜宾、乐山等地震感明显。6 月 4 日,中国地震局发布四川芦山 61 级地震烈度图,此次地震的最高烈度为度,VI 度区及以上面积 3 887 km2。本次地震灾区先后经历了 2008 年汶川80 级地震和 2013 年芦山 70 级地震,灾区山高谷深坡陡,岩体较为松散。地震后滑坡、崩塌、滚石等地质灾害随处可见,地震还造成多处交通中断并形成一处壅塞体阻断河道。12马尔康 60 级震群2022 年 6 月 10
6、 日 00 时 03 分在四川阿坝州马尔康市发生 58 级地震,01 时 28 分马尔康市再次发生 60 级地震,2 次地震震中相距 26 km,构成震群型地震序列。6 月 13 日,中国地震局发布马尔康 60 级震群地震烈度图,最高烈度为度,VI 度区及以上面积 5 719 km2。此次震群型地震,短时间内先后发生 58 级、60 级和 52 级中强震,震害叠加现象明显。本次地震造成部分房屋倒塌和局部垮塌,地震后滑坡、崩塌、滚石等次生地质灾害随处可见,震中地区道路、电力、通信等生命线工程破坏较重,省道 220 线马尔康至草登乡的道路受损尤其严重,地震还造成红原县一处河道壅塞体。2研究方法破坏
7、性地震发生后,根据地震三要素信息,设置关键词、时间范围等检索条件,通过网络爬虫程序,获取新浪微博上的相关博文和评论信息,存入平台数据库。对数据进行处理分析,产出舆情信息分析图表。运用文本分析法对信息进行分类,筛选出能够反映灾情的相关信息,生成分类图表。新浪微博数据获取途径有网络爬虫技术和调用微博官方 API 接口 2 种方式,其中,基于新浪 API 的数据抓取策略性能高,但服务费用高;本研究运用成本较低的网络爬虫技术进行微博舆情相关信息的抓取。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式10-13
8、。以新浪微博作为数据源,利用新浪微博的高级搜索功能模块,以关键词和时间范围为搜索条件,分别选择“芦山地震”、“马尔康地震”为关键词,结合发震时间,设置震后 24 h 为搜索时间范围。使用基于模拟登陆的方法,利用部署的爬虫程序,进行数据采集14-16。21舆情声量走势分析舆情声量是指话题数量的集合,用声量的响度或强度即声量大小来衡量。舆情声量走势可以反映出一段时间内,相关话题的讨论热度变化情况。由于每个时间段舆情的发展趋势变化不同,因此,可以通过监测所需关注舆情的传播周期动态变化,进而分析舆情的传播热度走势。通过对舆情热度进行量化分析,统计每小时新浪微博上关于相关话题的博文和评论数量,绘制舆情声
9、量走势图。9212 期李亚芳等:基于新浪微博的四川芦山 61 级地震和马尔康 60 级震群舆情分析及灾情信息获取22情感分析情感分析为倾向性分析和意见挖掘,是对带有情感色彩的主观性文本进行自动解释和分类情感(通常是积极、消极或中立)的分析过程。破坏性地震发生后,大量网友在新浪微博发布与地震相关的博文和评论,信息中包含民众的各种情感色彩和情感倾向性的表达,如高兴、生气、悲伤、赞扬、谴责等。通过分析这些信息的主观色彩,可以把握民众舆论对于地震事件的看法和情感倾向。本文中使用的情感分析工具是腾讯云自然语言处理中的情感分析功能模块,对信息情感上的消极、积极及中性进行评价,即情感极性判定。其中消极情绪主
10、要是指民众对地震表现出害怕、恐慌、悲观等负面情绪;积极情绪主要是指民众表现出乐观、祝福、鼓励等正面情绪;中性情绪是指其表达的正面和负面情绪相抵消,或未表现出主观情绪。23热词分析热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。热点话题发现属于微博内容挖掘范畴,是指从大量的微博文本中检测出微博用户广泛讨论的话题。热词分析涉及的关键技术是中文分词技术,本文中运用的分词工具为 Python 的第三方库 jieba分词。jieba 分词首先用正则表达式将中文段落粗略的分成单个句子,将每个句子构造成有向无环图,之后寻找最佳切分方案,最后对于连续的单字,采用 HMM 模型将其再次划分。
11、在完成分词的基础上,调用 Python 中的第三方库 collections 词频统计库对分词进行词频统计,最终得出出现频率较高的一批热词。24灾情信息提取当破坏性地震发生后,第一时间需要了解灾区的破坏情况,包括人员伤亡、房屋破坏、生命线工程破坏等,这些信息统称为灾情信息。对地震灾情信息进行分类,可以实现从多源异构和纷繁复杂的信息中摘取受灾程度信息,以便尽快采取合理的地震应急决策和救援力量部署。微博地震灾情信息具有复杂、多样、随意的特点,对微博地震灾情信息的分类,参考以往研究对灾情信息的分类情况,结合微博地震灾情信息特征及应用需求的特点,采用最常用的分类方法,按选定对象的属性作为划分基础,逐次
12、分成相应类目。本文中将微博舆情信息分为震感、震情、地震科普、祈福、房屋破坏、生命线工程情况、人员伤亡、救援行动、心理变化等类别。3结果与分析在以上研究方法的基础上,对采集到的芦山 61 级地震震后 24 小时的博文 14 368 条,评论 16 518 条,共计 30 946 条信息;马尔康 58 级地震震后 24 小时的博文 9 919 条,评论 15 842条,共计 25 761 条信息,进行数据处理和分析,得出以下分析结果。31两次地震舆情声量分析芦山 61 级地震发生在 17 时,震后网络媒体以及民众对地震的关注度极高,博文信息量在震后 3 小时内一直保持着高值,其中震后 1 小时内的
13、信息量达到最大值 996 篇;随着时间进入深夜,博文和评论数量转入下降趋势,分别在凌晨 3 时和 5 时达到最小值。地震发生后第 2日上午,出于对地震伤亡情况的关注,博文和评论数量再次上涨,分别在第 2 日的上午 8 时和10 时达到最高峰,10 时后整体呈下降趋势(图 1)。031内陆地震37 卷马尔康震群的第一次破坏性地震发生于凌晨零点,虽然地震发生在夜晚,但由于震感强烈且随后不到 2 小时内,紧接着又发生一次强震,所以民众关注度高,博文和评论均在震后 3小时内达到高峰,随后呈下降趋势,并于早上 69 时形成第 2 个小高峰,然后呈下降趋势(图 2)。图 1芦山 61 级地震微博舆情声量走
14、势图(a)博文数量(b)评论数量Fig1Trend chart of Weibo public opinion volume for Lushan MS61 earthquake图 2马尔康 60 级震群微博舆情声量走势图(a)博文数量(b)评论数量Fig2Trend chart of Weibo public opinion volume for Maerkang MS60 earthquake芦山 61 级地震和马尔康 60 级震群的微博舆情声量,整体趋势相同,以 24 h 为区间来看,舆情变化随人员日常作息而出现规律性的变化:凌晨 36 时,舆情热点呈迅速下降并趋于极小范围内的话题讨论;
15、凌晨 6 时之后,话题讨论呈现波动性,整体呈现上升趋势;24 h 内舆情高峰一般出现在震后 3 小时和上午 610 时,整体呈回落趋势。32两次地震舆情情感分析调用腾讯云情感分析 API 模块,得出每条信息的积极情绪值和消极情绪值以及情感极性的判定,通过统计积极情绪值、消极情绪值、中性情绪值所占的比例,得出情感值极性分布图。从情感值极性分布图上可以看到,芦山 61 级地震和马尔康 60 级震群震后 24 h 的微博舆情信息中,积极情绪值的信息所占的比重最大,其次为消极情绪和中性情绪(图 34)。地震发生后,地震系统官方账号和官方媒体及时发布震情信息、应急救援工作开展情1312 期李亚芳等:基于
16、新浪微博的四川芦山 61 级地震和马尔康 60 级震群舆情分析及灾情信息获取况、地震现场灾情等相关信息,及时满足公众知情权。并且,两次地震后,地震部门都立即组织震情会商研判,及时发布“震区近几日发生更大地震的可能性不大”的重要研判意见,有效稳定了民众情绪。两次地震的整体舆情较为积极,民众表现出的积极情绪多以祝福和关心为主。图 3芦山 61 级地震微博舆情情感值极性分布Fig3Polarity distribution of public opinion andemotional values on Weibo duringLushan MS61 earthquake图 4马尔康 60 级震群微
17、博舆情情感值极性分布Fig4Polarity distribution of public opinion andemotional values on Weibo duringMaerkang MS60 earthquake33两次地震舆论热点分析通过对两次地震后 24 h 相关博文和评论进行分词和词频统计,可以得出芦山 61 级地震图 5芦山 61 级地震微博舆情词云Fig5Weibo public opinion lyrics for LushanMS61 earthquake相关热词主要集中在 4 类话题(表 1 和图5):震情,“地震”、“芦山”、“四川”、“雅安”、“发生”、“震源
18、”、“余震”等热词主要出现在震情发布相关的博文中。灾情,因芦山地震造成 4 人死亡和多人受伤,以及滑坡、崩塌等地质灾害,相关热词在微博上也有所体现,如“受伤”、“已致”、“死伤”、“遇难”、“造成”等热词反映了民众对地震灾情的关注。救援,“救援”、“应急”等热词主要出现在发布应急救援工作开展情况的相关博文中。祝福,“平安”、“希望”、“辛苦”、“注意安全”、“抱抱”等热词主要出现在网友的评论中,表达了网友对地震灾区的祈福以及对应急救援工作人员的致敬和叮嘱。表 1芦山 61 级地震微博舆情部分热词词频热词地震芦山四川雅安发生平安受伤救援余震已致死伤词频29 50816 1898 5106 187
19、5 1354 7132 8552 6442 6052 3792 130231内陆地震37 卷马尔康震群的相关热词主要集中在以下 4 类话题(表 2 和图 6):震情,“地震”、“四川”、“马尔康”、“阿坝”、“发生”、“震中”、“时分”、“台网”、“震级”、“凌晨”等热词主要出现在震情发布相关的博文中。此外,与芦山 61 级地震不同,因马尔康地震为震群型地震,故出现了“连发”、“多次”等相关热词。救援,破坏性地震发生后,应急救援工作的开展永远是公众关注的热点之一,因此“应急”、“消防”、“救援”等依然为博文热词。预警,与芦山 61级地震不同,马尔康地震发生后,“预警”这一热词的词频量排在了博文
20、和评论的热词词频榜图 6马尔康 60 级震群微博舆情词云Fig6Weibo public opinion lyrics for MaerkangMS60 earthquake前列。其实,芦山 61 级地震发生后,中国地震预警网在震后 6 s 也发出了地震预警信息,通过预警信息接收终端、手机 APP、广播电视等方式向社会公众推送,为民众地震应急避险和紧急处置提供了宝贵的时间。但由于马尔康地震为震群型地震,且发震时间为夜间,震后民众夜间连续收到多次地震预警信息,“睡意全无”紧急采取避险措施,导致“预警”成为公众讨论的热点话题。祝福,“平安”、“注意安全”、“抱抱”、“辛苦”、“希望”等祈福以及对应
21、急救援工作人员的致敬和叮嘱的相关热词依然大量出现在网友的评论中。表 2马尔康 60 级震群微博舆情部分热词词频热词地震四川马尔康阿坝发生平安预警连发震中应急多次词频21 3341 374512 9393 9813 7771 9191 7771 6951 5171 49112 77034两次地震灾情信息提取分析微博地震灾情信息的提取是建立在微博舆情信息分类的基础上。本文中根据已有的针对网络地震灾情信息分类研究以及地震灾情特点,将微博舆情信息分为震情、震感、地震科普、祈福、房屋破坏、生命线工程情况、人员伤亡、救援行动、心理变化、为应急响应点赞等类别,其中震感、房屋破坏、生命线工程情况、人员伤亡 4
22、 个类别为灾情信息。针对不同类别,分别设置信息分类关键词(表 3),关键词的选取主要通过借鉴已有的研究成果并结合总结提取近年来有影响的震例数据描述性关键词汇,形成灾情信息分类模型字典。对两次地震后 24 h 相关博文和评论进行信息分类识别后,辅以人工筛选判断,最终生成微博舆情分类统计图和灾情分类表。从芦山 61 级地震微博舆情分类统计图上可以看到(图 7),祈福、救援行动、震感、人员伤亡情况、生命线工程情况这几类的信息数量最多。“救援行动”分类表中收集到的信息主要为震中附近各地救援力量开展救援行动的工作动态信息。“震感”分类表中收集到了大量网友反馈的震感描述性信息,部分网友发布了家中鱼缸、吊灯
23、等物品摇晃的视频、照片等。3312 期李亚芳等:基于新浪微博的四川芦山 61 级地震和马尔康 60 级震群舆情分析及灾情信息获取表 3震后微博舆情信息分类关键词微博舆情类别关键词震情中国地震台网、北纬、东经、余震、地震快讯、经度、纬度、震源深度震感头晕、晃、震感、感觉、坐标、抖、厉害、强烈、有感、摇、震醒、摆动、震动地震科普科普、科学避震、知识、方法、措施、学习、如何、手册、常识、记牢、指南祈福平安、祈福、祈祷、希望、保佑、愿、平平安安、注意安全心理变化害怕、恐怖、吓、不敢、呜呜、怕、担心、还好、淡定为应急响应点赞赞、点赞、棒棒、表扬、加油、挺住、感动、敬佩房屋破坏房屋、墙、楼、倒、塌、裂、掉
24、、碎、损毁、损坏、房子生命线工程情况铁路、高速、路况、封路、交通、信号、停电、停水、断网、列车、供电、高铁、道路、桥、电网、无法通行、管制、阻塞、中断、滑坡、滚石、干道、通信人员伤亡受伤、重伤、轻伤、死亡、遇难、不幸、埋、被困、伤亡救援行动救援、奔赴、赶赴、物资、消防、应急、预案、续报、地震局、现场、应急管理、救灾、安置、救助图 7芦山 61 级地震微博舆情分类统计图Fig7Statistical map of Weibo public opinion classificationfor Lushan MS61 earthquake“人员伤亡”分类表中,信息内容主要集中在地震造成 4 人死亡多
25、人受伤的灾情相关描述。“生命线工程情况”分类表中,关注度较高的信息是“部分无线网基站停电、断站,线路传输中断”、“大家暂时不要返回房间,并远离山体滑坡现场”安全提示,以及“部分路段发生山石垮塌”、“列车暂时停发”、“交通管制”、“山体滑坡”,“壅塞形成堰塞湖”等各类灾情信息。从马尔康 60 级震群微博舆情分类统计图上可以看到(图 8),震感、祈福、救援行动、地震科普、震情、心理变化这几类的信息量最多。“震感”分类表中收集到了大量网友反馈的震感描述性信息,如“四川多地震感明显”、“成都、乐山等地有震感”、“整栋楼摇了起来”、“晃了一宿”等。“救援行动”分类表中,转评赞量最高的信息是“多支救援力量
26、深夜集结前往震中”等各地救援力量开展应急救援工作的信息。“心理变化”分类表中收集到大量网友对夜间地震频发表达的“害怕”、“不敢睡觉”、“吓醒”、“惊慌”等情绪。“房屋破坏”分类表中收集到的有“四川阿坝地震亲历者讲述:整栋楼摇了起来”、“监控拍到屋内物品掉落,学生下楼撤至空旷地带”等与房屋相关的信息。“生命线工程情况”分类表中收集到的信息有“山体垮塌”、“消防员奋战一夜仍在前线抢通道路”、“变电站停运,客户停电”、“道路中断,正在抢通中”等各类灾情信息。431内陆地震37 卷图 8马尔康 60 级震群微博舆情分类统计图Fig8Statistical map of Weibo public opi
27、nion classificationfor Maerkang MS60 earthquake4结束语本文中基于新浪微博数据,以四川芦山 61 级地震和马尔康 60 级震群为例,研究网络舆情分析和灾情信息获取的方法,得出如下结论:(1)芦山 61级地震和马尔康 60 级震群的微博舆情声量,整体趋势相同,24 h 内舆情高峰一般出现在震后 3 小时和上午 610时,整体呈回落趋势。(2)芦山 61 级地震和马尔康 60 级震群震后 24 h 的微博舆情信息中,积极情绪值的信息所占的比重最大,这得益于地震发生后,官方账号及时发布相关信息以及地震趋势意见,满足公众知情权,有效稳定民众情绪。(3)芦山
28、 61 级地震的微博舆论热点主要集中在“震情”、“灾情”、“救援”、“祝福”这 4 个方面,与芦山 61 级地震不同,马尔康 60 级震群的微博舆论热点主要集中在“震情”、“救援”、“预警”、“祝福”这 4 个方面。这与两次地震的致灾情况和马尔康地震震群型特点相关。(4)通过信息分类获取到了两次地震的灾情相关信息。但可以看到,以关键词为基础的分类模型存在一定的不准确性,还需辅助人工核验,才能获得更为有效的分类结果。因此,灾情信息分类模型字典还需不断完善。参考文献:1陈齐超,林广发,梁春阳,等基于微博数据和情感分析法的台风“米克拉”灾情过程探测J 亚热带资源与环境学报,2021,16(1):70
29、-76 2李绍攀,赵飞,周义棋,等基于微博数据的台风灾害舆情分析与灾害损失估计 J 清华大学学报(自然科学版),2022,62(1):43-51 3黄晶,李梦晗,康晋乐,等基于社交媒体的暴雨灾情信息实时挖掘与分析 以 2019 年“411 深圳暴雨”为例J水利经济,2021,39(2):86-94 4曹彦波,毛振江基于微博数据挖掘的九寨沟 70 级地震灾情时空特征分析 J 中国地震,2017,12(4):613-625 5毛振江,吕佳丽,曹彦波,等四川九寨沟 70 级地震微博灾情信息特征分析 J 华南地震,2019,39(2):51-57 6曹彦波 基于新浪微博的 2018 年云南通海 50
30、级地震舆情时空特征分析J地震研究,2018,41(4):525-533 7孔珍,张叶廷,杜志强基于微博数据的地震灾情信息识别与应用J地理信息世界,2020,27(6):98-104 8刘耀辉,刘婉婷,张文焯,等基于新浪微博数据的云南漾濞 64 级地震舆情时空特征及情感分析J自然灾害学报,2022,31(1):168-178 9刘婉婷,杨新月,刘耀辉,等基于微博数据的西藏那曲比如县地震舆情分析J震灾防御技术,2021,16(4):772-780 10 李姗姗,孙晓玲,袁国铭基于大数据挖掘技术的地震舆情感知研究J 防灾科技学院学报,2021,23(1):80-86 11 张颖,林洋,张澜,等基于认
31、证微博的灾情信息快速获取与信息提取技术研究J 防灾减灾学报,2020,36(2):75-81 12 张方浩,和仕芳,吕佳丽,等基于互联网的地震灾情信息分类编码与初步应用研究J 地震研究,2016,39(4):664-672 13 孙晓,叶嘉麒,唐陈意,等基于多策略的新浪微博大数据抓取及应用J 合肥工业大学学报(自然科学版),2014,375312 期李亚芳等:基于新浪微博的四川芦山 61 级地震和马尔康 60 级震群舆情分析及灾情信息获取(10):1 210-1 215 14 李金香,温和平,常想德,等基于多光谱遥感的新疆皮山 65 级地震灾情监测与分析J内陆地震,2017,31(1):26-
32、35 15 温和平,谭明,李帅,等2018 年 9 月 4 日新疆伽师 MS55 地震震害研究 J 内陆地震,2019,33(3):193-200 16 刘军,谭明,裴成章,等基于微信公众平台的地震应急救援协同联动系统设计与初步应用 J内陆地震,2021,35(3):285-292PUBLIC OPINION ANALYSIS AND DISASTE INFOMATIONACQUISITION OF LUSHAN MS61 EATHQUAKE ANDMAEKANG MS60 EATHQUAKE SWAMIN SICHUAN BASED ON SINA WEIBOLI Ya-fang,TAN M
33、ing,LI Jin-xiang,WANG Xin-gang,LI Bo(Earthquake Agency of Xinjiang Uygur Autonomous egion,Urumqi 830011,Xinjiang,China)Abstract:The monitoring and analysis of network public opinion information after the earthquake,as well as the rapid acquisition,processing,analysis and judgment of disaster informa
34、tion are ofgreat significance for relevant departments to carry out earthquake emergency rescue,master disasterrelief dynamics and stabilize public sentiment Based on the Sina Weibo data,this paper obtainsWeibo and comments related to Lushan MS61 earthquake and Maerkang MS60 earthquake swarm inSichu
35、an Province By fully mining,analyzing and expressing the information,this paper studies theevolution of Weibo public opinion,characteristics of peoples emotional response,hot spots of con-cern,etc in the earthquake event,and on this basis,classifies and extracts disaster informationsuch as house damage,lifeline engineering damage,casualties,etc,It can provide scientific andtechnological support for earthquake emergency decision-makingKey words:Lushan earthquake;Maerkang earthquake swarm;Sina Weibo;Public opinion analy-sis;Disaster acquisition631内陆地震37 卷