收藏 分销(赏)

基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf

上传人:自信****多点 文档编号:649711 上传时间:2024-01-23 格式:PDF 页数:6 大小:1.85MB
下载 相关 举报
基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf_第1页
第1页 / 共6页
基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf_第2页
第2页 / 共6页
基于文本挖掘的政府数据开放平台在线评论内容特征分析.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、40探索与创新基于文本挖掘的政府数据开放平台在线评论内容特征分析王丽雅1 庞晓楠2(1.沈阳建筑大学图书馆 辽宁沈阳 110168)(2.沈阳建筑大学计算机科学与工程学院 辽宁沈阳 110168)摘 要:政府开放数据平台是连接用户和数据的重要桥梁。文章从用户利用的视角出发,采用Tf-idf特征提取、词云图、社会语义网络图等深度挖掘文本内容,展示用户需求的热门数据并及时找到存在的问题,从而提出优化内容服务、增强互动设计、完善反馈解答以及规范隐私保护四个方面的建议。通过对政府数据开放平台的用户反馈评论数据的挖掘,为我国政府开放数据平台的发展提供参考建议。关键词:文本挖掘;用户反馈;政府数据开放平台

2、;开放数据中图分类号:G252.0 文献标识码:AText Mining-Based Analysis of Online Comments on Government Open Data PlatformsAbstract The government open data platform is an important bridge connecting users and data.This article starts from the perspective of user utilization,and uses techniques such as Tf-idf feature

3、extraction,word cloud,and social semantic network analysis to deeply mine the content of user feedback and showcase the popular data needs while timely identifying existing problems.Based on this,it proposes four suggestions for refining content services,enhancing interactive design,improving feedba

4、ck and answers,and regulating privacy protection.By mining user feedback data on the government open data platform,this study provides reference suggestions for the development of Chinas government open data platform.Key words text mining;user feedback;government data open platform;open data1 引言政府数据

5、开放是信息技术、政治和社会发展到一定阶段的产物1,而政府数据开放旨在让用户参与来创造公众价值2。我国高度重视政府数据开放并加快政府数据开放平台建设。2020年4月,国务院颁布的关于建立更加完善的要素市场配置机制的意见 中指出,要推进政府数据开放共享,提升社会数据资源价值,“迎接数字时代,激活数据要素潜能”被确立为战略布局重要内容。截至2022年10月,我国已有208个省级和城市的地方政府上线了数据开放平台,基本实现了公共数据的平台化服务。但是中国目前尚未建成全国性的政府数据开放平台,“数林”的整体格局模式尚未形成3。为了更加精准、有效地为用户提供数据服务,让*本文系辽宁省高等学校图书情报工作委

6、员会基金项目“馆、社、商三方合作背景下的高校图书馆服务创新机制与实践研究”(项目编号:LTB201904)的成果之一。*412023 年第 9 期开放数据创造更大的经济和社会价值,深入研究平台用户反馈具有重要意义4。通过对政府数据开放平台的用户反馈评论数据进行挖掘,结合词云图和社交网络的语义关系进行可视化分析,展示用户需求的热门数据并及时找出平台建设过程中存在的问题,为政府数据开放平台更好满足用户需求提供有效借鉴,以期提高我国政府数据开放平台的建设水平。2 相关研究概述从现有研究来看,我国学者主要采用定性和定量相结合的方法,从不同维度对不同国家、地区的开放数据平台进行探讨。如黄如花5在数据生命

7、周期理论的指导下,以多个开放数据的生命周期模型为基础,建立了一个完整的政府数据开放共享标准体系。付熙雯和郑磊6则提出开放数据的动态体系,提出我国开放数据工作要从系统、动态的角度来看待问题、推动工作,以社会、市场需要为起点,以公共利益为终极目的,开放与应用并重,政府与社会共同努力,与政策、管理和技术同时进行,促进开放数据的良性循环。姬卓君和马海群7运用AHP(AnalyticHierarchyProcess,层次分析法)方法,从政策、数据、开放数据平台三个层面对中国9个地区的开放数据平台进行评价,并基于中国大多数的城市数据质量较低且较差的评价结果给出相应的对策。程风、邵春霞8从历史、能力和外部因

8、素三个层面对中国19个省市的政府数据开放程度进行研究,运用模糊集定性比较分析方法对其进行具体的分析。邓胜利、夏苏迪9针对开放数据平台的建设情况,从数据层和平台层2个层面的11个维度对中美城市政府开放数据平台的发展现状进行了对比分析,根据对比分析得出的问题提供对策。现有研究主要从指标、理论设计和实证等方面进行了分析,对中国政府数据开放平台建设的现状进行了深入的探索,并对其进行了相应的优化和改进,以提高我国政府数据开放水平。政府数据开放平台的用户是实际的数据使用者,通过对用户反馈评论数据进行文本分析,我们可以了解平台的服务和功能是否真的让用户满意。在目前的研究中,最常使用比较分析、文献分析等定性研

9、究和描述性分析相结合的方法。与此同时,由于人工智能和机器学习等技术的广泛应用,使得传统的实证研究在时间和空间上受到限制,导致了研究效率低下,而大数据时代的来临,使我们有机会更新研究方法,对政府数据开放平台的服务质量进行更加科学、有效的评估。因此,本文从用户角度出发,以我国建议反馈功能模块较为完善的浙江省政府数据开放平台为例,收集了大量的用户反馈评论数据,运用文本挖掘的方法对其进行分析,力图通过文本内容特征体现出更加真实、准确的信息。然后根据反馈的内容,及时找出问题所在,并针对这些问题提出相应的改进措施,从而提高我国政府数据开放平台的建设水平。3 研究设计3.1 研究思路通过网络爬虫采集浙江省政

10、府数据开放平台用户反馈评论数据,并对数据进行数据清洗、中文分词和去除停用词等预处理10;对预处理后的数据提取特征词,对评论数据进行词频分析并制作词云图11;最后利用ROSTCM6内容挖掘系统软件(ROSTContentMining6)对数据进行语义网络分析,生成词频数据和语义网络可视化图像12。具体流程如图1所示。3.2 数据获取及预处理图 1 基于用户反馈评论数据的文本挖掘分析模型3.2.1 数据采集本研究以浙江省政府数据开放平台为数据采集对象,以其用户反馈评论数据作为研究对象进行文本挖掘研究。将该平台子栏目下的互动文本数据进行归类,分为“数据需求”“平台体验”“数据纠错”三大模块,使用Py

11、thon采集浙江省政府数据开放平台用户反馈评论数据。收集时间为2022年11月12日,采集信息共845条,部分评论数据如表1所示。3.2.2 数据预处理基于文本挖掘的政府数据开放平台在线评论内容特征分析42(1)数据清洗。为了增强数据分析的可信性,对原始的评论进行了必要的清理和删除,文本信息去噪(删除了重复以及不相关的评论),减少了对分类的影响。最后把剩余的802条评论数据作为样本数据保存到.txt文件中。(2)文本分词。在文本挖掘的过程中,将评论语句拆分成单个的词语,以便于分析语句的特性进行更好的处理。jieba词库是中文分词系统中效果最好的中文分词组件之一,主要有三种类型:精确模式、全模式

12、和搜索引擎模式。本文采用jieba算法对爬取得到的数据进行文本分词处理(精确模式)。中文分词的步骤是:将用户的反馈信息输入到.txt文件中,把jieba文件装入Python;进行代码的分词,为了优化分词的效果,根据实际情况,在编程中加载了自定义词典;在分析结果时,如果单词长度为1,可解释性较弱,因此要选取长度超过1的单词,才能更好地理解结果13。(3)去除停用词。那些在文本分类中没有任何实际意义但却频繁出现的词被称为“虚词”,即停用词,删除停用词后可以更加准确地传达文章的主旨,避免某些不必要的词汇会影响分析14。在哈尔滨工业大学自然语言处理实验室停用词典中,添加了一些自定义的词汇(主要是标点符

13、号、官方网站回复的礼貌用语以及省市的名称)。在语料库中适当降低停用词出现的次数,有助于我们对关键词的精炼,使其更加集中、突出15。4 实例分析4.1 基于词云图的高频词分析基于上述划分的模块,按不同类目(标题词频、问题描述、回复词频)利用Tf-idf算法对文字进行特征抽取,其主要依据单词在一段文字中出现的频率和在各个语料库中的使用频率,以此来反映该词的重要性。这种方法能够区分词频中词汇的重要性。如果某一词在一文本中的频率较高,而在词库中又很少见,则该词为本文的关键词;相反,如果这个词在语料库中所有的文本中都是高的,则该词的重要性就会降低。Tf-idf的值越大,说明这个特征词对用户反馈评论数据的

14、重要性越高16。根据Tf-idf的计算结果,提取三个模块前20个特征词,如表2所示。“数据”“信息”“申请”“接口”“平台”“开放”“数量”等特征词尤为显著,说明这几个特征词在政府数据开放平台的用户反馈评论数据中具有较高的重要性17。为了更好地展现用户在反馈过程中所关心的问题和需要,本研究采用了“词云图”来进行特征可视化。词云图中的文字大小可以看出这个词在所有评论中的重要程度,通过词云图可以看出文本所要表达的主要含义。按不同类目(标题词频、问题描述、回复词频)绘制词云图进行可视化,如图2图4所示。获取主题并追踪原文,使其更加准确地对主题词加以解读。由图可见,在“数据需求”中,“企业”“人口”“

15、资源”等标题出现频率较高,表明大部分用户存在获取企业信息、旅游资源数据、地级市人口数量等的倾向。在“数据纠错”中,“数据”“信息”存在着“缺少对应格式”、“打不开”以及“地址报错”,平台部分功能使用存在技术问题等。在“回复词频”中,我们发现在解答用户反馈的问题时,出现了特征词“无法”“深表抱歉”等,不能真正解决用户的问题,还可能使用户产生消极情绪,认为反馈是一种无意义的行为。图 2“标题词频”模块词云图表 1 用户反馈部分评论数据模块反馈的内容数据需求杭州市流浪动物相关数据A 级景区数量;星级饭店数量;旅行社数量水资源公报浙江省 2018 和 2013 年的经济普查年鉴平台体验舟山市怎么互动反

16、馈功能在省平台上,那怎么联系舟山市负责这个的人啊气象灾害预警信号信息,建议默认按照时间降序增加权益申诉版块数据纠错订阅更新查收不到测绘作业证摘要描述有误地市数据开放部门应用审核过程受阻,请省平台指导协助数据预览缺乏可视化工具432023 年第 9 期表 2 各模块 Tf-idf 值排名前 20 的文本特征词标题词频问题描述回复词频关键词Tf-idf 值关键词Tf-idf 值关键词Tf-idf 值数据0.037709978申请0.015668666反馈0.01084632信息0.034118879信息0.015448948问题0.011333798申请0.0280189平台0.011999412

17、查询0.01242157接口0.018170022数量0.011930468信息0.015563922平台0.019783928接口0.010726917提供0.011404175开放0.017877764开放0.009208949关注0.011888942数量0.014221476情况0.008790959平台0.012733034企业0.013021192下载0.007684527部门0.013167499需求0.011276088查询0.006793014接口0.011535406相关0.011276088应用0.007681868主体0.010766696面积0.011105473人数

18、0.007201751申请0.010133361情况0.010342892统计0.005855893下载0.009629382查询0.008329105研究生0.005437615需求0.008697506注册0.008329105时间0.005437615展示0.007428505资源0.008329105收入0.006049817使用0.007428505问题0.008329105使用0.005572452更新0.008517256历史0.007233265地区0.005718088公共数据0.009270502历年0.007233265地址0.005424372受限0.007584956

19、人数0.008002222面积0.005462618政府0.006298267人口0.007233265显示0.004838382目录0.005653932图 4“回复词频”模块词云图观地了解到政府数据开放平台的用户所关注和重视的若干要素,但不能发现这些要素的关联18。我们需要采用语义网络分析的方法直观地分析特征词之间的联系,并且通过语义网络分析的节点,进一步探究用户反馈评论数据中存在的其他特征。本研究采用ROSTCM6的内容挖掘系统对用户的评论文本进行社会网络和语义网络的分析。ROSTCM6是由武汉大学沈阳教授团队研发的国内目前唯一辅助人文社会科学研究的计算平台,它把分词结果导入软件中,然后

20、按顺序生成共现语义网络以及共现矩阵词表等。生成的共现矩阵如表3所示,共现语义网络如图5所示。分析共现矩阵可以看出,用户反馈评论形成了以“数据”为中心的评论网络。共现矩阵展示了各个高频词之间的共现关系。其中“数据-问题”(260次)、“数据-平台”(167次)、“部门-主体”(65次)多次共现说明了高频词之间的亲疏关系,这有助于平台挖掘高频词背后更深层次的联系。由共现语义网络图可见,“信息”“数据”节点处于网络图的中心位置,其他节点向四周发散分支出一些密切相关的话题。在中心节点附近分布着一些一级图 3“问题描述”模块词云图4.2 基于语义网络的共现分析通过文本特征提取和词云图分析后,可以很直基于

21、文本挖掘的政府数据开放平台在线评论内容特征分析44的反馈循环,为今后政府数据开放平台的发展奠定坚实的基础。本文根据前文的文本挖掘结果和语义网络中的主题词,总结出未来平台应当改进的方向。5.1 优化内容服务,推进数据“驱动”通过对调查结果的分析,发现目前用户更倾向于获取平台数据资源现状以及教育文化、行业资源等方面的数据。但是,用户的需求是动态的,政府应当综合用户反馈以及时事热点不断调整更新,开放数据平台所提供的信息应符合政策导向,注重对热点区域的采集,并根据用户的喜好对其进行个性化的推荐,以最大程度地为用户提供高质量的目标数据。保证“新鲜”的数据并对数据及时更新,为用户提供精细化的“新鲜”数据。

22、只有如此,政府数据开放平台的数据才能真正发挥作用,从而推动经济和社会发展。5.2 增强互动设计,打造数据交流园地在对用户反馈的平台体验进行分析时,发现了其存在互动功能交流不足的问题。针对这一问题,政府部门应该以用户体验为抓手,加强用户的主动服务意识,并完善平台的各项用户参与功能设计,比如建立信息分享机制,让用户可以在微博、朋友圈等社交平台上共享数据;增强信息交流和互动功能,让用户提交数据及请求、反馈问题并鼓励用户对开放数据进行打分和评论。通过提供个性化的信息服务,突破用户之间的交流障碍,方便用户间的信息交流。5.3 完善反馈解答,保证回应质量在解答用户反馈的问题时,“对此深表歉意,后续如有更新

23、,这边会进行同步更新”等不具体的回答不在少数。这样的解答不仅无法解决用户的问题,反表 3 共现矩阵高频词数据信息问题平台部门数量企业建议情况主体时间资源数据022726016729408432130346625信息22704866144371688910问题26048032434716334108平台16766320813411002部门291443800636165519数量40441006118010企业84377366006062建议32161643610012127情况1308311118610001主体34834065002100512时间66910051620502资源251082

24、1902711220核心词,“开放”“申请”“接口”“公开”等词紧紧围绕中心节点,可以看出用户普遍关注平台数据资源的建设现状,通过分析用户反馈评论数据的相关内容发现,用户比较关注平台的API数据接口、数据应用数据获取等数据服务。此外,“政府采购”节点也具有一定的中心性,主要涉及省级政府采购、年度政府采购以及收入等方面的内容。值得关注的是,共现语义网络图中“大学”“研究生”“科研”“论文”这几个节点联系十分紧密,说明用户关注高校以及科研论文的数据,体现了用户对教育文化等方面信息的需求。通过特征词之间的共现关系可以很清楚地看到用户所关心和重视的方面,政府数据开放平台仍需根据用户切实需求不断提升数据

25、服务。5 服务优化路径对于用户而言,反馈的建议得到采纳并得到解决,将会大大提高其参与积极性,从而形成一个良性图 5 共现语义网络图452023 年第 9 期而会产生反效果,使用户觉得该行为是毫无意义的。因此,应该加强政府部门回应的质量,在信息技术部门的协助下,通过培训提高政府工作人员的专业技能及协调能力;建立特定的问题解答模板,如问题描述、解决时间、处理机构、举报邮箱等,做好反馈解答的定期检查工作,对问题进行复查,解决问题并加以改进。增强用户对政府的信任,便于用户通过数据进行科研创新,促进社会发展。5.4 规范隐私保护,培育数据文化政府数据开放意味着政府要承担数据信息泄露的风险和数据隐私保护的

26、责任。在保障机制方面,政府要妥善处理数据公开与隐私之间的关系,明确数据公开和保密的范围,加快制定数据、信息安全与隐私保护方面的法律法规。从长远考虑,政府部门还应当培养公民的数据权利意识,通过培训、宣传等方式促使数据观念深入人心,从而增强用户的个人数据保护素养,强化数据保护意识19。6 结语本文采集了浙江省政府数据开放平台的用户反馈评论数据,结合词云图和社交网络的语义关系对其进行可视化分析,定位痛点,优化服务。本文提出了一种基于文本挖掘的新思路,对传统的调查方法进行补充,以期为其他政府信息公开平台的建立和完善提供参考。但值得注意的是,本文的研究对象仅以一个地方政府数据开放平台为主,样本数量较少,

27、数据源有待进一步补充丰富。参考文献:1肖冬梅,苏莹.我国政府数据开放中的安全风险及其防范对策J.现代情报,2022,42(6):112-120,131.2刘桂琴.政府数据开放平台用户评论情感差异分析J.数字图书馆论坛,2019(2):18-23.3雷玉琼,苏艳红.地方政府数据开放平台发展模式及绩效差异J.中国行政管理,2020(12):40-46.4李冠,赵毅.基于在线评论的政府数据开放平台用户增量需求研究J.数字图书馆论坛,2022(12):37-46.5黄如花.我国政府数据开放共享标准体系构建J.图书与情报,2020(3):17-19.6付熙雯,郑磊.开放政府数据的价值测量:特征与方法的比

28、较研究J.图书情报工作,2020,64(19):140-152.7姬卓君,马海群.我国政府数据开放状况评价分析J.图书情报研究,2018,11(1):12-19.8程风,邵春霞.中国省级政府数据开放水平的驱动机制研究J.情报杂志,2022,41(3):198-207.9邓胜利,夏苏迪.中美城市政府开放数据平台对比研究J.图书馆杂志,2019,38(6):57-68,75.10陈俊宇,郑列.基于R语言的商品评论情感可视化分析J.湖北工业大学学报,2020,35(1):110-113.11黄苏雨.基于情感分析的LDA模型在在线评论中的运用J.现代营销,2018(1):82-83.12张振华,许柏鸣

29、.基于在线评论文本挖掘的商业竞争情报分析模型构建及应用J.情报科学,2019,37(2):149-153,160.13毕达天,楚启环,曹冉.基于文本挖掘的消费者差评意愿的影响因素研究J.情报理论与实践,2020,43(10):137-143.14马松岳,许鑫.基于评论情感分析的用户在线评价研究:以豆瓣网电影为例J.图书情报工作,2016,60(10):95-102.15董爽,王晓红,葛争红.基于文本挖掘的B2C购物网站在线评论内容特征分析J.图书馆理论与实践,2017(6):54-58.16张公让,鲍超,王晓玉,等.基于评论数据的文本语义挖掘与情感分析J.情报科学,2021,39(5):53-61.17杨九龙,鲍慧璐.用户在线评论省级公共图书馆内容挖掘与情感分析J.图书馆学研究,2021(21):10-17.18池毛毛,潘美钰,王伟军.共享住宿与酒店用户评论文本的跨平台比较研究:基于LDA的主题社会网络和情感分析J.图书情报工作,2021,65(2):107-116.19杨瑞仙,毛春蕾,左泽.国内外政府数据开放现状比较研究J.情报杂志,2016,35(5):167-172.作者简介:王丽雅,沈阳建筑大学图书馆馆长,研究馆员,研究方向为图书馆管理;庞晓楠,沈阳建筑大学计算机科学与工程学院硕士研究生,研究方向为政府数据开放、图书馆管理。收稿日期:2023-01-03本文责编:王晓琳

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服