1、信息技术 年第 期电力企业互联网舆情数据规格化存储系统设计韩 维 孙林檀 吕静贤 陈 龙 彭 渤 潘宝玉(.国家电网有限公司客户服务中心 天津 .天津市普迅电力信息技术有限公司 天津)摘 要:为避免舆情焦点损伤电力企业形象设计了电力企业互联网舆情数据规格化存储系统实时采集、处理并存储公共舆情数据 利用基于 改进算法的聚焦网络爬虫爬取原始数据层的舆情数据构建正则表达式描述语义模型应用基于负载权重的负载均衡算法的存储负载均衡机制根据负载差值计算存储节点执行任务的概率更新存储节点的负载实现各存储节点负载均衡 实验结果表明:读取时间均值为 写入时间均值为 数据读写效率高各存储节点负载均衡对大规模数据的
2、处理及存储性能更佳关键词:电力企业 规格化存储 网络爬虫 负载均衡中图分类号:文献标识码:文章编号:():./.作者简介:韩维()女硕士高级工程师研究方向为电力信息化 (.):.:引 言随着电力企业线上业务的增多数据规模越来越大舆情监测需满足数据的及时性、并行性实现数据的高效读写这给舆情数据的采集及存储带来了巨大挑战 张迪等从软硬件角度利用 设计了数据同步采集与存储系统运行较为稳定采集精度较高但该系统数据存储效率较低张敏等设计了基于文件管理的存储系统提高了存储速度但该系统无法满足文件小而多、数据规模体量大的信息存储为了提高存储系统处理数据的速度增强存电力企业互联网舆情数据规格化存储系统设计 韩
3、维 等储性能本文设计了电力企业互联网舆情数据规格化存储系统 舆情数据规格化存储系统 系统的总体设计电力企业互联网舆情存储系统的总体框架如图 所示图 舆情存储系统整体框架 舆情数据采集模块在舆情数据采集时内容页面和列表信息是需采集的重要内容 内容页面的采集是根据网页的 源代码抓取舆情数据的原始页面即去除无价值信息后的页面内容列表信息的采集是根据原始网页的 进行爬行参数、深度及相关规则等获取原始页面的源代码 规格化与预处理模块舆情数据采集模块获取的网页源代码中通常含有很多无价值的内容数据规格化可实现对有价值内容的提取 但计算机不能处理规格化的数据信息需通过预处理模块实现数据处理功能规格化网页源代码
4、处理是数据规格化的前提通过 解析源代码获得 对象并可对其中的标签进行处理 利用相关算法对电力企业的互联网舆情报道进行正文抽取获取舆情报道内容、时间、标题等重要信息预处理利用、分词工具并引入用户词典将获取的舆情正文、标题等重要信息做分词处理删除停用词引入用户词典可使分词处理精确度更高 分词后内容仍存在大量无价值信息需进行去噪处理将其中的无用词过滤掉将规格化与预处理后的舆情数据信息存储在舆情数据存储模块中 舆情数据存储模块舆情数据存储模块结构如图 所示图 舆情数据存储模块结构图舆情数据存储模块由数个存储服务器构成作为存储子节点其功能是接收并存储来自目录服务器派发的存储、计算任务目录服务器及全部存储
5、子节点构成庞大的存储池目录服务器通过节点信息表及文件目录表实现存储资源的统一调配检索服务器的主要功能之一是向存储子节点发送检索请求各存储子节点依据请求对各自索引进行调取再将所查结果报告给索引服务器另一功能是合并查询结果发送给查询请求者 系统软件设计 基于 改进算法的聚焦网络爬虫 算法计算公式为:(/)()式中针对第 个文档第 个词在该文档的权值为 第 个词在此文档的使用次数为 全部文档使用主题的次数表示为 越大辨识度越高可以更好地与其他文档区分开 根据公式()可知增大也增大增大词汇在部分文档的使用频率更高可提高辨识度 为使公式电力企业互联网舆情数据规格化存储系统设计 韩维 等()具有应用性需作
6、向量归一化处理表达为:(/)(/)()在划分主题后由于获得的部分词汇本身是无价值的但在文档相似度辨别中却起到较大的作用而相比之下主题关键词的作用却较小所以需改进 算法 将主题分割成关键字删除其中无意义的虚词对各个词作加权处理来表达其重要程度其公式改进为:()()(/)(/)()式中针对第 个文档主题的价值度为 网页中存在部分标签的权重较高对于主题具有更大的价值所以需采用平均加权和累加计算的方法对其做加权处理区别于其他标签权重表达式为:()()()()式中第 标签权值为()针对第 个词其累加权值平均值为()标签的累加权重为()页 面 上 所 有 此 标 签 的 权 值 之 和 为()()为标签权
7、值函数其表达式为:()()此时获得()当标签列表中无关键字时()所以()的区间范围为但在实际应用中其范围应该为因此将()调整为:()()()()利用正则表达式描述语义模型对其进行权重分配改进后的主题价值度公式为:()()(/)(/)()式中针对第 个文档关键字的价值度为 正则表达式的使用次数总计为 对于第 的正则表达式其权值为()第 个文档的平均权值为()使用频率为 基于负载权重的负载均衡算法数据存储层的存储负载均衡机制是基于负载权重的负载均衡算法计算各存储节点的运行情况和负载利用负载权值选择存储节点的集合实现各存储节点负载的均匀调配保障系统存储数据均衡化 节点性能和负载的计算 ()表示分布式
8、存储系统中的存储节点各存储节点之间是不均衡的所以需依据各节点的存储、计算能力进行任务的调配使系统具有更优的负载能力 表示节点()代表节点能力主要受以下指标影响:为 个数()为 频率 ()为内存大小()为磁盘/的速率()为网络吞吐量()的运算公式为:()()()()()()其中 ()代表 的负载主要受以下指标影响:()为 占用率()为内存占用率()为磁盘/的占用率()为网络带宽占用率()的运算公式为:()()()()()()式中全部指标的权值参数为 是所有指标受其他因素干扰大小的体现例如各节点具有较大的网络吞吐量及硬盘/指标对 服务有利 的高速运行和内存指标更有利于 服务依据需求可调整 的大小使
9、其性能更优电力企业互联网舆情数据规格化存储系统设计 韩维 等 舆情数据规格化存储的节点负载调配算法为了使舆情存储系统具有较高的灵活性运行更平稳设计节点负载调配算法 为阈值对 进行设置接收到新任务时对备选节点集合进行选择 表示节点集合为选择的节点需符合以下条件:()()()()()()其中为随机节点当 符合公式()时则将节点 放入到 中针对 节点集合运算其内所有节点可执行任务的概率()将其表达为:()()/()()针对分配的一项任务依据各节点任务执行概率选择一个节点派发任务利用下式对此节点的负载进行更新:()()()/()()式中 为各节点的负载增量其表达式为:()/()式中节点的负载值为()此
10、节点的任务请求数量为 算例分析将本文系统应用在某区域的电力企业互联网中对其舆情数据实施规格化存储 设置该电力企业的互联网舆情检索主题为“六安故障停电”采集关键词为“六安电业局、故障、停电、断电”设置 近 三 个 月 内 两 主 题 的 舆 情 样 本 数 量 各 个为验证本文存储系统的采集性能分别采用本文系统、文献基于 的存储系统、文献基于文件管理的存储系统采集近三个月内关于上述主题的舆情信息 偏移量与主题关键词匹配但检索的页面与语义无关联电力企业舆情采集结果如表 所示表 电力企业互联网舆情采集结果指标本文系统文献系统文献系统采集页面数量/个采集时间 小时 分 小时 分 小时 分准确量/个偏移
11、量/个错误量/个漏检量/个分析表 可知本文系统采集的舆情信息更全面且采集效率较高为验证本文系统的文件读取性能统计不同线程数量以及不同文件大小下各系统读写时间结果如表 所示表 各系统读写能力统计指标本文系统文献系统文献系统文件大小/线程数线程数线程数读取时间/写入时间/读取时间/写入时间/读取时间/写入时间/均值方差均值方差均值方差均值方差均值方差均值方差 .分析表 可知本文系统的读写时间均值及方差均较小数据处理速度更快系统稳定性更强本文系统采用负载均衡算法实现系统任务的电力企业互联网舆情数据规格化存储系统设计 韩维 等均衡分配通过负载差距度指标体现系统各存储节点间的任务分配情况在系统并发数据逐
12、步增多时比较负载均衡算法使用前、后系统的存储性能实验结果如图 所示图 系统均衡度比较分析图 可知本文系统不采用负载均衡算法时在并发请求数达到 之前负载差距度有明显降低趋势随着并发请求数继续增多负载差距度降低幅度微小采用均衡算法后负载差距度大幅度降低且并发数据规模巨大时降低幅度更明显任务分配更加均衡存储负载更低可大大提升系统的存储性能 结束语利用电力企业互联网舆情数据规格化存储系统对电力企业的舆情信息进行采集舆情采集正确率高错误、偏移、漏检数据较少且有较高的采集效率采集效果好数据读写时间短存储性能显著存储系统更稳定保证了存储负载均衡更适合规模较大数据的处理但是 本研究并未涉及网络传输关键大数据加
13、密的问题因此在下一阶段的研究中需要通过负载均衡控制压缩冗余加密大数据特性对存储后的大数据施加特性约束和波束校验进一步完成大数据优化存储完善舆情信息的应用过程参 考 文 献:刘福鑫李劲巍王熠弘等.基于 的云原生海量数据存储系统设计与实现.计算机应用():.陈磊吴晓晖.基于 的分布式集群大数据动态存储系统设计.中国电子科学研究院学报():.张迪宋玉龙刘立刚等.基于 的多元数据同步采集与存储系统的设计与实现.液晶与显示():.张敏孟令军.基于文件管理的高速存储系统的设计与实现.电子器件():.李朋远张志勇.基于 的海量数据存储平台设计.计算机科学():.白茹.基于云计算和 的网络舆情监控系统设计.电子设计工程():.郝立华.基于 的网络舆情监控系统设计.电子设计工程():.王海涛李战怀张晓等.一种基于 树的键值存储系统性能优化方法.计算机研究与发展():.谢修娟李香菊莫凌飞.基于改进 算法的微博舆情分析研究.计算机工程与科学():.丁晓江明.双网隔离环境下电力物联网内外信息交互设计.信息技术():.(责任编辑:丁晓清)(上接第 页).:.:():.(责任编辑:丁晓清)
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100