ImageVerifierCode 换一换
格式:PDF , 页数:5 ,大小:1.26MB ,
资源ID:1157197      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/1157197.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(电力企业互联网舆情数据规格化存储系统设计.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

电力企业互联网舆情数据规格化存储系统设计.pdf

1、信息技术 年第 期电力企业互联网舆情数据规格化存储系统设计韩 维 孙林檀 吕静贤 陈 龙 彭 渤 潘宝玉(.国家电网有限公司客户服务中心 天津 .天津市普迅电力信息技术有限公司 天津)摘 要:为避免舆情焦点损伤电力企业形象设计了电力企业互联网舆情数据规格化存储系统实时采集、处理并存储公共舆情数据 利用基于 改进算法的聚焦网络爬虫爬取原始数据层的舆情数据构建正则表达式描述语义模型应用基于负载权重的负载均衡算法的存储负载均衡机制根据负载差值计算存储节点执行任务的概率更新存储节点的负载实现各存储节点负载均衡 实验结果表明:读取时间均值为 写入时间均值为 数据读写效率高各存储节点负载均衡对大规模数据的

2、处理及存储性能更佳关键词:电力企业 规格化存储 网络爬虫 负载均衡中图分类号:文献标识码:文章编号:():./.作者简介:韩维()女硕士高级工程师研究方向为电力信息化 (.):.:引 言随着电力企业线上业务的增多数据规模越来越大舆情监测需满足数据的及时性、并行性实现数据的高效读写这给舆情数据的采集及存储带来了巨大挑战 张迪等从软硬件角度利用 设计了数据同步采集与存储系统运行较为稳定采集精度较高但该系统数据存储效率较低张敏等设计了基于文件管理的存储系统提高了存储速度但该系统无法满足文件小而多、数据规模体量大的信息存储为了提高存储系统处理数据的速度增强存电力企业互联网舆情数据规格化存储系统设计 韩

3、维 等储性能本文设计了电力企业互联网舆情数据规格化存储系统 舆情数据规格化存储系统 系统的总体设计电力企业互联网舆情存储系统的总体框架如图 所示图 舆情存储系统整体框架 舆情数据采集模块在舆情数据采集时内容页面和列表信息是需采集的重要内容 内容页面的采集是根据网页的 源代码抓取舆情数据的原始页面即去除无价值信息后的页面内容列表信息的采集是根据原始网页的 进行爬行参数、深度及相关规则等获取原始页面的源代码 规格化与预处理模块舆情数据采集模块获取的网页源代码中通常含有很多无价值的内容数据规格化可实现对有价值内容的提取 但计算机不能处理规格化的数据信息需通过预处理模块实现数据处理功能规格化网页源代码

4、处理是数据规格化的前提通过 解析源代码获得 对象并可对其中的标签进行处理 利用相关算法对电力企业的互联网舆情报道进行正文抽取获取舆情报道内容、时间、标题等重要信息预处理利用、分词工具并引入用户词典将获取的舆情正文、标题等重要信息做分词处理删除停用词引入用户词典可使分词处理精确度更高 分词后内容仍存在大量无价值信息需进行去噪处理将其中的无用词过滤掉将规格化与预处理后的舆情数据信息存储在舆情数据存储模块中 舆情数据存储模块舆情数据存储模块结构如图 所示图 舆情数据存储模块结构图舆情数据存储模块由数个存储服务器构成作为存储子节点其功能是接收并存储来自目录服务器派发的存储、计算任务目录服务器及全部存储

5、子节点构成庞大的存储池目录服务器通过节点信息表及文件目录表实现存储资源的统一调配检索服务器的主要功能之一是向存储子节点发送检索请求各存储子节点依据请求对各自索引进行调取再将所查结果报告给索引服务器另一功能是合并查询结果发送给查询请求者 系统软件设计 基于 改进算法的聚焦网络爬虫 算法计算公式为:(/)()式中针对第 个文档第 个词在该文档的权值为 第 个词在此文档的使用次数为 全部文档使用主题的次数表示为 越大辨识度越高可以更好地与其他文档区分开 根据公式()可知增大也增大增大词汇在部分文档的使用频率更高可提高辨识度 为使公式电力企业互联网舆情数据规格化存储系统设计 韩维 等()具有应用性需作

6、向量归一化处理表达为:(/)(/)()在划分主题后由于获得的部分词汇本身是无价值的但在文档相似度辨别中却起到较大的作用而相比之下主题关键词的作用却较小所以需改进 算法 将主题分割成关键字删除其中无意义的虚词对各个词作加权处理来表达其重要程度其公式改进为:()()(/)(/)()式中针对第 个文档主题的价值度为 网页中存在部分标签的权重较高对于主题具有更大的价值所以需采用平均加权和累加计算的方法对其做加权处理区别于其他标签权重表达式为:()()()()式中第 标签权值为()针对第 个词其累加权值平均值为()标签的累加权重为()页 面 上 所 有 此 标 签 的 权 值 之 和 为()()为标签权

7、值函数其表达式为:()()此时获得()当标签列表中无关键字时()所以()的区间范围为但在实际应用中其范围应该为因此将()调整为:()()()()利用正则表达式描述语义模型对其进行权重分配改进后的主题价值度公式为:()()(/)(/)()式中针对第 个文档关键字的价值度为 正则表达式的使用次数总计为 对于第 的正则表达式其权值为()第 个文档的平均权值为()使用频率为 基于负载权重的负载均衡算法数据存储层的存储负载均衡机制是基于负载权重的负载均衡算法计算各存储节点的运行情况和负载利用负载权值选择存储节点的集合实现各存储节点负载的均匀调配保障系统存储数据均衡化 节点性能和负载的计算 ()表示分布式

8、存储系统中的存储节点各存储节点之间是不均衡的所以需依据各节点的存储、计算能力进行任务的调配使系统具有更优的负载能力 表示节点()代表节点能力主要受以下指标影响:为 个数()为 频率 ()为内存大小()为磁盘/的速率()为网络吞吐量()的运算公式为:()()()()()()其中 ()代表 的负载主要受以下指标影响:()为 占用率()为内存占用率()为磁盘/的占用率()为网络带宽占用率()的运算公式为:()()()()()()式中全部指标的权值参数为 是所有指标受其他因素干扰大小的体现例如各节点具有较大的网络吞吐量及硬盘/指标对 服务有利 的高速运行和内存指标更有利于 服务依据需求可调整 的大小使

9、其性能更优电力企业互联网舆情数据规格化存储系统设计 韩维 等 舆情数据规格化存储的节点负载调配算法为了使舆情存储系统具有较高的灵活性运行更平稳设计节点负载调配算法 为阈值对 进行设置接收到新任务时对备选节点集合进行选择 表示节点集合为选择的节点需符合以下条件:()()()()()()其中为随机节点当 符合公式()时则将节点 放入到 中针对 节点集合运算其内所有节点可执行任务的概率()将其表达为:()()/()()针对分配的一项任务依据各节点任务执行概率选择一个节点派发任务利用下式对此节点的负载进行更新:()()()/()()式中 为各节点的负载增量其表达式为:()/()式中节点的负载值为()此

10、节点的任务请求数量为 算例分析将本文系统应用在某区域的电力企业互联网中对其舆情数据实施规格化存储 设置该电力企业的互联网舆情检索主题为“六安故障停电”采集关键词为“六安电业局、故障、停电、断电”设置 近 三 个 月 内 两 主 题 的 舆 情 样 本 数 量 各 个为验证本文存储系统的采集性能分别采用本文系统、文献基于 的存储系统、文献基于文件管理的存储系统采集近三个月内关于上述主题的舆情信息 偏移量与主题关键词匹配但检索的页面与语义无关联电力企业舆情采集结果如表 所示表 电力企业互联网舆情采集结果指标本文系统文献系统文献系统采集页面数量/个采集时间 小时 分 小时 分 小时 分准确量/个偏移

11、量/个错误量/个漏检量/个分析表 可知本文系统采集的舆情信息更全面且采集效率较高为验证本文系统的文件读取性能统计不同线程数量以及不同文件大小下各系统读写时间结果如表 所示表 各系统读写能力统计指标本文系统文献系统文献系统文件大小/线程数线程数线程数读取时间/写入时间/读取时间/写入时间/读取时间/写入时间/均值方差均值方差均值方差均值方差均值方差均值方差 .分析表 可知本文系统的读写时间均值及方差均较小数据处理速度更快系统稳定性更强本文系统采用负载均衡算法实现系统任务的电力企业互联网舆情数据规格化存储系统设计 韩维 等均衡分配通过负载差距度指标体现系统各存储节点间的任务分配情况在系统并发数据逐

12、步增多时比较负载均衡算法使用前、后系统的存储性能实验结果如图 所示图 系统均衡度比较分析图 可知本文系统不采用负载均衡算法时在并发请求数达到 之前负载差距度有明显降低趋势随着并发请求数继续增多负载差距度降低幅度微小采用均衡算法后负载差距度大幅度降低且并发数据规模巨大时降低幅度更明显任务分配更加均衡存储负载更低可大大提升系统的存储性能 结束语利用电力企业互联网舆情数据规格化存储系统对电力企业的舆情信息进行采集舆情采集正确率高错误、偏移、漏检数据较少且有较高的采集效率采集效果好数据读写时间短存储性能显著存储系统更稳定保证了存储负载均衡更适合规模较大数据的处理但是 本研究并未涉及网络传输关键大数据加

13、密的问题因此在下一阶段的研究中需要通过负载均衡控制压缩冗余加密大数据特性对存储后的大数据施加特性约束和波束校验进一步完成大数据优化存储完善舆情信息的应用过程参 考 文 献:刘福鑫李劲巍王熠弘等.基于 的云原生海量数据存储系统设计与实现.计算机应用():.陈磊吴晓晖.基于 的分布式集群大数据动态存储系统设计.中国电子科学研究院学报():.张迪宋玉龙刘立刚等.基于 的多元数据同步采集与存储系统的设计与实现.液晶与显示():.张敏孟令军.基于文件管理的高速存储系统的设计与实现.电子器件():.李朋远张志勇.基于 的海量数据存储平台设计.计算机科学():.白茹.基于云计算和 的网络舆情监控系统设计.电子设计工程():.郝立华.基于 的网络舆情监控系统设计.电子设计工程():.王海涛李战怀张晓等.一种基于 树的键值存储系统性能优化方法.计算机研究与发展():.谢修娟李香菊莫凌飞.基于改进 算法的微博舆情分析研究.计算机工程与科学():.丁晓江明.双网隔离环境下电力物联网内外信息交互设计.信息技术():.(责任编辑:丁晓清)(上接第 页).:.:():.(责任编辑:丁晓清)

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服