ImageVerifierCode 换一换
格式:PPTX , 页数:48 ,大小:6.89MB ,
资源ID:10263456      下载积分:14 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10263456.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(理解大数据实践大数据概述.pptx)为本站上传会员【快乐****生活】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

理解大数据实践大数据概述.pptx

1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,了解大数据,实践大数据,理解大数据实践大数据概述,第1页,内容,对大数据了解,拓尔思大数据产品布局和应用实践,理解大数据实践大数据概述,第2页,反对派认为,我们现在处在一个盲目大数据崇拜时代,理解大数据实践大

2、数据概述,第3页,大数据产生背景,数据暴发式增加和社会化趋势,新摩尔定律,大数据已经成为一个自然资源,机器数据日益主要,大数据不被利用就是成本,理解大数据实践大数据概述,第4页,大数据产生背景,现有商业软件难以处理大数据规模和复杂性,获取,(capture),存贮,(storage),搜索,(search),分享,(sharing),分析,(analysis),可视化,(visualization),理解大数据实践大数据概述,第5页,奥巴马大数据战略,年3月29日,白宫公布美国政府大数据计划,经过提升从大型复杂数字数据集中提取知识和观点能力,承诺帮助加紧在科学与工程中步伐,加强国家安全,并改变

3、教学研究,理解大数据实践大数据概述,第6页,大数据4V特征,体量,Volume,多样性,Variety,价值密度,Value,速度,Velocity,非结构化数据,超大规模和增加,总数据量,8090%,比结构化数据增加快,10,倍到,50,倍,是传统数据仓库,10,倍到,50,倍,大数据异构和多样性,很多不一样形式(文本、图像、视频、机器数据),无模式或者模式不显著,不连贯语法或句义,大量不相关信息,对未来趋势与模式可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、汇报等),实时分析,而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,理解大数据实践大数据概述

4、第7页,对大数据了解,大数据比云计算更为落地,大数据不但仅是“大”,软件是大数据引擎,大数据应用不但仅是精准营销,管理大数据“易”,了解大数据“难”,理解大数据实践大数据概述,第8页,1、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据一个业务模式,理解大数据实践大数据概述,第9页,2、大数据不但仅是“大”,多大?,PB,级,比大更主要是数据复杂性,有时甚至大数据中小数据如一条微博就含有颠覆性价值,理解大数据实践大数据概述,第10页,3、软件是大数据引擎,和数据中心(Data Center)一样,软件是大数据驱动力,软件改变世界,理解大数据实践大数据概述,第11页,大

5、数据生态:软件是引擎,理解大数据实践大数据概述,第12页,4、大数据应用不但仅是精准营销,经过用户行为分析实现精准营销是大数据经典应用,不过大数据在各行各业尤其是公共服务领域含有辽阔应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环境保护,电子商务,气象,理解大数据实践大数据概述,第13页,5、管理大数据“易”了解大数据“难”,即使大数据是一个重大问题,真正问题是让大数据更有意义,当前大数据管理多从架构和并行等方面考虑,处理高并发数据存取性能要求及数据存放横向扩展,但对非结构化数据内容了解仍缺乏实质性突破和进展,这是实现大数据资源化、知识化、普适化关键,非结构化海量信息智能化处理:

6、自然语言了解、多媒体内容了解、机器学习等,理解大数据实践大数据概述,第14页,拓尔思大数据产品布局,TRS,机器数据挖掘引擎,TRS SMAS,舆情云服务,TRS,大数据管理系统,V7.0,理解大数据实践大数据概述,第15页,TRS 大数据管理系统发展历程,TRS,全文数据库,TRS,非结构化,数据库,TRS,大数据,管理系统,理解大数据实践大数据概述,第16页,TRS,大数据管理系统,V7.0,理解大数据实践大数据概述,第17页,TRS,大数据管理系统,V7.0,分布式并行计算、多副本机制、没有单点高可靠体系架构,兼容,Hadoop,标准,支持结构化、半结构化、非结构化数据管理和搜索,支持实

7、时及用户行为数据高效管理和分析,支持,PB,级海量数据管理,支持海量用户高并发访问(千万级用户、万级并发),充分释放硬件潜力(多核、大内存等),大规模布署自动化和运行状态监控,创新多检索引擎机制,提供开放二次开发接口,理解大数据实践大数据概述,第18页,数据备份,大数据管理系统,数据存放,开发接口,基于,Hadoop,数据分析,CKM,文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎离线分析,MapReduce,数据库监控,机器数据搜索引擎,用户行为挖掘与推荐引擎,基于时间分段大数据检索与索引接口,搜索引擎,日志采集监控,数据存放层,数据分析层,日志发送节点,Angent 1,Angent

8、 2,Angent 3,Angent n,日志接搜集群,Collector 1,Collector 2,Collector 3,Collector n,Master,管理集群,Master 1,Master 2,Master n,日志采集,TRS,机器数据挖掘引擎,理解大数据实践大数据概述,第19页,TRS 机器数据挖掘引擎特点,支持主流格式机器数据实时采集、解析、管理和搜索。,基于时间分段和负载均衡大数据索引与检索机制。,基于Web机器数据搜索与分析界面。,兼容Hadoop平台日志挖掘和用户行为分析。,基于各种推荐模型在线推荐引擎,大规模布署自动化和运行状态监控,理解大数据实践大数据概述,第

9、20页,TRS SMAS,功效框架图,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运行,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点改变,意见领袖,传输图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,理解大数据实践大数据概述,第21页,外网,微博,论坛,SNS,网媒,官网,提升,销量,用户,满意度,用户设计,趋势分析,竞争分析,质量缺点,设计缺点,使用缺点,KOL,维护,声誉管理,危机预警,事件评定,行为分析,产品,公关,营销,SMAS

10、用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-,CRM,广义,服务,TRS SMAS,作用于企业,2.0,理解大数据实践大数据概述,第22页,TRS 在大数据领域应用实践,新华社多媒体数据库,国家知识产权局专利检索系统,某部信息监控系统,TRS SMAS,云服务(大数据服务),国家质监局,国家药监局,北京市环境保护局,国家气象局,每日微博热点分析,理解大数据实践大数据概述,第23页,新华社多媒体数据库系统,是新华社关键业务支撑,经典非结构化数据管理应用场景,连续,IT,投资已经超出,6,亿人民币,以新华社遍布全球新闻信息及采集网络为依靠,全方面整合新华社文字、图片、图表、音视频

11、报刊等全部资源和社会上有价值新闻信息资源,拥有包含中、英、法、俄、西、阿及汉字繁体在内,6,个文种,数据量超,PB,最早采取文件系统,以后改为,Oracle,,效率很低,再改为,Oracle+TRS,,连续服务至今,从大型机改为,PC,服务器集群,理解大数据实践大数据概述,第24页,1.5,亿条,原创新闻资讯,26000,小时,权威原创视频,700,万张图片,27000,家,注册用户,8000,各种,资源分类,PB,级,数据量,多语种数据,理解大数据实践大数据概述,第25页,新华社多媒体数据库,数据流转图,理解大数据实践大数据概述,第26页,新华社多媒体库技术特点,非结构化数据和结构化数据统

12、一管理,TRS,多语言检索引擎,全方面采取,TRS,文本挖掘技术,良好集群扩展能力,索引服务器读写分离,理解大数据实践大数据概述,第27页,国家知识产权局专利检索服务系统,1998年专利局引进了欧洲EPOQUE系统,基于大型机专利检索系统,每年系统维护费用就达数千万元,开始建设自主可控可连续发展专利检索和服务系统,采取大量PC服务器,经典非结构化/半结构化数据应用场景,当前公共检索和审查员检索系统全部使用TRS检索引擎,理解大数据实践大数据概述,第28页,专利检索系统需求特点,数据多样性,结构化、半结构化和非结构化数据结合,申请人、申请号、名称等著录项很多,;,权利要求书、说明书等全文数据规模

13、大,各库数据结构差异大,查询要求高,严格查全和查准要求,基于领域知识智能检索,结构化和非结构化信息联合查询,相关专利推荐,理解大数据实践大数据概述,第29页,专利检索与服务系统数据种类与规模,6,亿多条,专利统计,多渠道异构,资源整合,100%,查全率,1,秒,响应时间,700-1000,并发,724,稳定可靠,1,万注册用户,理解大数据实践大数据概述,第30页,专利检索引擎,数据流转图,理解大数据实践大数据概述,第31页,专利检索与服务系统,-,外观图像检索,理解大数据实践大数据概述,第32页,专利图像外观检索,局部检索,形状检索,纹理检索,不变性特征检索,草图检索,数据分类,数据聚类,基于

14、相关反馈检索,跨语言检索,600,万幅专利图片,查询性能从原来分钟级提升到秒级,索引性能从原来天级提升到现在小时级,理解大数据实践大数据概述,第33页,某部网监智能搜索和挖掘系统,系统特点:,巨大数据量,多样性数据,数据极快速增加,系统现实状况,已经布署数千台服务器,满足了业务需求,挑战,性能和可扩展性,整合和调度,数据量远超出互联网,当前布署,TRS,系统,多套,理解大数据实践大数据概述,第34页,SMAS用户,理解大数据实践大数据概述,第35页,国家质检总局,.1,蒙牛致癌门,.2,苏泊尔质量门,.3,辽源注水肉,.3,315,质量汇报,.4,含氯可口可乐,.4,蜜饯质量问题,.5,菲律宾

15、香蕉质量,仅在上六个月,拓尔思运行团体就为质检总局在产品质量、食品安全方面提供超出40余项服务,借助数据中心大数据与云服务平台,进行全方面整合、统计与分析。,理解大数据实践大数据概述,第36页,国家质检总局,质,检总局服务依靠云服务平台(,SMAS,),从媒体调性、平台分布、网民意见、趋势发展等各种角度进行解析,结合系统自动分析与分析团体整合,最终以专题汇报方式,第一时间展现,为质检总局在公共服务决议提供主要参考。,理解大数据实践大数据概述,第37页,国家药监局,4月15日中央电视台曝光“毒胶囊”事件掀起药品行业巨大波澜,SMAS运行团体对该事件进行了长时间跟踪与分析,并用一系列数据、图表和汇

16、报捕捉了网络数据里真相与民意。,理解大数据实践大数据概述,第38页,国家药监局,关键人物,传输趋势,主流观点,关键地域,SMAS,分析团体连续,30,天跟踪毒胶囊事件,从整体传输趋势、观点、人物、地域等视角,还原了这起颇具影响力公共事件。,-,毒胶囊事件,-,理解大数据实践大数据概述,第39页,北京市环境保护局PM2.5分析,报 道 量 排 行,高,低,两会代表委员热议,PM2.5,“,京,V,”,排放标准首要求,PM,限值,珠三角成首个公布,PM2.5,城市群,珠三角,PM2.5,严重超标,环境保护局回应,PM2.5,数据质疑,借助数据中心大数据与云服务平台,从,区域分布,角度对,PM2.5

17、相关信息进行归类,进行全方面整合、统计与分析,得到上图分析内容。,理解大数据实践大数据概述,第40页,北京市环境保护局PM2.5分析,PM2.5,均匀分布,监测点为何,不均匀分布?,PM2.5,监测不能 背离公众感受,PM2.5,监测,关键词是“真实”,20,亿元清单,能否换来清新?,微博,TOP10,意见领袖排行,作家,经过,SMAS,平台抽样分析,提取网民热点话题内容,得到,TOP10,意见领袖排行。对意见领袖代表性微博进行传输链分析,可知“意见领袖”巨大传输影响力。,第一层,第二层,第三层,第四层,第五层,第六层,传输了,712,次 占转发数百分比:,54.39%,传输了,432,次

18、占转发数百分比:,33.00%,博主本身二次转发,理解大数据实践大数据概述,第41页,北京市环境保护局,PM2.5,分析,理解大数据实践大数据概述,第42页,气象舆情监测,对气候影响,三峡,工程,长江中下游干旱,台风,梅花,日本,核辐射,极端天气频发,有多少是人为之祸?公众对气象部门气象服务有了全新期待。,依靠数据中心与云服务平台,拓尔思运行团体还原热点气象事件引发网络舆情,总结气象部门应对气象危机得失,为气象部门开拓气象服务新领域、提升气象服务水平提供参考。,中国气象局,理解大数据实践大数据概述,第43页,气象信息月度走势图,年度热门气象事件排行榜,全国气象舆情热度概览,气象口碑媒体分布图,借助数据中心大数据与云服务平台,拓尔思运行团体为气象局提供了全方面多维度分析。,中国气象局,理解大数据实践大数据概述,第44页,关系可视化,理解大数据实践大数据概述,第45页,每日微博热点分析,理解大数据实践大数据概述,第46页,拓尔思大数据技术优势,架构,集群,分析,非结构化信息处理方面技术工程能力,满足企业级客户能力,和存放、数据库等厂商相比,更强调大数据分析和挖掘能力,理解大数据实践大数据概述,第47页,谢 谢!,理解大数据实践大数据概述,第48页,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服