收藏 分销(赏)

理解大数据实践大数据概述.pptx

上传人:快乐****生活 文档编号:10263456 上传时间:2025-05-06 格式:PPTX 页数:48 大小:6.89MB
下载 相关 举报
理解大数据实践大数据概述.pptx_第1页
第1页 / 共48页
理解大数据实践大数据概述.pptx_第2页
第2页 / 共48页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,了解大数据,实践大数据,理解大数据实践大数据概述,第1页,内容,对大数据了解,拓尔思大数据产品布局和应用实践,理解大数据实践大数据概述,第2页,反对派认为,我们现在处在一个盲目大数据崇拜时代,理解大数据实践大数据概述,第3页,大数据产生背景,数据暴发式增加和社会化趋势,新摩尔定律,大数据已经成为一个自然资源,机器数据日益主要,大数据不被利用就是成本,理解大数据实践大数据概述,第4页,大数据产生背景,现有商业软件难以处理大数据规模和复杂性,获取,(capture),存贮,(storage),搜索,(search),分享,(sharing),分析,(analysis),可视化,(visualization),理解大数据实践大数据概述,第5页,奥巴马大数据战略,年3月29日,白宫公布美国政府大数据计划,经过提升从大型复杂数字数据集中提取知识和观点能力,承诺帮助加紧在科学与工程中步伐,加强国家安全,并改变教学研究,理解大数据实践大数据概述,第6页,大数据4V特征,体量,Volume,多样性,Variety,价值密度,Value,速度,Velocity,非结构化数据,超大规模和增加,总数据量,8090%,比结构化数据增加快,10,倍到,50,倍,是传统数据仓库,10,倍到,50,倍,大数据异构和多样性,很多不一样形式(文本、图像、视频、机器数据),无模式或者模式不显著,不连贯语法或句义,大量不相关信息,对未来趋势与模式可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务智能,(,咨询、汇报等),实时分析,而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,理解大数据实践大数据概述,第7页,对大数据了解,大数据比云计算更为落地,大数据不但仅是“大”,软件是大数据引擎,大数据应用不但仅是精准营销,管理大数据“易”,了解大数据“难”,理解大数据实践大数据概述,第8页,1、大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据一个业务模式,理解大数据实践大数据概述,第9页,2、大数据不但仅是“大”,多大?,PB,级,比大更主要是数据复杂性,有时甚至大数据中小数据如一条微博就含有颠覆性价值,理解大数据实践大数据概述,第10页,3、软件是大数据引擎,和数据中心(Data Center)一样,软件是大数据驱动力,软件改变世界,理解大数据实践大数据概述,第11页,大数据生态:软件是引擎,理解大数据实践大数据概述,第12页,4、大数据应用不但仅是精准营销,经过用户行为分析实现精准营销是大数据经典应用,不过大数据在各行各业尤其是公共服务领域含有辽阔应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环境保护,电子商务,气象,理解大数据实践大数据概述,第13页,5、管理大数据“易”了解大数据“难”,即使大数据是一个重大问题,真正问题是让大数据更有意义,当前大数据管理多从架构和并行等方面考虑,处理高并发数据存取性能要求及数据存放横向扩展,但对非结构化数据内容了解仍缺乏实质性突破和进展,这是实现大数据资源化、知识化、普适化关键,非结构化海量信息智能化处理:自然语言了解、多媒体内容了解、机器学习等,理解大数据实践大数据概述,第14页,拓尔思大数据产品布局,TRS,机器数据挖掘引擎,TRS SMAS,舆情云服务,TRS,大数据管理系统,V7.0,理解大数据实践大数据概述,第15页,TRS 大数据管理系统发展历程,TRS,全文数据库,TRS,非结构化,数据库,TRS,大数据,管理系统,理解大数据实践大数据概述,第16页,TRS,大数据管理系统,V7.0,理解大数据实践大数据概述,第17页,TRS,大数据管理系统,V7.0,分布式并行计算、多副本机制、没有单点高可靠体系架构,兼容,Hadoop,标准,支持结构化、半结构化、非结构化数据管理和搜索,支持实时及用户行为数据高效管理和分析,支持,PB,级海量数据管理,支持海量用户高并发访问(千万级用户、万级并发),充分释放硬件潜力(多核、大内存等),大规模布署自动化和运行状态监控,创新多检索引擎机制,提供开放二次开发接口,理解大数据实践大数据概述,第18页,数据备份,大数据管理系统,数据存放,开发接口,基于,Hadoop,数据分析,CKM,文本挖掘与数据挖掘,关联规则与序列模式挖掘,推荐引擎离线分析,MapReduce,数据库监控,机器数据搜索引擎,用户行为挖掘与推荐引擎,基于时间分段大数据检索与索引接口,搜索引擎,日志采集监控,数据存放层,数据分析层,日志发送节点,Angent 1,Angent 2,Angent 3,Angent n,日志接搜集群,Collector 1,Collector 2,Collector 3,Collector n,Master,管理集群,Master 1,Master 2,Master n,日志采集,TRS,机器数据挖掘引擎,理解大数据实践大数据概述,第19页,TRS 机器数据挖掘引擎特点,支持主流格式机器数据实时采集、解析、管理和搜索。,基于时间分段和负载均衡大数据索引与检索机制。,基于Web机器数据搜索与分析界面。,兼容Hadoop平台日志挖掘和用户行为分析。,基于各种推荐模型在线推荐引擎,大规模布署自动化和运行状态监控,理解大数据实践大数据概述,第20页,TRS SMAS,功效框架图,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运行,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点改变,意见领袖,传输图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,理解大数据实践大数据概述,第21页,外网,微博,论坛,SNS,网媒,官网,提升,销量,用户,满意度,用户设计,趋势分析,竞争分析,质量缺点,设计缺点,使用缺点,KOL,维护,声誉管理,危机预警,事件评定,行为分析,产品,公关,营销,SMAS,用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-,CRM,广义,服务,TRS SMAS,作用于企业,2.0,理解大数据实践大数据概述,第22页,TRS 在大数据领域应用实践,新华社多媒体数据库,国家知识产权局专利检索系统,某部信息监控系统,TRS SMAS,云服务(大数据服务),国家质监局,国家药监局,北京市环境保护局,国家气象局,每日微博热点分析,理解大数据实践大数据概述,第23页,新华社多媒体数据库系统,是新华社关键业务支撑,经典非结构化数据管理应用场景,连续,IT,投资已经超出,6,亿人民币,以新华社遍布全球新闻信息及采集网络为依靠,全方面整合新华社文字、图片、图表、音视频、报刊等全部资源和社会上有价值新闻信息资源,拥有包含中、英、法、俄、西、阿及汉字繁体在内,6,个文种,数据量超,PB,最早采取文件系统,以后改为,Oracle,,效率很低,再改为,Oracle+TRS,,连续服务至今,从大型机改为,PC,服务器集群,理解大数据实践大数据概述,第24页,1.5,亿条,原创新闻资讯,26000,小时,权威原创视频,700,万张图片,27000,家,注册用户,8000,各种,资源分类,PB,级,数据量,多语种数据,理解大数据实践大数据概述,第25页,新华社多媒体数据库,数据流转图,理解大数据实践大数据概述,第26页,新华社多媒体库技术特点,非结构化数据和结构化数据统一管理,TRS,多语言检索引擎,全方面采取,TRS,文本挖掘技术,良好集群扩展能力,索引服务器读写分离,理解大数据实践大数据概述,第27页,国家知识产权局专利检索服务系统,1998年专利局引进了欧洲EPOQUE系统,基于大型机专利检索系统,每年系统维护费用就达数千万元,开始建设自主可控可连续发展专利检索和服务系统,采取大量PC服务器,经典非结构化/半结构化数据应用场景,当前公共检索和审查员检索系统全部使用TRS检索引擎,理解大数据实践大数据概述,第28页,专利检索系统需求特点,数据多样性,结构化、半结构化和非结构化数据结合,申请人、申请号、名称等著录项很多,;,权利要求书、说明书等全文数据规模大,各库数据结构差异大,查询要求高,严格查全和查准要求,基于领域知识智能检索,结构化和非结构化信息联合查询,相关专利推荐,理解大数据实践大数据概述,第29页,专利检索与服务系统数据种类与规模,6,亿多条,专利统计,多渠道异构,资源整合,100%,查全率,1,秒,响应时间,700-1000,并发,724,稳定可靠,1,万注册用户,理解大数据实践大数据概述,第30页,专利检索引擎,数据流转图,理解大数据实践大数据概述,第31页,专利检索与服务系统,-,外观图像检索,理解大数据实践大数据概述,第32页,专利图像外观检索,局部检索,形状检索,纹理检索,不变性特征检索,草图检索,数据分类,数据聚类,基于相关反馈检索,跨语言检索,600,万幅专利图片,查询性能从原来分钟级提升到秒级,索引性能从原来天级提升到现在小时级,理解大数据实践大数据概述,第33页,某部网监智能搜索和挖掘系统,系统特点:,巨大数据量,多样性数据,数据极快速增加,系统现实状况,已经布署数千台服务器,满足了业务需求,挑战,性能和可扩展性,整合和调度,数据量远超出互联网,当前布署,TRS,系统,多套,理解大数据实践大数据概述,第34页,SMAS用户,理解大数据实践大数据概述,第35页,国家质检总局,.1,蒙牛致癌门,.2,苏泊尔质量门,.3,辽源注水肉,.3,315,质量汇报,.4,含氯可口可乐,.4,蜜饯质量问题,.5,菲律宾香蕉质量,仅在上六个月,拓尔思运行团体就为质检总局在产品质量、食品安全方面提供超出40余项服务,借助数据中心大数据与云服务平台,进行全方面整合、统计与分析。,理解大数据实践大数据概述,第36页,国家质检总局,质,检总局服务依靠云服务平台(,SMAS,),从媒体调性、平台分布、网民意见、趋势发展等各种角度进行解析,结合系统自动分析与分析团体整合,最终以专题汇报方式,第一时间展现,为质检总局在公共服务决议提供主要参考。,理解大数据实践大数据概述,第37页,国家药监局,4月15日中央电视台曝光“毒胶囊”事件掀起药品行业巨大波澜,SMAS运行团体对该事件进行了长时间跟踪与分析,并用一系列数据、图表和汇报捕捉了网络数据里真相与民意。,理解大数据实践大数据概述,第38页,国家药监局,关键人物,传输趋势,主流观点,关键地域,SMAS,分析团体连续,30,天跟踪毒胶囊事件,从整体传输趋势、观点、人物、地域等视角,还原了这起颇具影响力公共事件。,-,毒胶囊事件,-,理解大数据实践大数据概述,第39页,北京市环境保护局PM2.5分析,报 道 量 排 行,高,低,两会代表委员热议,PM2.5,“,京,V,”,排放标准首要求,PM,限值,珠三角成首个公布,PM2.5,城市群,珠三角,PM2.5,严重超标,环境保护局回应,PM2.5,数据质疑,借助数据中心大数据与云服务平台,从,区域分布,角度对,PM2.5,相关信息进行归类,进行全方面整合、统计与分析,得到上图分析内容。,理解大数据实践大数据概述,第40页,北京市环境保护局PM2.5分析,PM2.5,均匀分布,监测点为何,不均匀分布?,PM2.5,监测不能 背离公众感受,PM2.5,监测,关键词是“真实”,20,亿元清单,能否换来清新?,微博,TOP10,意见领袖排行,作家,经过,SMAS,平台抽样分析,提取网民热点话题内容,得到,TOP10,意见领袖排行。对意见领袖代表性微博进行传输链分析,可知“意见领袖”巨大传输影响力。,第一层,第二层,第三层,第四层,第五层,第六层,传输了,712,次 占转发数百分比:,54.39%,传输了,432,次 占转发数百分比:,33.00%,博主本身二次转发,理解大数据实践大数据概述,第41页,北京市环境保护局,PM2.5,分析,理解大数据实践大数据概述,第42页,气象舆情监测,对气候影响,三峡,工程,长江中下游干旱,台风,梅花,日本,核辐射,极端天气频发,有多少是人为之祸?公众对气象部门气象服务有了全新期待。,依靠数据中心与云服务平台,拓尔思运行团体还原热点气象事件引发网络舆情,总结气象部门应对气象危机得失,为气象部门开拓气象服务新领域、提升气象服务水平提供参考。,中国气象局,理解大数据实践大数据概述,第43页,气象信息月度走势图,年度热门气象事件排行榜,全国气象舆情热度概览,气象口碑媒体分布图,借助数据中心大数据与云服务平台,拓尔思运行团体为气象局提供了全方面多维度分析。,中国气象局,理解大数据实践大数据概述,第44页,关系可视化,理解大数据实践大数据概述,第45页,每日微博热点分析,理解大数据实践大数据概述,第46页,拓尔思大数据技术优势,架构,集群,分析,非结构化信息处理方面技术工程能力,满足企业级客户能力,和存放、数据库等厂商相比,更强调大数据分析和挖掘能力,理解大数据实践大数据概述,第47页,谢 谢!,理解大数据实践大数据概述,第48页,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服