资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,主要内容,一、大数据时代的新命题,二、大数据的体系结构,三、大数据的关键技术,四、物联网与云计算架构,五、知名企业大数据架构,六、大数据系统设计案例,总结、交流、作业,一、大数据时代的新命题,谷歌大数据中心:,全球主要,DC,有,8,个,大数据表象概念:,百度数据规模,大数据表象概念:,对系统要求,大数据时代的新命题,:,数据在爆炸式增长,互联网海量大数据,物联网各类型数据,发数据处理能力要求提高,大规模数据存取方式,大数据并行技术能力,数据间关联性分析加强,社交网络关系,多业务关联性,用户行为分析,网络数据的实时同步,一切营销都线下线上,多业务跨地域数据同步,“数据结构化”本身是最具挑战性的一个环节,.,海量数据与快速处理是一对悖论,.,信息社会需求:,信息化,-,智能化,-,现代化,农业社会,工业社会,信息社会,人力工具,-,镰刀,-,锄头,动力工具,-,机车,-,机床,智能工具,-,推理机,-,智能网,信息时代的大数据需求,信息时代数据大爆炸,,推动智能技术发展,信息时代,软件编程模型发展,“面向信息处理”,的智能化编程模型,编程简化为数据配置与管理,大数据技术架构,数据,智能,二、大数据的系统架构,传统数据库技术架构,:,Oracle,数据库体系架构,大数据架构:分层架构,从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过,5,个环节,包括,数据准备、数据存储与管理、计算处理、数据分析和知识展现。,大数据的系统架构:,整体系统架构,新一代编程语言,大数据架构:,整体逻辑功能架构,大数据架构理解:搜索引擎,大数据架构理解:网页内容抓取,大数据系统架构,Hadoop,Hadoop,分布式系统组成,大数据系统架构,Hadoop,在图中,,Hadoop,主要的功能组件有:,Hadoop Common:,包含,HDFS,、,MapReduce,和其他项目公共内容;,HDFS,:,Hadoop,分布式文件系统;,MapReduce,:一个用于并行处理大数据集的软件框架。,Map,函数接受一组数据并将其转换为一个键,/,值对列表,输入域中的每个元素对应一个键,/,值对。,Reduce,函数接受,Map,函数生成的列表,然后根据它们的键(为每个键生成一个键,/,值对)缩小键,/,值对列表;,HBase:,类似,Google BigTable,的分布式,NoSQL,列数据库;,Hive,:是基于,Hadoop,的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的,sql,查询功能,可以将,sql,语句转换为,MapReduce,任务进行运行;,Zookeeper,:分布式锁,提供类似,Google Chubby,的功能;,Avro,:新的数据序列化格式与传输工具,将逐步取代,Hadoop,原有的,IPC,机制;,Pig,:大数据数据流分析平台,为用户提供多种接口;,Sqoop,:在,HADOOP,与传统的数据库间进行数据的传递。,大数据系统架构,Hadoop,:,功能定位,1.,大数据系统架构,Hadoop,:,层次对应,大数据:分布式计算架构,大数据架构,:,MapReduce,工作原理,1,大数据架构,:,MapReduce,工作原理,2,三、大数据的关键技术,大数据关键技术到底有哪些?,核心问题是:,(,计算、存储、分析,),算法,大数据:恐怖的大数据,(,生活示例,),智能性:数据分析、自然语言理解,逻辑推理,(,演示,),艺术性:分形算法、视频动画,(,演示,),大数据关键技术,1,:,大数据存储技术,数据的海量化和快增长特征、以及数据格式的多样化,是大数据对存储技术提出的首要挑战。要求,底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。,谷歌文件系统(,GFS,)和,Hadoop,的分布式文件系统,HDFS,(,Hadoop Distributed File System,)奠定了大数据存储技术的基础。,GFS/HDFS,将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的,I/O,吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。,网络附着存储系统(,NAS,)和存储区域网络(,SAN,)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(,Data Intensive Computing,)时,I/O,容易成为瓶颈。单机文件系统不提供数据冗余、可扩展性、容错及并发能力差,大数据关键技术,2,:,并行计算能力,大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。,针对不同计算场景发展出特定分布式计算框架,。,Yahoo,提出的,S4,系统、,Twitter,的,Storm,谷歌,2010,年公布的,Dremel,系统,,MapReduce,内存化以提高实时性的,Spark,框架,.,数据爆炸,知识贫乏,苦恼,:,淹没在数据中,;,不能制定合适的决策,!,数据,知识,决策,模式,趋势,事实,关系,模型,关联规则,序列,目标市场,资金分配,贸易选择,在哪儿做广告,销售的地理位置,金融,经济,政府,POS.,人口统计,生命周期,大数据关键技术,3,:,数据分析技术,基于计算流体力学的三维呈现,:,如,用能场所,3D,场景及,CFD,温度及能效云场呈现如下图。,大数据关键技术,4,:,数据显示技术,大数据分析,世界杯:英格兰,vs,意大利,1:2,。数据热图,大数据关键技术,5,:,数据挖掘算法,代,特征,数据挖掘算法,集成,分布计算模型,数据模型,第一代,数据挖掘作为一个独立的应用,支持一个或者多个算法,独立的系统,单个机器,向量数据,第二代,和数据库以及数据仓库集成,多个算法:能够挖掘一次不能放进内存的数据,数据管理系统,包括数据库和数据仓库,同质,/,局部区域的计算机群集,有些系统支持对象、文本、和连续的媒体数据,第三代,和预言模型系统集成,多个算法,数据管理和预言模型系统,intranet/extranet,网络计算,支持半结构化数据和,web,数据,第四代,和移动数据,/,各种计算数据联合,多个算法,数据管理、预言模型、移动系统,移动和各种计算设备,普遍存在的计算模型,Debt$40K,Q,Q,Q,Q,I,I,1,2,3,4,5,6,factor 1,factor 2,factor n,神经网络,Neural Networks,聚类分析,Clustering,Open,Accnt,Add New,Product,Decrease,Usage,?,Time,序列分析,Sequence Analysis,决策树,Decision Trees,倾向性分析,客户保留,客户生命周期管理,目标市场,价格弹性分析,客户细分,市场细分,倾向性分析,客户保留,目标市场,欺诈检测,关联分析,Association,市场组合分析,套装产品分析,目录设计,交叉销售,大数据关键技术,5,:,数据挖掘算法,数据挖掘的主要方法,分类(,Classification,),聚类,(Clustering),相关规则,(Association Rule),回归,(Regression),其他,知识发现系统需要一个前处理过程,数据抽取,数据清洗,数据选择,数据转换,知识发现系统是一个自动,/,半自动过程,知识发现系统要有很好的性能,知识发现,KDD,系统特征,数据挖掘主要方法:,ETL,ETL Process Framework,ETL,工具有:,OWB(Oracle,Warehouse Builder),、,ODI(Oracle,Data Integrator),、,Informatic,PowerCenter,、,AICloudETL,、,DataStage,、,DataSpider,等。,Application,&Operations,Services,Transport,Services,Load,Transform,Extract,Target adaptors,Source adaptors,ETL Data import/,Rule import,ETL Data Export,Runtime,Mata data,Services,Design,management,Meta data,Import/,export,Meta data,management,四、物联网与云计算架构,互联网上的物联网:概念,互联网上的物联网:发展,2009,年,8,月,7,日,,温家宝视察中科院嘉兴无线传感网工程中心,无锡,研发分中心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术”,明确要求尽快建立中国的传感信息中心,或叫“感知中国”中心。,2010,年,2,月,25,日,中国首个传感网大学科技园在无锡成立,,北京邮电大学,无锡感知技术与产业研究院是首家入驻大学科技园的高校科研机构。,移动、电信、联通,三大运营商纷纷在无锡成立物联网研究中心,以无锡为首的国内大中城市争相建设智能城市,争取成为感知中国,示范,城市。,2010,年,3,月,2,日,,上海物联网中心在上海,嘉定,揭牌,宣称将以此打造国内最具竞争力、具有国际影响的物联网技术研发基地,总投资达,8,亿元。把合作伙伴锁定为中国科学院上海微系统与信息技术研究所。,2010,年,3,月,9,日,,中国物联网标准联合工作组筹备会议在京召开。,3,月中旬,浙江省成立了物联网产业规划编制小组,,浙江,省经济和信息化委员会副主任郑一方担任组长。杭州市已经联合浙江省工业经济研究所启动物联网产业调研和发展规划编制工作,提出“感知杭州”的发展愿景。,物联网的体系架构,物联网的体系架构,物联网的体系架构,物联网示范:智能家居大数据管理系统,物联网示范:动态跟踪管理,牧场大数据,物联网示范:医疗健康大数据 管理体系架构,大中型医院,政企客户领导,省领航平台,基层医疗机构,短信接口,平台功能,健康管理服务,紧急呼叫一键通,运动能量检测,终端功能,血压,/,血糖管理,离退休干部,GPS,定位,健康档案自管理,心电图诊断呈现,心电图测量,移动,OA,彩信接口,用药提醒,互动交流,预约就医,WAP,接口,体重管理,血糖管理,心脏疾病管理,血压管理,健康管理功能,客户关怀功能,BSS/OSS,日常心电监测,血压监测,运动情况监测,医疗服务功能,血糖监测,移动全球眼,云计算演进:,桌面云理解,(NDNCCCN),云计算架构:,通用三层架构,(IBM,为例,加,BPaaS),IaaS,PaaS,SaaS,BPaaS,云计算的不同服务层次和内容:,云计算的应用案例:广州品高,IaaS,云计算的统一数据中心,Ciscos Cloud Computing Approach,Combining the unified data center and cloud intelligent network,Network Service becomes an essential element,五、知名企业大数据架构,又拍云存储架构,大数据:,IBM,大数据方案,大数据分析实例:,北京邮电大学,“,云海”移动互联网数据分析平台,1.,大数据架构:,曙光智慧交通系统架构,1.,大数据架构:,IBM,1.,大数据架构:,HP,云监控大数据解决方案,大数据架构,Intel,分布式,Hadoop,架构,大数据架构:,微软大数据解决方案,设计了一套基于,Microsoft SQL Server 2012,和,Microsoft Azure,HDInsight,的端到端大数据解决方案。,在,HDInsight,上快速部署,Hadoop,群集。,大数据平台架构,引跑科技,EngineOne,平台,大数据虚拟化架构:,VMWare BDE,vSphere,Big Data Extensions,(,BDE,)是,VMware,基于,Serengeti,开源技术的企业发行版,增强基础架构,更好地部署、运行和管理大数据负载,虚拟化应用。,大数据虚拟化(,BDE/Serengeti,)的部署结构图,大数据虚拟化架构:,VMWare BDE,Serengeti管理服务器的系统架构图,大数据架构,Netflix,基于,AWS,的大数据平台,不用,HDFS,而用,amazon,的,S3,(,美国最大的在线,DVD,租赁商,,奈飞公司,,提供在线影片租赁业务,),Siri,的技术实现架构,大数据,购物网站的大数据分析系统,大数据,某银联机房,大数据架构,大数据,:,安全架构,六、大数据系统设计案例分析,1.Web,数据分析系统的软件验证模型,UML,及其扩展机制,/QVT,Web,领域模型转换及代码生成研究,Web,领域建模工具原型研发,(,基于,eclipse-modeling,Ecore tools,GMF,的,Web,领域元建模及建模工具,),Web,模型转化与代码生成工具原型研发,(基于,mediniQVT,及,eclipse-modeling,operational QVT EMF,的模型转化与代码生成工具),在具体,Web,系统开发中的应用、验证与比较,Web,应用实践,基于,MDA,的,Web,领域模型研究,Web,领域的,CIM,模型,(基于,Ecore,的,web,领域,需求的元模型,),Web,领域的,PIM,模型,(基于,Ecore,的,web,领域,独立平台的元模型),Web,领域的,PSM,模型,Web,领域,CIM,到,PIM,转换,(基于,QVT,的,CIM,到,PIM,转换),Web,领域,PIM,到,PSM,转换,(基于,QVT,的,CIM,到,PIM,转换),Web,领域,PSM,到源代码转换,模型到元模型归纳转换技术,模型体系与模型转换,分析模型元模型,数据访问层元模型,业务逻辑层元模型,展现层元模型,2.,淘宝大数据架构,淘宝大数据架构,大数据架构,:,淘宝海量数据产品技术架构,按照数据的流向来划分,淘宝的数据产品的技术架构分为五层(自上而下),分别是数据源、计算层、存储层、查询层、产品层。,大数据架构,:,淘宝海量数据,搜索引擎架构,大数据架构,:,淘宝海量数据,网络服务架构,3.,大数据架构设计:,智慧城市架构设计,基于结合物联网、云计算、大数据的智慧城市系统架构,案例分析:,基于工业物联网与大数据分析平台的,能源管理系统,总体架构,社会大生产无序,无控排放是环保死敌,一次能源生产,二次能源生产,一次排放,二次能源使用,二次排放,次生排放,原煤油气矿,精炼电热油焦矿,当前热点雾霾污染问题根源来自于无序无控排放,现在公布的雾霾指数标示只是城市若干个监测点的结果呈现,具体排放源头及排放关键因素是什么?基于国情大量燃煤,燃煤换能效率低排放高,二次排放占较大比例,二次能源消耗再产生大量次生排放。,煤,煤电热焦,电,热,焦,油,气,所有排放环节均缺失精细在线监测数据,无序无控恶性排放无缘节能增效,发展决定总体能耗继续升高,缓解危局只能走节能减排信息化助力工业节能改造道路,节能减排的难点及瓶颈,节能减排管理,如何着手,节能减排措施,如何把控,节能减排效果,如何确认,节能减排空间,如何诊断,节能减排计量监测,管理分析评估,?,节能减排是覆盖全社会所有生产消费过程的大系统工程,配套的能源排放在线计量监测管理分析评估大数据信息化系统是其关键基础架构。目前存在四大难题,1、节能规划部署,2、能耗诊断审计,3、节能手段实施过程控制,4、节能效益量化计算、EPC分成认证上报,电信运营商覆盖全国物联网及云计算体现优势,十二五期末年排放超千吨标煤的省级重点能耗单位原则上必须纳入政府节能减排监管机构的监测量化管理,年排放超万吨标煤的国家级重点能耗单位必须自建企业级能源管理系统接入当地市级能源管理监控中心,市级汇聚到省级能源管理监控中心,省级接入中央发改委全国能源管理监控中心平台,市省中央所汇集的排放原始数据向全社会开放。,这样超级大数据系统需要极高的云计算网络存储资源,还要对各用能户建立多维度关联能耗排放模型,对自控可靠的用能户以模型仿真模拟结果对相关用能设备实施反向开关待机操作,实现用能设备动态能效优化,这样的操控实施理应掌控在国有3大运营商手中,解决瓶颈问题-其他问题迎刃而解,国家综合能源管理平台,A省数据仓库及平台,B省数据仓库及平台,某行业数据接口服务器,前端数据采集物联网网关,前端辅助数据接口服务器,前端数据采集物联网网关,前端辅助数据接口服务器,前端数据采集物联网网关,前端辅助数据接口服务器,物联网云计算大数据结合-关键技术途径,网管系统、动环系统负责运营商自身能耗数据采集及融合,政府发文强制重点能耗企业采用标准化物联网采集网关及国标智能电表无线接入此系统、或企业已有系统按统一能耗排放数据采集及接口标准规范专线转发接入此系统(只要挂表接入政府均有适当补贴),运营商收流量费及功能费,如用能户使用能源审计诊断功能可另收咨询费等,政府向运营商付财政补贴、维护费、流量费及服务费购买服务,运营商还可收能耗排放源数据交易费并向政府交管理费等。,用能端能耗分量计量及影响因素感知采集,辅助设备能耗,主设备能耗,照明能耗,办公设备能耗,室内外温湿度振动压力等,地理装机空间建材环境等,物联网网关,电信运营商,综合能耗管理,大数据云平台,m2m(包括3G/4G、WLAN、PTN、IP),表示可根据本用能单元的能耗模型仿真预测结果酌情进行辅助开/关/待机/调节操作,以管控相关用能设备使其能耗动态优化,产量负荷等,生产ERP,系统,能源管理大数据系统信息标准化,动态数据,静态数据,基本配置信息:名称、编号、归属地市、位置信息(,GPS,经纬度)、面积、总载频数等;,设备信息:标识码、名称、厂家、设备类型、规格型号、用途、入网时间、额定功率、额定负荷 等;,节能措施:技术名称、实施时间、描述等;,能耗数据:用能场所总耗电量、主设备耗电量、空调耗电量;,环境因素:室内外温湿度;,业务量:话务量、数据业务流量;,AI,量:电流、电压、温度、湿度、压力、流量、振动;,DI,量:告警信息;,实现耗电量、,PUE,值、电费、告警的分时段、任意时段统计查询。,能耗有效管理始于精准、全面、标准化的能耗排放数据,计量,。,能源数据的多维度分析与呈现,网上演示:,113.108.158.22:7070/EnergySystem,总结、交流、作业,小结:,大数据:,系统结构:,分层架构、总体架构、,Hadoop,、,MapReduce,关键技术:,并行计算、存储处理、,ETL,、多维显示,相关领域:,物联网、云计算、各应用领域,讨 论:,大数据系统架构很多,如果要你进行分类,你从哪些维度来划分为哪些类型的架构?,作业:,题目,:,下图是“车联网”系统,请理解,然后回答问题。,作业:,问题,如上图是“车联网”系统架构,请根据图并结合日常生活经验作答:,关于车联网系统,其包含哪些“数据”,这些数据从何而来,到何处去?,(,画数据流图,),车联网系统中,有哪些场景下用到的数据可能很大,对系统的哪些环节有更高要求?你能设计一个车联网大数据的系统方案吗?,车联网系统中,可能用到哪些数据分析工具或算法,在哪些场景下有用?,主要参考文献:,1.,工业和信息化部电信研究院,中国,大数据白皮书,(2014),,,2014,年,5,月,.,2.,大数据的系统架构支持,林仕鼎,,2013,年,4,月,.,3.,物联网与智能计算,陈志成,,2010,年,8,月,.,4.,基于大数据的工业节能系统,北京易能境科技公司,,2014,年,5,月,.,5.,软件工程领域建模,蒋严冰,北京大学软件学院,,2012,年,4,月,.,6.,大数据文档,百度网站,,2014,年,5,月,.,心语共勉:,学习、工作、生活的本质:,Smile and do well.,微笑着做好,(,笑对人生、干事认真,).,One day,One thing,One person.,站好一班岗,做好一件事,影响一个人,Think it,do it,and Done it.,敢想,敢做,做好,谢谢大家!,
展开阅读全文