资源描述
单击此处编辑母版标题样式,Edit Master text styles,Second level,Third level,Fourth level,Fifth level,云计算基础入门,产品部,2018,年,10,月,内容简介,什么是云计算,服务,/,应用部署模式,云原生应用,更多的云平台服务模式,主流云平台对比,什么是云计算,云计算解决方案的特点:,按需自助服务,广泛的网络访问,资源池,快速弹性,测量服务,云计算模式简介,混合云是一种将两个单独的云(公共云和私有云)绑定在一起的技术,,以组合和补充每个云提供的优势,公共云是云服务提供商提供的供公众访问和使用的基础架构,平台或应用程序服务,私有云是一种私有的且受用户自管理的云,其提供类似于公共云的优点,但是被设计使得用户,在自己的数据中心管理和维护私有云的基础设施,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,IaaS,PaaS,SaaS,本地部署,云计算服务模式,如何理解,IaaS PaaS,和,SaaS,IaaS,目标用户是企业内部架构师,基于云平台提供底层基础架构服务。,PaaS,目标用户是应用开发者,提供各种预制的托管的开发环境。,SaaS,目标客户是终端用户,为企业提供最终解决方案。,首先把云平台高度抽象成一个无所不包而且取之不尽用之不竭的资源池。,然后考虑我们的服务如何部署上去,。,到底该如何理解云平台服务模式呢,IaaS,本质上就是平台给你交付一台虚机,虚机的操作系统给装好,用户自己配置系统,安装应用,搭建服务。,按照责任分担模型,以虚机操作系统为分界线,上面这些层次,用户自己负责,操作系统中病毒也是客户的责任哦,操作系统以下的基础架构服务由平台方交付。,优点:之前服务怎么装怎么配现在还是一个样,而且,A,平台有问题,我换个地方重装就是,缺点:如果是跑虚机,我为啥不能自己跑,快速理解,IaaS,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,IaaS,PaaS,交付的平台,也就是应用程序运行所需的环境,如果你要一个,DB,放数据,没必要套一个数据库服务器,如果要一个,website,,没必要给你一个网站服务器。,优点:客户只要填充数据和实现应用就好,非常省心。,缺点:随着“标准化”的提升,用户的选择灵活性降低了,快速理解,PaaS,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,PaaS,平台都已经把一切安排到位,用户只要付钱开通服务账号就行,优点:省心到极致,缺点:还能费心定制定制吗,快速理解,SaaS,数据,应用,运行环境,中间件,网络,存储,服务器,虚拟化,操作系统,SaaS,网络,存储,服务器,虚拟化,操作系统,中间件,运行环境,数据,应用,网络,存储,服务器,虚拟化,操作系统,中间件,运行环境,数据,应用,网络,存储,服务器,虚拟化,操作系统,中间件,运行环境,数据,应用,网络,存储,服务器,虚拟化,操作系统,中间件,运行环境,数据,库,应用,私有云计算(,laaS,、,PaaS,)实例,1,)如果你自己买了服务器,要托管在集团数据中心:,2,)你直接向数据中心申请服务器资源:,3,)如果有需要,数据中心连中间件和运行环境也提供:,4,)我们的数据中心,甚至可以直接提供数据库资源:,我们把服务高度抽象成两类,有状态:状态需要保持,例如数据库,无状态:状态不需要保持,例如前端,web,服务器,服务的类型,纵向扩展,scale up,横向扩展,scale out,服务可用性,从可用性角度考虑:,无状态应用通过横向扩展提升可用性,有状态应用通过纵向扩展提升可用性,很显然无状态的服务特别匹配云平台,可以考虑优先将此类服务迁移,/,部署到云平台,那些服务可以优先上云,受法律法规限制的服务,如医学影像资料,被特定硬件限制的服务,如加密狗,需要,CPU,和内存紧密交互的服务,如,12306,不适应迁移到云上的服务,如果不着急,旧服务可以保持原状,或者以,IaaS,的方式进行迁移,可以保证稳妥。,对于新服务,就必须有个考虑,以何种方式部署到云?,以,IaaS,方式部署,属于旧瓶装新酒。,以,PaaS,方式部署,灵活性又在哪里,所以痛点就是,PaaS,缺乏统一的标准,新服务如何部署,基准代码:一份基准代码,多份部署,依赖:显式声明依赖关系,配置:在环境中存储配置,后端服务:把后端服务当作附加资源,构建,发布,运行:严格分离构建和运行,进程:以一个或多个无状态进程运行应用,端口绑定:通过端口绑定提供服务,易处理:快速启动和优雅终止可最大化健壮性,开发环境与线上环境等价:尽可能的保持开发,预发布,线上环境相同,日志:把日志当作事件流,管理进程:后台管理任务当作一次性进程运行,云原生原则,12-factor,容器即服务,CaaS,增加了容器层,符合原生应用的要求,,build once run anywhere,公有云平台都支持容器化应用,所以跨云迁移不再困难,对于私有云平台,可以借助,CaaS,实现,PaaS,功能,快速理解容器即服务,CaaS,Serverless,的一种实现方式,代码逻辑由开发者完成,但是托管运行在第三方云平台上,由事件驱动,短时执行(甚至只有一次调用),架构特点:,用户仅需关心代码,不需要考虑基础架构,不需要特定的框架和库,可以适配所有的语言,上传代码,使用,API,进行初始化,云平台负责执行自动化和弹性的水平扩展,代码的运行由云平台提供的消息类型触发,通常由,API,网关启动触发,优势:,更细颗粒度的计算资源分配,弹性伸缩,高可用,没有闲置损耗,其实还没完,还有,FaaS,妈妈再也不担心我封装服务了,BDaaS,:大数据即服务,DaaS,:桌面即服务,Dbaas,:数据库及服务,HaaS,:硬件即服务,IDaaS,:身份即服务,NaaS,:网络即服务,Xaas,:一切皆服务,更多的,XaaS,目前最大的一个云平台,以,IaaS,起家,拳头产品,S3,和,EC2,电商出身,强调成本和延迟,常见云平台分析,号称是最大的电商中立云,以,PaaS,起家,目标客户是多年积累的企业客户,所以整体架构特别强调高可靠性,常见云平台分析,国内一哥,产品丰富,服务感人,和,AWS,一样,从改造自家平台出发,常见云平台分析,国内市场追赶者,依托社交流量入口,想象力很广阔,常见云平台分析,强调云网融合,以内蒙贵州为核心的,8+2+X,资源布局,主攻政企客户,天翼云分析,天翼云,3.0,产品视图,注:加星号产品为天翼云,3.0,中新增加的产品,,RDS,计划,2016,年,3,季度上线,天翼云,3.0,以云主机为基础核心产品,从计算、存储、网络、安全及管理等维度不断丰富云计算产品能力,满足客户对网络接入、服务能力弹性扩展、应用安全等场景需求,天翼云,3.0,基础产品总览,互联网,/,企业内网,云资源池,弹性,云主机,云硬盘,镜像服务,弹性,负载均衡,弹性伸缩,虚拟,私有云,云硬盘备份,云监控,DDoS,流量清洗,1,2,3,公网,IP+,公网带宽,VPN,接入,4,云专线,接入,1,基础云主机产品,:为用户提供包括,vCPU,、内存、操作系统和数据盘在内的具备计算能力的云主机,提高云主机服务能力,:使资源配置情况能够根据业务发展灵活调整,为用户提供高可用、可扩展的云主机服务,2,增强云主机产品安全,:为用户提供逻辑隔离的网络、数据备份和恢复服务,并能随时监控资源使用情况,做到异常情况及时告警,提供网络接入能力,:以多种方式提供云主机与互联网、与企业内网相连接的能力,3,4,物理机,自助独享的资源能力,多重保障的安全机制,独特的云网融合产品,可信认证的产品能力,更贴近政企客户需求的差异化能力,差异化的云网融合产品,DCI,ChinaNet/CN2,东西向融合,南北向融合,云资源,+,云网络,(,CN2/,互联网),云公司一点受理,东西向融合,催生产品新质态,依托,DCI,承载东西向流量,依托业务调度系统实现资源统一调度,产品新质态:,业务容灾与,100,公里内双活,、,客户不同节点部署的资源互访,、按需配置跨域带宽,南北向融合,实现“云,+,网”一体化服务,将,CN2 MPLS VPN,纳入云网络标准产品,与集团,IT/,流程贯穿,,统一业务受理,统一故障受理,“云,+,网”作为整体能力面向行业应用及合作伙伴开放,一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作,通过各种互补的服务提供了基础设施即服务(,IaaS,)的解决方案,每个服务提供,API,以进行集成,也可以叠加社区的方案搭建,CaaS PaaS FaaS,私有云平台分析,私有云资源池部署和实施要点,内容一览,私有云相关底层技术,虚拟化,硬件超融合,私有云方案架构分析,私有云计算和存储资源池设计,私有云网络设计,Hadoop,的概念和部署,云平台管理,NFV,Overlay,OpenFlow,XEN,KVM,vSphere,Hyper-V,存储虚拟化,ServerSAN,硬件基础架构,管理层,资源虚拟化层,基础设施层,计算虚拟化,网络虚拟化,存储虚拟化,和云计算相关的,IT,技术,计算虚拟化,-,实现资源弹性扩展,vSphere,Hyper-V,KVM,开源通用平台,(,华为、华三等,),全虚拟化技术,永不过时的虚拟化技术,开源技术,VMware,采用,全虚拟化技术,独立开发支持设备驱动,私有技术,Citrix,华为采用,半虚拟化技术,技术社区没落使用厂商减少,开源技术,微软采用,全虚拟化技术,Window2008,标准功能,私有技术,XEN,NV,网络虚拟化,Overlay,网络:,对物理网络进行隧道叠加,逻辑划分成虚拟网络分片,满足基于租户的个性化需求,网络功能虚拟化:,剥离网络功能,虚拟化,2-7,层网络业务功能,将硬件和软件解耦和;,由欧洲电信联盟提出标准,软件定义网络:,控制与转发分离,网络控制集中化,实现,4,层以下流量调度,Openflow,是,SDN,典型协议之一,SDN,软件定义网络,NFV,网络功能虚拟化,-,广义的,SDN,分类,网络虚拟化,狭义,SDN,传统网络,软件定义网络,自己思考自己踢,自己思考别人踢,SDN,就是“中央集权制”的最佳实践,网络虚拟化,-Overlay,网络,VxLAN,虚拟化,环境下用于业务隔离,vlan 100,vlan 200,为了业务隔离而生,局域网,环境下用于业务隔离,隔离容量:,2,12=,4K,隔离容量:,2,24=,16M,网络虚拟化,-NFV,网络功能虚拟化,把电信级设备从专用平台迁移到通用,X86,服务器上,存储虚拟化,帮助数据高效流动,x86,服务器内部资源,虚拟共享存储池,网络虚拟化,计算虚拟化,存储虚拟化,超融合第一阶段,超融合第二阶段,软件定义,最佳实践,超融合,超融合基础架构(,Hyper-Converged Infrastructure,,或简称“,HCI”,),是指在同一套单元设备中不仅仅具备,计算、网络、存储虚拟化等资源和技术,,而多套单元设备可以通过,网络聚合起来,,实现模块化的,无缝横向扩展,(,Scale-Out,),形成统一的资源池。,-Gartner,权威定义,管理服务,操作,系统,服务器虚拟化,网络虚拟化,存储虚拟化,超融合,IT,架构,(所有硬件资源池化),超融合,引领,IT,时代的变革,超融合,IT,架构,应用,/,业务,操作,系统,安全服务,操作,系统,超融合,IT,架构,灵活性强,业务按需部署,业务逻辑隔离,资源利用率高,计算及存储效率提升,网络带宽利用率提升,自动化程度高,自动化配置部署,专业的管理平台,安全融合网关,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Database,Internet,安全融合网关,核心、汇聚交换机,接入交换机,物理服务器,FC,交换机,物理存储,超融合,私有云建设的基础单元,传统的数据中心的架构,超融合单元,超融合单元,超融合单元,超融合单元,集群,1,虚拟网络,虚拟计算,虚拟存储,Database,Database,Database,安全融合网关,核心、汇聚交换机,接入交换机,Internet,超,融合数据中心的架构,超融合,私有云建设的基础单元,实现云计算数据中心的步骤,0,1,1,0,0,1,1,1,1,0,0,0,1,0,1,0,1,1,0,0,0,1,0,1,0,0,1,0,0,1,1,0,0,0,1,0,1,0,1,0,1,1,0,0,0,1,0,1,0,0,0,1,1,0,0,1,1,1,1,0,0,1,0,0,1,0,1,0,1,0,1,1,0,0,0,1,0,1,0,0,0,1,1,0,0,1,1,1,1,0,0,1,0,0,1,1,1,0,0,0,1,0,1,0,0,0,1,1,0,0,0,1,0,1,1,0,0,0,1,0,1,0,0,0,1,1,0,0,0,0,1,0,0,1,0,1,1,0,0,0,1,0,1,0,0,0,1,1,1,1,1,1,0,0,1,1,0,1,1,0,0,1,0,0,0,1,1,0,0,1,1,1,1,0,0,1,0,0,1,0,0,1,0,1,0,0,1,0,1,0,0,03,超融合,硬件化,设备独立,硬件孤岛,管理割裂,厂商异构,横向扩展,管理统一,传统数据中心,虚拟化数据中心,01,02,资源池化,软件定义数据中心,虚拟化,04,混合云,云化数据中心,三方兼容,私有云,云交互,云爆发,云迁移,云备份,网络虚化,易于管理,存储虚化,自动部署,47,私有云平台架构范例,云服务中心,产品管理,订单管理,施工管理,资源管理,资产管理,软件管理,业务系统管理,业务域管理,计费管理,报表管理,视图管理,系统管理,我的业务系统,申请服务,我的订单,我的资源,软件管理,操作日志,告警,通知,云监控,物理机监控,虚拟机监控,网络监控,存储监控,虚拟化监控,应用监控,数据库监控,操作系统监控,告警管理,自动化运维,大屏监控,综合视图,硬件设备,服务器,存储,网络,运营门户,自助门户,虚拟化层,WinServer,虚拟化管理中心,虚拟化管理层,CNware,中间件层,虚拟化融合引擎,资源统一管理平台,常规的私有云方案通过虚拟化、资源池化、自动化资源调度、容灾备份、数据中心可视化等关键技术,构建高效、智能的云计算平台;为企业用户提供云服务交付、运营和运维的一体化功能。,概述,私有云平台功能分析,48,云,计算,平台,统一纳管,云计算资源池和服务,提供对整体资源的动态调度能力、运维管理以及业务支撑功能,、,实现,对,IaaS,、,PaaS,等资源,池,的调度以及云平台资源,和服务,的综合监,管,控,概述,云服务能力,IaaS,PaaS,云服务门户,数据库服务,应用自服务门户,云平台管理员门户,桌面云,结构化,数据库服务,非结构化,数据库服务,中间件服务,应用容器,业务总线,消息队列,云管理平台,超 融 合 一 体 机,网络资源,存储资源,SDC,服务器资源,公 有 云 服 务,云 运 营 管 理,云 安 全 管 理,云 运 维 管 理,VMware,Hyper-V,Xen,KVM,SDN,NFV,Openflow,Overlay,SDS,虚拟化网关,分布式存储,云资源调度平台,商用云调度平台,开源云调度平台,用户,管理员,IaaS,的核心是资源的池化,基础设施,基础设施即服务,(IaaS),服务器,服务器,服务器,服务器,服务器服务,磁盘阵列,磁盘阵列,磁盘阵列,磁带库,存储服务,+,服务器,服务器,服务器,服务器,服务器虚拟化,磁盘阵列,磁盘阵列,磁盘阵列,磁带库,存储虚拟化,+,虚拟服务器,文件系统,逻辑卷,应用入池分析框架,根据应用对,CPU,和内存的负载特点,可以将应用分成不同的类型。轻量级、可分布式的应用可整体部署在,X86,虚拟化池中,重量级、紧耦合的应用需考虑整体部署在物理机池中。对于大部分应用来说,可以将应用进行层次拆解,从不同层次来分析应用的入池需求。,应用入池,需求分类,将应用拆解为不同部分,分类入池,整体进,X86,虚拟池,低,CPU,、低,IO,的应用,计算需求负载低,,CPU,占用率低,IO,需求低,对,IO,的占用率低,高,CPU,、低,IO,的应用,计算需求负载高,,CPU,占用率高,IO,需求相对较低,对,IO,的占用率低,高,CPU,,高,IO,的应用,计算需求负载高,,CPU,占用率高,IO,需求高,对,IO,的占用率高,低,CPU,、高,IO,的应用,计算需求负载低,,CPU,占用率低,IO,需求高,对,IO,的占用率高,例:综合管理类应用,例:应用集成、实时订单系统等,例:,ERP,数据库、核心应用系统,例:财务管控、安防系统、门户目录等,用户有两个或以上的数据中心,L2,互联需求;,或者用户在数据中心内有跨,L3,的,L2,连接需求;,适用于:主机集群、虚机高可用、主机迁移;,2015 Lenovo Internal.All rights reserved.,私有云平台整体网络架构实例,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,SAN,主数据中心,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,虚拟化服务器集群,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,SAN,2#,数据中心,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,APP,OS,虚拟化服务器,虚拟化服务器集群,DWDM,GE/10G,GE/10G,EVI,应用场景,基于,IP,层面实现跨数据中心的,L2,互联,不依赖,MPLS&STP,、对广播流量有优化措施、对多地点的网关一致性有配套的解决方案。,对虚拟高可用有优化支持。,技术优势,2#,数据中心,与主数据中心间采用密集波分系统,DWDM,链路高速连接,DWDM,通过,OADM,基于,10G/GE,连接到互联交换设备,大二层网络,二层多路径,二层的扩展,多中心选路,LSIP,多中心互联,DWDM,EVI,VM,流量感知,VMotion,HA,DRS,服务可用,DNS,LB,私有云网络安全设计原则,防火墙作为边界防御设备,决定了哪些内部服务可以被外界访问;外界的哪些人可以访问内 部的哪些服务,以及哪些外部服务可以被内部人员访问。,防火墙(,FireWall,),全自动的精确检测、实时阻断恶意连接;,在线部署,也可旁路部署,入侵防御系统(,IPS,),DDoS,防御设备通过静态漏洞攻击特征检查、动态规则过滤、异常流量限速和,“基于用户行为的单向防御”技术,流量清洗(,Guard,),NAT,不仅能解决了,lP,地址不足的问题,而且还能够有效地避免来自网络外部的攻击,隐藏并保护网络内部的计算机。,网络地址转换(,NAT,),支持,SSL/IPsec VPN,,通过加密技术、完整性校验技术保障。,完整性和保密性保护,虚拟私有网络(,VPN,),部署堡垒机设备,是为了加固数据中心运维环境的安全系数,最小化的规避运维过程中面临的风险问题,保障良好的交付水平,同时也能有效的提高数据中心运维工作的安全管理能力及时间成本。,堡垒机,网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。,网络安全,概念,1,2008,年,9,月,美国自然(,Nature,)杂志专刊,The next google,第一次正式提出“,大数据,”概念,。,2,2011,年,2,月,1,日,科学(,Science,)杂志专刊,Dealing with data,,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“,数据困境,”。,3,2011,年,5,月,麦肯锡研究院发布报告,Big data:The next frontier for innovation,competition,and productivity,第一次给大数据做出相对清晰的定义:“,大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集,。”,时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”,。,“大数据”这一概念的形成,有三个标志性事件:,大数据的由来,4 V,特征,种类多(,V,ariety,),速度快(,V,elocity,),价值高(,V,alue,),体,量,大,(,V,olume,),大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。,随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。,大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。,从,2013,年至,2020,年,人类的数据规模将扩大,50,倍,每年产生的数据量将增长到,44,万亿,GB,,相当于美国国家图书馆数据量的数百万倍,且每,18,个月翻一番。,大数据的特点,大数据,数据源整合进行存储、清洗、挖掘、分析后得出结果直到优化企业管理提高效率,云计算、硬件性价比的提高以及软件技术的进步,智能设备、传感器的普及,推动物联网、人工智能的发展,计算,运行、计算速度越来越快,存储,存储成本下降,智能,实现信息对等解放脑力,机器拥有人的智慧,大数据的技术支撑,美国著名管理学家爱德华戴明所言:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”,(,1,)有数据可说,在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。人类生活在一个海量、动态、多样的数据世界中,数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见,好比放大镜、望远镜、显微镜那般重要。,(,2,)数据,更,可靠,大数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关系,其可靠性的数理哲学基础是世界同构原理。世界具有物质统一性,统一的世界中的一切事物都存在着时空一致性的同构关系。这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。,因此,,“用数据说话”、“让数据发声”,,已成为人类认知世界的一种全新方法。,大数据意义,风马牛可相及,在大数据背景下,因海量无限、包罗万象的数据存在,让许多看似毫不相干的现象之间发生一定的关联,使人们能够更简捷、更清晰地认知事物和把握局势。大数据的巨大潜能与作用现在难以进行估量,但揭示事物的,相关关系,无疑是其真正的价值所在。,经典案例:,(,1,)啤酒与尿布,(,2,)谷歌与流感,大数据的意义,来自大量传感器的机器数据,科学研究及行业多结构专业数据,来自“大人群”泛互联网数据,智能终端拍照、拍视频,发微博、发微信,其他互联网数据,海量的数据,的产生,随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生,。,大数据的来源,大数据的采集,1,大数据的采集通常采用多个数据库来接收终端数据,包括智能硬件端、多种传感器端、网页端、移动,APP,应用端等,并且可以使用数据库进行简单的处理工作。,常用的数据采集的方式主要包括以下几种:,数据抓取,01,数据导入,02,物联网传感设备自动信息采集,03,大数据处理方法,导入,/,预处理,2,虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分布式存储集群当中,同时,在导入的基础上完成数据清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。,现实世界中数据大体上都是不完整、不一致的“脏”数据,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量,产生了数据预处理技术。,数据清理,数据集成,数据变换,数据归约,主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等目标。,是将多个数据源中的数据结合起来并统一存储,建立数据仓库。,过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。,寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。,大数据处理方法,统计与分析,3,统计与分析主要是,利用分布式数据库,,或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求,在这些方面可以使用R语言。,R语言是用于统计分析、绘图的语言和操作环境,属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。,R语言在国际和国内的发展差异非常大,国际上R语言已然是专业数据分析领域的标准,但在国内依旧任重而道远,这固然有数据学科地位的原因,国内很多人版权概念薄弱,以及学术领域相对闭塞也是原因。,R语言是一套完整的数据处理、计算和制图软件系统。R语言的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。,在大数据的统计与分析过程中,主要面对的挑战是,分析涉及的数据量太大,,其对系统资源,特别是I/O会有极大的占用。,大数据处理方法,大数据挖掘,4,数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查找特定类型的模式和趋势,最终形成创建模型。,分类,朴素贝叶斯算法,一种重要的数据分析形式,,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型,,目的是根据数据集的特点把未知类别的样本映射到给定类别中。,支持向量机,SVM,算法,AdaBoost,算法,C4.5,算法,CART,算法,聚类,BIRCH,算法,目的在于,将数据集内具有相似特征属性的数据聚集在一起,,同一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显的区别。,K-Means,算法,期望最大化算法(,EM,算法),K,近邻算法,关联规则,Apriori,算法,索系统中的所有数据,,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计的方法得出的信息。,FP-Growth,算法,预测模型,序贯模式挖掘,SPMGC,算法,一种统计或数据挖掘的方法,包括可以,在结构化与非结构化数据中使用以确定未来结果的算法和技术,,可为预测、优化、预报和模拟等许多业务系统所使用。,大数据处理方法,大数据,7,个应用场景,环境,教育行业,医疗行业,农业,智慧城市,零售行业,金融行业,大数据应用场景,Google,老三篇:,搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高。,Google,于,03,至,06,年左右公布了三篇论文,描述了,GFS,、,BigTable,、,MapReduce,三种技术以解决这些问题,GFS-HDFS,MapReduce-MapReduce,Bigtable-Hbase,确定了大数据处理的基本思想:,使用廉价的服务器组成服务器群集,容错设计保证了高可靠性,提供高吞吐的海量的存储能力,提供并行计算能力,Hadoop,的由来,面临的问题,思考:如何存储一个文件,文件只有,1M,,存储在本地磁盘,文件,500G,,存放在本机,分区不够大,扩大分区,文件,1T,呢?有些文件系统不能支持这么大的文件,有,50,个,1T,的文件,怎么存?怎么读?怎么并发读?,RAID5+,热备,一个机器都坏掉?冗余问题,Hadoop,设计思想,硬件容错,没有不会出错的硬件,提升硬件稳定性成本过高,提供健康监控,快速检测,自动恢复的,HDFS,流式数据访问,适应批处理处理的要求,交互式处理、随机访问支持差,简单的一致模型,一次写入,多次读取的访问模型,一个文件已经创建、写入、关闭后,就不需要改变,简化了数据一致性的实现,实现了高吞吐的数据访问,大规模数据集,适合存储,GB,、,TB,的大文件,移动的计算,计算移向数据,计算本地化,Hadoop,的构成,Hadoop,是最经典的大数据处理模型,包含三个组件,:,Hadoop,分布式文件系统,(,HDFS),用于并行处理的,MapReduce,用于作业计划和资源管理的,YARN,Hadoop,最常用于已存储数据的批处理,Hadoop,分布式文件系统,(,HDFS),Hadoop,的存储系统,以块(,block,)为存储单位,文件被分成多个块,并存储在整个集群的工作节点上,HDFS,向用户隐藏了这些数据分块切片及分布的复杂性,MapReduce,Hadoop MapReduce,是一个软件框架,用于编写处理海量数据的作业。输入数据已拆分成独立的区块,这些区块将在群集中的节点之间并行处理。,MapReduce,作业包括两个函数,:,映射器,Mapper,:使用输入数据,对数据进行分析(通常使用筛选器和排序操作),然后发出元组(键,/,值对),化简器,Reducer,:使用映射器发出的元组并执行汇总运算,以基于映射器数据创建更小的合并结果,使用,Open stack,构建私有云,内容一览,OpenStack,简介,OpenStack,架构及运行机制,OpenStack,核心组件,OpenStack,解决方案部署,OpenStack,商用版本增强功能,企业云平台发展方向,企业,IT,云之路,物理设备虚拟化,资源整合,资源按需使用,自动化管理,资源弹性调度,基于大集群的,HA,,,DRS,多数据中心整合,统一管理和运维,多级备份容灾,SDN,网络虚拟化,统一管理,资源最优配置,业务灵活迁移,Private,Public,Hybrid,Cloud,私有云,虚拟化,分布式云数据中心,混合云,关注资源,逐渐关注业务,关注全局业务,灵活的业务驱动,OpenStack,概述,OpenStack,是一个云操作系统,可控制整个数据中心的大型计算,存储和网络资源池,所有这些都通过仪表板进行管理,该控制台可让管理员控制,同时使用户能够通过,Web,界面配置资源。,OpenStack,概述,OpenStack,项目由,NASA,(美国国家航空航天局)和,Rackspace,合作研发并发起的,以,Apache,许可证授权的自由软件和开放源代码项目。,2012,年,OpenStack,基金会成立,成为第,2,大开源基金会至今(仅次于,Linux,基金会),版本周期:每年发布,2,个主版本(,4,月和,10,月各发布一个),主版本发布后会进行多次小版本更新,小版本更新以修正,BUG,为主。,版本命名规则:每个主版本系列以字母表顺序(,AZ,)命名,以年份及当年内的排序做版本号,如,Queens 2018.4.0,OpenStack,的优势,架构开放,北向标准,OpenStack API,,生态系统丰富,不会绑定到一个厂家,Apache License,,允许随意商业集成,异构接入能力强,南向异构接入强。异构,hypervisor(KVM/XEN/Vmware/LXC),异构存储,异构网络,异构物理设备,可扩展性好,较容易定制化增加新模块和服务(如新的虚拟化引擎),级联后可构建,大规模的云,参与者众多,发展迅猛,行业默认云平台,Bug,响应快,每六个月发布一个版本,参与社区的企业,300+,,开发人员,20000+,3rd,Network,3rd,Hypervisor,3rd,Storage,3rd DC,Management,MANO/BOSS,3,rd,Guest OS&,Applications,Nova,Cinder,Neutron,Heat,OpenStack+,OpenStack,:架构开放、扩展性良好、支持多厂商基础设施的统一平台,OpenStack,概念架构图,OpenStack,核心组件,服务,功能,Horizon,Portal,Nova,计算服务,Neutron,网络服务,Swift,对象存储,Cinder,块存储,Keystone,认证服务,Glance,镜像服务,Ceilometer,计量监控,Heat,业务编排,方案价值,:,满足公有云规模需求,级联后最大可支持十万主机、百万虚拟机,并且支持跨数据中心分布,基于原生态标准,Openstack API,和架构,维护了,OpenStack,生态系统的稳定,支持多厂商,OpenStack,无缝接入,保证了,OpenStack,的开放性,真正意义上的故障隔离的高可用,(Availabity Zone),按,Scale Out,架构扩展,直至跨多数据中心,满足公有云要求,OpenStack,级联方案,级联,OpenStack,OpenStack API,OpenStack API,DC1,DC2,DCn,Availability,Zone 1,Availability,Zone 2,Availability,Zone 3,Availability,Zone 4,Availability,Zone 5,Availability,Zone n,Vendor1,OpenStack,OpenStack API,Redhat,OpenStack,Vendor2,OpenStack,Vendor1,OpenStack,Vendor 1,OpenStack,Vendor 3,OpenStack,容器技术的基本实现:,Docker,内容一览,容器,Why What How,?,了解,Docker,基础知识(,Docker Engine and Client),运行和管理容器,容器映像和,Docker,注册表,如何使用,Dockerfile,构建容器映像,使用,Docker Compose,构建多容器应用,容器的数据卷,Docker,网络,限制容器的资源使用量,Docker,体系的监控,为什么使用,Docker?,可基于任何堆栈(,OS,)使用任何语言构建任何应用程序,Dockerized,应用程序可以在任何地方运行,没有所谓的“它在我的机器上是能工作的呀”的争执,没有更多的依赖守护程序,所以开发人员和系统管理员联合起来,软件开发目前遇到的困境,然而,太阳下面没有新鲜事,集装箱已经深刻地改变了一次世界,docker is a shipping container system for code,Docker,特性,特性,集装箱,Docker,打包对象,几乎任何货物,任何软件及其依赖,硬件依赖,标准形状和接口允许集装箱被装卸到各种交通工具,整个运输过程无需打开,容器无需修改便可运行在几乎所有的平台上,-,虚拟机、物理机、公有云、私有云,隔离性,集装箱可以重叠起来一起运输,香蕉再也不会被铁桶压烂了,资源、网络、库都是
展开阅读全文