1、资料内容仅供您学习参考,如有不当之处,请联系改正或者删除。大大数据中心建设方案Word文档 任意编辑 目 录第1章方案概述31.1.建设背景31.2.当前现状41.3.建设目标6第2章方案设计原则72.1.设计原则72.2.设计依据9第3章 数据中心方案架构103.1 数据中心架构设计103.2 大数据处理设计163.3 大数据存储设计213.4 安全设计233.5 平台搭建实施步骤283.6 物理架构设计29第4章 数据中心网络方案组成324.1.防火墙设计324.2.接入层设计324.3.网络拓扑33第5章 数据中心基础设施方案组成345.1.机柜系统设计345.2.制冷系统设计365.3
2、.供配电系统设计415.4.模块监控系统设计45第6章 运维方案516.1.技术和售后服务516.2.售后服务项目516.3.售后服务项目内容51第1章 方案概述”百年大计, 教育为本”, 教育行业是中国经济发展的关键命脉之一, 伴随着数据集中在教育业信息化的逐渐展开, 数据中心在企业和信息化的地位越来越重要。教育数据中心建设已成为教育机构信息化趋势下的必然产物。教育数据中心作为承载教育机构业务的重要 IT 基础设施, 承担着教育机构稳定运行和业务创新的重任。在教育机构新型客户服务模式下, 数据中心需要更高效地支持后台业务和信息共享需求, 同时要 24 小时不间断的提供服务, 支持多种服务手段
3、。这对教育数据中心的资源整合, 全面安全, 高效管理和业务连续性提出更高的要求。此数据中心建设方案主要对数据中心的基础设施和网络规划部分提出整体建议, 保证数据中心的高性能、 安全、 可靠, 从而使数据中心能承载更多高品质的业务。1.1. 建设背景自从出现数字化教育以来, 数据中心作为数字化交易的核心, 被各个教育系统广泛采用。当前随着教育电子化的推广, 客户市场细分的深入, 教育产品设计的专业化, 以及对于教育系统安全性的要求。教育系统的数据中心需要更强大的运算能力, 更多的存储空间, 更安全可靠的规划和设计。不但如此, 教育系统相比其它行业的数据中心有其自身特有的特点和要求。教育行业数据中
4、心的非常重要的一点就是安全和可靠。因为哪怕是短时间的网络瘫痪也会造成非常广泛和严重的后果。这对教育数据中心的资源整合, 全面安全, 高效管理和业务连续性提出更高的要求。因此教育行业数据中心产品和方案的应用必须采用更高等级的产品和整体设计方案, 以满足对于系统安全性的要求。从数据大集中到多业务整合, 教育行业的数据中心建设正围绕着业务发展的需要迅速展。教育基础设施的建设, 很重要的一个环节就是教育数据中心的建设。教育数据中心工程不但集建筑、 电气、 安装、 网络等多个专业技术于一体, 更需要丰富的工程实施和管理经验。教育数据中心设计与施工的优劣直接关系到数据中心内计算机系统是否能稳定可靠地运行,
5、 是否能保证各类信息通讯畅通无阻。由于教育数据中心的环境必须满足计算机等各种数据, 以达到反馈信息和处理问题的功效。特别是要将需要解决电池放电状态和旁路运行状态的监控管理问题等重要信息发到主要负责人的手机上, 以便能随时掌握信息, 对一些天气灾害停电而有应急预案。1.2. 当前现状随着业务的发展, 数据中心的问题与日俱增, 数据中心所面临的压力和挑战也越来越大: 业务的不断调整和改变让数据中心总体架构面临极大的压力、 有限的物理空间让数据中心扩展性和灵活性有所限制、 虚拟化的欠缺让数据中心资源调配能力有限、 复杂多变的异构环境让数据中心管理效率异常低下、 高居不下的耗电量让数据中心能源成本迅速
6、上升。这些问题与挑战让数据中心管理者迫切需要对数据中心进行整合和升级。经过有效的整合让传统数据中心升级成为一个智能化、 自动化、 高效化的数据中心。当前数据中心面临的问题: l 可靠性问题供电可靠性是数据中心安全性的重要保障, 随着以信息技术为支撑的新业务的不断涌现, 教育行业数据中心对供电可靠性的要求大大提升。在数据中心领域, 动力平台的可用性指标分别高于数据中心的可用性指标和整个网络系统的可用性指标, 因此, 对动力平台的关注理应放到最核心的位置。比如服务器电源的冗余方式发生了变化, 供电系统就应当做出相应改变。刀片服务器以及虚拟化的应用, 使高热密度问题凸显, 数据中心环境更加恶劣, 制
7、冷模式就也需要做出改变。l 节能降耗问题数据中心建设的加速, 导致的最直接后果就是能源消耗量的急剧攀升。在当前全球能源紧张的大背景下, 节能降耗是整个数据中心行业的大趋势。对于企业本身而言, 能耗的急剧增长大大提升了数据中心的运行成本, 数据中心的节能和能效改进已成为整个行业的迫切要求。l 管理与维护问题数据中心是一个庞大而复杂的系统, 这些系统是一个有机的整体, 牵一发而动全身, 数据中心可靠性的发挥有赖于每个设备的正常运行, 有赖于这些设备的协调一致, 任何一个环节出现故障, 都有可能造成巨大损失。因此, 对整个系统的管理越来越重要, 而难度也越来越大。l 扩容问题随着业务量的不断扩大,
8、教育行业IT应用系统日益增长, 服务器规模变得日益庞大, 带来了高能耗、 数据中心空间紧张、 IT 预算紧张等问题。同时, 数据中心动力平台的匹配性却不够, 要么利用率低, 资源浪费严重;要么供电与制冷明显不足, 影响数据中心可用性。简言之, 动力系统对核心设备供电或者制冷需求的反映不够灵敏。针对上述问题, 技术有限公司推出了创新型的数据中心解决方案。该解决方案具有高可用性、 高节能性、 高灵活性、 高可维护性等四大特点, 能够帮助教育行业客户解决数据中心建设与应用的难题, 满足教育企业在信息化过程中对数据中心动力安全、 节能环保等方面日益增长的应用需求。1.1.1.1.2.1.3. 建设目标
9、数据中心建设应达成以下目标: 高可用-数据中心的高可用直接影响到业务系统的可用性, 高可用至少包括高可靠、 高安全和先进性三个方面: u 高可靠: 应采用高可靠的产品和技术, 充分考虑系统的应变能力、 容错能力和纠错能力, 确保整个基础设施运行稳定、 可靠。当今, 关键业务应用的可用性与性能要求比任何时候都更为重要。u 高安全: 基础设计的安全性, 涉及到核心数据安全。应按照端到端访问安全、 网络分层安全两个维度对安全体系进行设计规划, 采用软硬件安全设备, 从局部安全、 全局安全到智能安全, 将安全理念渗透到整个数据中心网络中。u 先进性: 数据中心将长期支撑企业的业务发展, 数据中心建设需
10、要考虑后续的机会成本, 采用主流的、 先进的技术和产品, 建立高性能, 大容量存储的数据中心。u 易扩展-随着信息化的发展, 企业内通信网络的建立和全面覆盖, 未来的业务范围会更多更广, 业务系调整与扩展再所难免, 因此数据中心必须能够适应业务系统的频繁调整, 同时在性能上应至少能够满足未来5 的业务发展。对于设备的选择和协议的部署, 应遵循业界标准, 保证良好的互通性和互操作性, 支持业务的快速部署。u 易管理-数据中心是IT技术最为密集的地方, 数据中心的设备繁多, 各种协议和应用部署越来越复杂, 对运维人员的要求也越来越高, 单独依赖运维人员个人的技术能力和业务能力是无法保证业务运行的持
11、续性的。因此数据中心需要提供完善的运维管理平台, 对数据中心IT资源进行全局掌控, 减少日常的运维的人为故障。同时一旦出现故障, 能够借助工具直观、 快速定位。第2章 方案设计原则1.2.2.1. 设计原则根据”先进、 实用、 稳定、 可靠”的总原则, 对云数据中心软硬件系统进行科学合理的设计, 保证中心建设的胜利完成。数据中心工程是智能弱电工程的重要组成部分。其基本要求可归纳为: 保证系统运行的可靠性、 保证系统的设计寿命、 保证信息安全的要求、 保证操作人员的工作环境。设计一个好的数据中心, 要以兼顾人机并重之原则, 一个合格的现代化计算机数据中心, 应该是一个安全可靠、 舒适实用、 节能
12、高效和具有可扩充性的数据中心, 设计应以运行条件、 安全可靠作为首要的考虑因素。因此对数据中心建设要求遵循以下设计原则: 1 高安全可靠性为保证数据中心能为用户提供连续不间断的724小时服务, 数据中心必须具有高可靠性。在系统设计时应注意尽量减少单点故障的存在, 对存在单点故障的环节, 在设计上必须减少其对整个系统的影响。由于该数据中心内部计算机系统涉及到机密信息, 其泄密可能严重危害社会秩序, 因此需要保证数据中心的安全性, 必须具有安保系统以保证用户的设备和数据不受侵害。实现高安全性的措施包括: 闭路电视监测、 门禁系统、 自动安全报警系统等。中心软硬件系统要高度可靠, 虚拟机出现故障要能
13、自动迁移, 数据要有冗余备份, 能够从故障中及时恢复。2 可扩展性鉴于信息网络系统需求的不断发展与变化, 技术也在不断提高, 故在建设时应考虑这些变化对资源需求的改变, 以使整个系统具有灵活的可扩展性, 特别是精密空调、 配电开关及配电柜、 UPS及供电母线等。中心的服务器、 存储、 网络都能够不用停机就线性扩容服务器、 存储、 网络等设备。3 易于管理经过使用先进和可靠的管理工具来实现系统的高质量管理, 以节约人力资源。由于数据中心内设备繁多, 具有一定复杂性, 随着业务的不断发展, 管理的任务必定会日益繁重。因此在设计时, 必须建立一套完善的数据中心管理和监控系统。实时监控、 监测整个数据
14、中心的运行状况、 语音报警, 实时事件记录, 能够迅速确定故障, 提高可靠性, 简化数据中心管理人员的维护工作。中心的资源池支持方便灵活地管理维护和审计。4 高性能价格比数据中心所需设备的选型应该以适用为主, 合理选择材料与设备; 不要造成资源浪费; 同时也要保证该数据中心的高可靠性。以较高的性能价格比设计数据中心, 能以较低的成本、 较少的人员投入来维持系统运转, 提供高效能与高效益。中心的软硬件设施选择合理, 具有高性价比。2.2. 设计依据电子计算机数据中心设计规范GB50174-93 计算机场地技术条件GB2287-89 计算机场地安全要求GB9361-88 计算机机房活动地板技术条件
15、GB6650-86 建筑物防雷设计规范GB50057-94 高层民用建筑设计防火规范GBJ45 电子计算机机房施工及验收规范SJ/T30003-93 建筑防火设计规范GB5004-95 空调与通风工程施工及验收规范GB50243-97 建筑与建筑群综合布线系统工程设计规范GB/T50311- 建筑与建筑群综合布线系统工程验收规范GB/T50312- 中华人民共和国通信行业标准YD-T926 1、 2、 3 国际综合布线标准TIA/EIA 568-B 供配电系统设计规范GB50052-92火灾自动报警系统设计规范GBJ116-98 工业企业通信接地设计规范GBJ79-85 高性能屏蔽室屏蔽效能的
16、测量方法GB12190第3章 数据中心方案架构3.1 数据中心架构设计 云计算数据中心经过运行在单独的服务器上的云操作系统对服务器、 存储、 网络等资源进行虚拟化管理, 提供能够自定义的虚拟机, 在虚拟机上安装Hadoop、 hbase等Nosql分布式数据库集群, 对现有的数据ETL采集、 清洗、 转换、 汇总进来, 使用海量数据分布存储技术, 用spark、 storm等大数据处理软件对hbase中的数据进行分析处理, 挖掘数据价值。还能够在虚拟机上运行业务应用系统, 提供负载均衡和冗余备份, 达到系统的稳定、 高可用和方便的扩展性。经过安装SSR等安全软件和安全服务器, 能够保证提升操作
17、系统的安全级别, 从而达到国家等级保护的三级要求, 为客户构建真正的安全长城。云计算数据中心能够自动管理和动态分配、 部署、 配置、 重新配置以及回收资源, 也能够自动安装软件和应用, 具有良好的弹性和灵活性, 管理、 使用方便。云中心能够向用户提供虚拟基础架构。用户能够自己定义虚拟基础架构的构成, 如服务器配置、 数量, 存储类型和大小等等。用户经过自服务界面提交请求, 每个请求的生命周期由平台维护。服务器虚拟化系统基于服务器, 存储和网络设备构建资源池, 在资源池上经过资源的管理、 调度和镜像管理实现系统的各种高级功能, 例如计算层面的系统负载均衡和虚拟机高可用, 存储层面的镜像复制和冗余
18、。系统支持以主机或者虚拟群集为单位管理资源, 虚拟群集为一组共享存储资源的物理主机。 云中心既是一个企业云, 也能够对外提供服务, 扩展成公有云。学校还能够使用别的公有云如阿里云, 形成混合云。云中心包括iaas、 paas、 saas三层服务: 1) . SaaS: 提供给客户的服务是运营商运行在云计算基础设施上的应用程序, 用户能够在各种设备上经过客户端界面访问, 如浏览器。消费者不需要管理或控制任何云计算基础设施, 包括网络、 服务器、 操作系统、 存储等等; 2) . PaaS: 提供给消费者的服务是把客户采用提供的开发语言和工具( 例如Java, python, .Net等) 开发的
19、或收购的应用程序部署到供应商的云计算基础设施上去。客户不需要管理或控制底层的云基础设施, 包括网络、 服务器、 操作系统、 存储等, 但客户能控制部署的应用程序, 也可能控制运行应用程序的托管环境配置; 能够使用docker容器完成应用系统的部署和管理。3) . IaaS: 提供给消费者的服务是对所有计算基础设施的利用, 包括处理CPU、 内存、 存储、 网络和其它基本的计算资源, 用户能够部署和运行任意软件, 包括操作系统和应用程序。消费者不论理或控制任何云计算基础设施, 但能控制操作系统的选择、 存储空间、 部署的应用, 也有可能获得有限制的网络组件( 例如路由器、 , 防火墙, 、 负载
20、均衡器等) 的控制。 云中心采用xen、 kvm、 VMware进行虚拟化, LXC提供Linux容器, 支持docker应用容器。一 . 服务器采用浪潮整机柜服务器SmartRack, 面向海量数据的存储和处理, 适合云资源池如虚拟化、 分布式存储, 大数据处理如Hadoop集群等应用, 当前在国内服务器中占主导地位, 特点如下: 定位多种应用, 支持各类服务器节点。针对不同业务对存储、 计算、 IO吞吐量、 功耗的不同要求, 设计开发出不同种类的服务器节点, 包括: 1U全宽双路12盘位综合型节点、 1U全宽单路18盘位冷存储节点、 1U半宽双路计算型节点, 满足不同需求。 整机柜集中供电
21、、 集中散热, 相比其它架构服务器, 运行功耗降低10%以上。 整机柜由一组电源模块集中供电, 最大输出功率高达22.5kw, 直接支持交流或高压直流供电, 各节点经过铜排从电源模块取电, 结合电源负载动态调整技术, 电源转换效率高达94%以上。机柜背部风扇墙集中散热, 根据节点数量灵活调节风扇墙高度, 采用140mm大尺寸风扇, 相同功耗下可提供更大散热量。领先的架构设计, 保障系统高可靠运行。服务器节点中无独立的电源和风扇, 有效降低单点故障。根据整机柜实际负载情况, 电源可实现N+N/N+2/N+1多种冗余方式。风扇可根据温度状况自动调节转速, 支持2+1冗余。对整机柜节点、 电源、 风
22、扇进行集中监控管理。实现管理中心RMC对整个机柜各模块的统一监控和管理, 节点、 电源、 风扇的健康状况、 温度、 配置信息一目了然, 还可进行批量开关机、 重启, 功耗控制, 风扇转速自动/手动调节等功能, 搭配专为Smart Rack设计的可视化管理软件, 轻松实现简易化智能管理。简易维护, 无需繁琐拆装。独有节点前维护设计、 各模组免工具热插拔设计、 优化的线缆走线设计, 使得系统运维难度大大降低。风扇等易损部件全部裸露在外, 更加方便更换维护。二 云操作系统建议采用浪潮云海云数据中心操作系统 V3.0, 此系统秉承开放化、 模块化、 标准化的设计理念, 基于虚拟化技术, 实现了数据中心
23、资源融合、 资源管理及服务交付, 简化了云数据中心运维, 提高了云数据中心服务水平。云海云数据中心操作系统有以下特点: 自主可控、 安全可靠的云数据中心操作系统: 浪潮自主研发的国产云数据中心操作系统, 加强了WEB安全、 虚拟化安全、 数据安全、 访问控制、 安全审计等方面的安全控制, 可帮助用户构建安全可控的云数据中心。异构资源管理: 云海OS支持对数据中心各类异构硬件设备及软件资源的统一管理; 支持对VMWare vSphere、 Inspur iVirtual等异构虚拟化资源池的集中管理, 已部署的虚拟化环境可被云海OS无缝接管; 精细的软硬件资源监控: 云海OS支持对数据中心主流厂商
24、的服务器、 网络设备、 存储设备等物理资源, 操作系统、 数据库、 WEB应用等软件资源, VMWare vSphere、 Inspur iVirtual等虚拟化环境的精细监控, 提供界面、 邮件、 短信等多种告警方式, 经过详尽清晰的报表分析数据, 帮助数据中心的运维人员随时掌握数据中心的各类资源的运行状况, 降低运维管理复杂度, 提高运维效率。快速的服务交付: 云海OS支持经过虚拟机模板、 应用服务模板的方式, 实现业务的快速交付, 业务上线时间由原来的几周、 几天, 缩短为几分钟, 大大提高数据中心的服务水平。资源使用按量计费: 实时的资源使用情况统计, 让用户精确掌控自身资源和费用使用
25、情况, 帮助IT部门实现由成本中心向价值中心的角色转变。资源按需服务: 云海OS可实现将基础架构作为服务交付, 用户可经过自助服务门户在线申请及访问自己的虚拟数据中心、 应用服务、 虚拟机等资源, 实现资源的按需申请、 便捷获取、 自助使用。可定制的业务流程: 云海OS支持用户创立与原工作流程吻合的资源申请的审批流程, 实现业务流程的个性化、 可定制化。灵活的服务交付方式: 云海OS既支持从下到上的资源申请与审批, 也支持从上到下的资源创立与分配的服务交付方式, 可满足不同客户对资源获取方式的不同需要。多租户私有云: 云海OS可创立多个组织, 一个组织可代表某业务部门、 分部或子公司。每个组织
26、都有各自独立的虚拟数据中心、 用户及独有的目录, 可将组织资源分配给本组织的用户, 每个组织如同拥有自己的数据中心。利用基于权限的用户控制机制和基于虚拟交换机的网络隔离技术, 实现多租户环境下的安全性和可靠性, 以此构建安全的多租户私有云。灵活可控的权限管理: 云海OS支持用户自定义角色类型, 不同的权限可自由组合, 实现灵活可控的系统权限管理。服务全生命周期管理: 云海OS涵盖服务提供所需的各个环节, 包括服务的申请审批; 服务的交付和回收; 服务的使用统计和计费; 服务的运行监控服务移动性: 经过vApp封装多个虚拟机服务和相关的网络连接策略, 遵循OVF等开放式标准, 实现同一个云环境的
27、终端用户彼此之间能够轻松共享服务, 而不同的云环境的用户能够轻松的在云之间迁移服务。3.2 大数据处理设计经过在虚拟机上安装Hadoop2.6、 hbase1.0等Nosql数据库集群, 用sqoop1.3把现有的数据汇总进来, 要对现有数据做个总的分析, 对字段统一定义规划, 制定转换策略, 做到正确性、 唯一性、 可用性, 去除重复字段, 经过ETL抽取、 清洗数据, 把数据导入hbase, 这样就能够消除信息孤岛, 用spark、 storm等大数据处理软件对hbase中的数据进行分析处理, 挖掘数据价值。云中心经过调度系统自动采集、 加工、 存储数据, 为应用系统提供支持: 在云中心的
28、平台上, 开发招生、 创业、 就业、 数据实验室等应用系统, 经过元数据库管理所有的数据数据经过采集、 加工后进入hbase, 消除信息孤岛, 统一管理使用: 一.hadoop2架构体系下图是hadoop2的架构图1. HDFS文件系统, Hadoop实现了一个分布式文件系统( Hadoop Distributed File System) , 简称HDFS。HDFS有高容错性的特点, 而且设计用来部署在低廉的( low-cost) 硬件上; 而且它提供高吞吐量( high throughput) 来访问应用程序的数据, 适合那些有着超大数据集( large data set) 的应用程序。H
29、DFS放宽了( relax) POSIX的要求, 能够以流的形式访问( streaming access) 文件系统中的数据。2、 YARN是一套资源统一管理和调度平台, 可管理各种计算框架, 包括MapReduce, Spark, MPI等。包括 以下内容: ResourceManager( RM) : 整个系统只有一个RM, 它就只管调度方面的事情, 而且为集群应用而优化, 因而具有很好的性能。RM的一个核心是它的Scheduler。调度包含两个过程, 一要搜集各节点的情况; 二要根据某种调度策略, 分配合适的节点。搜集节点情况是基于一个资源容器(resource container)的概
30、念, 该容器包括cpu,disk,network等( 当前只用到cpu) NodeManager( NM) : NM是每个节点一个实例, 管理每个节点, 它触发应用容器( application container) , 监控节点的资源( cpu/disk等) , 并向RM报告资源的情况。ApplicationMaster( AM) : AM是每个应用一个实例, 它是一个特定的框架接口库, 一方面与RM中的Scheduler协商得到resource container, 另一方面与NM一起执行和监控各子任务部件, 从系统的角度, AM本身也一种container( 下图中将它与containe
31、r画得一样) 。Container: 从逻辑上, container可认为是资源的分配容器, 它包括hostname, cpu, memory等属性。AM发送ResourceRequest给RM, 然后RM分配合适的Container给AM, AM再将此Container提交给它所在节点的NM, NM采用此资源容器运行任务。实际上, Container是一种使用资源的”授权”, AM得到此授权后, 在NM的管理下, 能够运行任何进程( 包括非Java应用, 这一点与1.0不同) 。 二、 Hive是基于Hadoop的一个数据仓库工具, 处理能力强而且成本低廉。主要特点: 存储方式是将结构化的数
32、据文件映射为一张数据库表。提供类SQL语言, 实现完整的SQL查询功能。能够将SQL语句转换为MapReduce任务运行, 十分适合数据仓库的统计分析。三、 HBaseHBase是一个分布式的、 面向列的开源数据库, 它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而 不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列, 一个或多个列组成一个 ColumnFamily, 一个Fmaily下的列位于一个HFile中, 易于缓存数据。表是疏松的存储的, 因此用户
33、能够给行定义各种不同的列。在 HBase中数据按主键排序, 同时表按主键划分为多个HRegion, 如下图所示( HBase数据表结构图) : 四. Sqoop是一款开源的工具, 主要用于在HADOOP(Hive)与传统的数据库(mysql、 oracle.)间进行数据的传递, 能够将一个关系型数据库( 例如 : MySQL ,Oracle ,Postgres等) 中的数据导进到Hadoop的HDFS中, 也能够将HDFS的数据导进到关系型数据库中。五.spark架构体系Spark与Hadoop的对比 Spark的中间数据放到内存中, 对于迭代运算效率更高。Spark更适合于迭代运算比较多的M
34、L和DM运算。因为在Spark里面, 有RDD的抽象概念。 Spark比Hadoop更通用。Spark提供的数据集操作类型有很多种, 不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型, Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。Spark的mllib
35、支持机器学习。这些多种多样的数据集操作类型, 给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户能够命名, 物化, 控制中间结果的存储、 分区等。能够说编程模型比Hadoop更灵活。不过由于RDD的特性, Spark不适用那种异步细粒度更新状态的应用, 例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。 容错性。在分布式数据集计算时经过checkpoint来实现容错, 而checkpoint有两种方式, 一个是checkpoint data, 一个是logging the up
36、dates。用户能够控制采用哪种方式来实现容错。 可用性。Spark经过提供丰富的Scala, Java, Python API及交互式Shell来提高可用性。Spark与Hadoop的结合 Spark能够直接对HDFS进行数据的读写, 同样支持Spark on YARN。Spark能够与MapReduce运行于同集群中, 共享存储资源与计算, 数据仓库Shark实现上借用Hive, 几乎与Hive完全兼容。Spark的适用场景 Spark是基于内存的迭代计算框架, 适用于需要多次操作特定数据集的应用场合。需要重复操作的次数越多, 所需读取的数据量越大, 受益越大, 数据量小可是计算密集度较大
37、的场合, 受益就相对较小 由于RDD的特性, Spark不适用那种异步细粒度更新状态的应用, 例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。 总的来说Spark的适用面比较广泛且比较通用。3.3 大数据存储设计采用浪潮AS13000存储大数据, 支持容量、 性能的在线无限扩展, 提供软硬件故障情况下的数据重建、 远程容灾功能, 是适用于云计算、 大数据业务并兼具高性能、 高可靠、 高可扩展、 大容量特征的新一代存储系统平台, 具有以下特点: 。海量存储, 在线横向扩展: 1.控制器集群体系架构, 所有控制器并行承担数据IO、 保障系统整体负载均衡, 数
38、据分散存储, 避免单控制器故障带来的风险和性能的瓶颈, 支持控制器在线横向扩展, 满足持续增长的容量和性能需求。2.支持NAS/ Object/IP-SAN/ IB-SAN存储接口, 而且支持SAN、 NAS、 Object同时运行, 满足客户在不同时间、 不同地点、 不同业务对存储的不同需求, 支持Windows、 Linux、 Unix等多种操作系统并存的复杂网络环境中, 轻松实现跨操作系统的数据存储与共享, 另外支持NFS/CIFS/FTP等多种文件共享协议。3.支持丰富的主机连接接口, 支持1Gb/10Gb iSCSI、 40Gb/56Gb InfiniBand主机连接, 无缝接入用户
39、现有环境, 满足客户对高带宽及高性能的差异化需求。4.全面支持Flash /SSD/SAS/SATA各类常见存储介质, 模块化的容量扩展模式, 支持数据分级存储, 满足各类型应用。数据持续保护, 业务运行无忧: 1.支持数据卷隔离映射功能、 数据快照功能、 快照回滚、 远程卷复制( 同步/异步) 、 远程数据复制及恢复、 逻辑分区动态扩容。2.支持数据副本、 数据纠删码、 自动分层等多种数据冗余保护和性能加速功能, 为用户提供高级别的数据保护及容灾功能。3.支持全集群Active-Active、 Active-Standby、 全局热备等控制器工作模式, 保障整体系统的高可用, 确保数据存取及
40、业务运行万无一失。4.支持软硬件故障时的数据自动修复, 系统可用性达到99.999%。模块化设计, 人性化管理1.AS13000各主要部件均采用模块化设计, 客户按需选择, 维护、 升级、 管理简单方便: 2.支持数据副本、 全局热备, 以及自动构建RAID、 各RAID级别间执行在线迁移不影响正常数据应用3.完备监控管理方式, 当系统出现异常时, 除了经过机器指示灯报警外, 可经过邮件等方式将异常状况及时通知管理员4.集中部署, 统一管理绿色节能: 1) .全系统选取节能降耗的处理器、 芯片组、 风扇和散热片等部件, 提高系统的能效利用率。2) .支持在线扩容/缩减时数据自动迁移, 确保系统
41、按需配置, 同时支持Maid磁盘节能技术, 降低磁盘能耗, 节约开支。3) .支持自动精简技术, 大大提高存储资源利用率。3.4 安全设计一. 采用浪潮SSR主机安全增强系统, 这是一款基于操作系统内核层开发的安全加固软件。与传统的防火墙、 IDS/IPS不同, SSR工作在最贴近用户数据的操作系统层面, 不但能够避免外部的黑客攻击, 同样能够预防来自内网攻击的风险。该产品弥补了传统信息安全解决方案在主机层安全的”短板”, 与传统信息安全产品形成了良好的互补, 提升操作系统的安全级别, 从而达到国家等级保护的三级要求。为客户构建真正的安全长城。功能特性: 1、 强制访问控制在操作系统内核层实现
42、文件、 注册表、 进程、 服务、 网络等对象的强制访问控制, 可配置针对以上对象不同的访问策略来保护系统和应用资源, 即使是系统管理员也不能破坏被保护的资源。2、 完整性检测对文件和服务进行完整性检测, 并可设置定期检测项目, 当发现文件或者服务篡改时进行报警并发现哪些文件发生改变。3、 防格式化保护功能开启时, 可防止病毒和入侵者恶意格式化磁盘, 同时降低管理员意外格式化磁盘的风险。系统资源监控与报警:对系统的CPU、 内存、 磁盘、 网络资源进行监控, 当这些资源的使用状况超过设置的阀值时将进行报警, 以提前发现资源不足、 滥用等问题。4、 双因子认证和组合式密码认证不但提供SSR安全管理
43、员和SSR审计官员的USB KEY+密码的双因子认证功能, 还可对系统用户配发USB KEY实现双因子认证。对于远程登陆和虚拟化系统而无法识别USB KEY的服务器, SSR提供可配置两个密码组合的登陆认证方式, 只有掌握密码的两个人同时存在才能登陆系统, 以此确保自然人的可信。5、 自我保护SSR采用内核密封技术和完整性保护技术来保证SSR的文件不被恶意篡改, 进程不被恶意注入。6、 统一管理在一个SSR控制台能够同时对多个平台的SSR进行管理和维护, 且SSR可开放接口给第三方管理平台集成, 实现与不同产品间管理的融合。7、 灵活多样的策略模板提供经过验证的分等级的安全策略模板, 全面保护
44、系统, 方便易用, 降低用户的使用难度。8、 维护模式当用户担心自己配置的策略是否会影响系统和应用时, 可开启此功能, 此时SSR将只记录违规的日志而不进行阻止, 便于管理员在不造成业务中断的情况下调整策略。功能亮点: 1、 免疫病毒木马, 抵御黑客攻击SSR采用的ROST技术对系统中的文件、 注册表、 进程、 网络、 服务、 帐户等多方面进行防护构建立体防护体系, 从文件创立、 执行、 访问资源到结束层层把关, 从根本上免疫各种已知未知病毒、 后门等恶意代码, 抵御黑客的攻击, 确保系统和应用安全稳定运行。2、 降低”零日漏洞”风险, 延迟漏洞修复SSR采用强制访问控制和白名单机制, 只允许
45、可信的帐户和进程访问被保护资源, 并对操作系统中重要二进制文件进行完整性保护。即使恶意代码利用漏洞获取了系统的权限, 也不能破坏系统文件和植入木马, 降低了从”零日漏洞”发现到用户打上补丁之间这段”真空期”的安全风险, 同时允许用户延迟补丁部署, 推迟到定期修补周期进行修补。3、 分权管理, 有效规避”一权独大”SSR采用了分权管理的机制, 规避了原操作系统管理员”一权独大”的风险, 将原系统管理员权限分散为系统操作员、 安全管理员和审计管理员, 三个权限各司其职, 相互制约, 实现了最小权限, 不但保证了系统安全性, 同时贴合了国家相关信息安全标准规范。4、 提升系统安全级别, 增强用户合规
46、体验SSR在操作系统内核层实现了安全标记和强制访问控制机制, 与用户系统自身的自主访问控制相融合, 为系统和用户重要应用提供更强的约束和更高的安全控制级别, 同时提供三权分立、 完整性校验、 双因素认证、 剩余信息保护等紧贴信息安全标准的功能, 帮助用户在系统安全建设时的合规要求。5、 统一管理机制, 化繁为简管理员能够从任何地方经过双因子身份认证后, 对所有被保护的服务器进行安全策略制定和维护, 实现集中管理, 减少日常维护工作量 。二 采用浪潮SSA安全应用交付硬件系统, 特点是: 1. 丰富的应用负载均衡功能, 保障数据中心应用可用性。支持丰富的四到七层应用负载均衡功能; 支持针对多种算
47、法的全局负载均衡; 支持针对不同运营商多链路的负载均衡; 支持丰富的健康检查功能, 保障后台服务实时可用; 能够实现N+1台设备的集群、 双机热备、 双机互备等多种高可用性部署模式; 支持冗余电源, 最大化网络运行时间, 降低了系统宕机或网络故障对业务的影响。2. 多项应用加速技术, 降低服务器负载, 提升访问速度, 改进用户体验。采用内存缓存技术, 有效降低服务器负载, 并提升访问响应速度。采用业界标准Gzip、 Deflate压缩算法, 对文本类型资源可实现80%以上的压缩率, 能降低服务器的压力, 提高带宽的利用率。可对多个客户端的TCP连接进行合并, 经过少量的长连接与后台服务器通信。SSL卸载功能, 将加解密负荷卸载到应用交付设备上, 有效降低服务器压力, 并保证用户安全。