收藏 分销(赏)

科研大数据平台项目.doc

上传人:精**** 文档编号:3104816 上传时间:2024-06-18 格式:DOC 页数:27 大小:8.89MB
下载 相关 举报
科研大数据平台项目.doc_第1页
第1页 / 共27页
科研大数据平台项目.doc_第2页
第2页 / 共27页
科研大数据平台项目.doc_第3页
第3页 / 共27页
科研大数据平台项目.doc_第4页
第4页 / 共27页
科研大数据平台项目.doc_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、科研大数据平台项目技术建议书目 录1. 概述11.1. 项目背景11.2. 需求分析11.3. 方案简述11.4. 方案价值22. 设计方案42.1. 设计原则42.2. 系统架构52.3. 分布式数据库系统52.3.1. MPP + Share Nothing架构52.3.2. 核心组件62.3.3. 高可用62.3.4. 高性能在线扩展72.3.5. 高性能数据加载82.3.6. OLAP函数92.4. Hadoop集群92.4.1. Hadoop企业版92.4.2. HIVE分布式内存分析引擎102.4.3. HBASE分布式实时在线数据处理引擎102.4.4. Stream流处理引擎1

2、12.5. 服务器虚拟化112.5.1. 设计理念122.5.2. 系统结构132.5.3. 服务器虚拟化系统组成142.6. 云管理平台152.6.1. 浪潮云海OS架构图152.6.2. 浪潮云海OS实现的功能152.7. 爬虫软件182.7.1. 建设网络爬虫私有云182.7.2. 高效的分布式、协同化数据采集模式202.7.3. 爬虫路线规划能力212.7.4. 爬虫调度和负荷规划能力212.7.5. 极致的开放兼容平台222.7.5.1. 为什么需要开放的可集成的网页抓取软件222.7.5.2. 集搜客网络爬虫的开放接口223. 方案优势233.1. 浪潮MPP数据库优势233.1.

3、1. 高性能233.1.2. 高性价比233.1.3. 高易用性233.2. 浪潮Hadoop优势233.3. 浪潮云计算优势233.3.1. 运营效率提升233.3.2. 服务水平提高243.3.3. 实现数据中心的绿色节能243.3.4. 分工细化使得终端用户只需专注自身业务243.3.5. 降低总体拥有成本(TCO)243.3.6. 可靠性提高253.3.7. 性能强大253.3.8. 扩展性好253.3.9. 可管理性254. 推荐配置261. 概述1.1. 项目背景通过本项目的实施与建设,在以服务科研工作为主导的原则下,基于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据

4、服务应用平台。利用大数据技术,满足不同层级用户的需求,达到改善我校的科学研究环境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。本项目分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。1.2. 需求分析要构建多样化、专业化、柔性化的科研数据服务应用平台,现有架构很难承担日益增长的数据分析需求。迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值,提高系统安全、系统高可用等。需求分析如下:寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。从全局及

5、用户长远利益考虑,规划先进的大数据平台底层架构,满足大数据时代的业务需求。保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。系统多平台整合,建设统一的底层平台,提高系统安全等保级别,规避系统单点风险。1.3. 方案简述根据对背景及需求的分析,为了帮助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。物理架构:采用虚拟化技术,为客户打造IaaS底层系统架构。数据架构:采用与客户习惯使用的SQL这种更易于理解的、交互性更好的访问接口,架构需要以MPP数据库及计算框架为核心,将MPP运算调度引擎完全融入非关系型运算调度

6、框架,实现可以同时调度关系运算和非关系运算的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现MPP数据库和Hadoop的统一调度和处理,为新型的基础软件平台和上层应用提供数据服务。1.4. 方案价值弹性扩展采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供基础计算、存储、网络资源,同时运用云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性服务、流转和管理。动态资源分配云计算被认为是分布式处理、并行处理以及网络计算的进一步发展,其使用虚拟机力度方式,根据应用的动态对资源进行增删。快速响应以

7、并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用API等完整的数据处理服务。高可用采用分布式存储系统,数据互备,快速备份和恢复。支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。多副本容错,数据安全无忧。数据分析构建大数据存储应用平台,围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。单一的MPP数据库或Hadoop产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。应用云云计算并不是一个突兀全新的理念,云计算的快速发展,是

8、需求驱动、技术进步和商业模式转变共同发展和促进的结果。随着我校大规模计算和海量数据存储需求的出现,使得科研大数据平台对 IT 基础设施的需求也随之增长。云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮助。因此,本方案的核心价值在于将这两种方式的界限在实际应用部署中打破,形成以全数据处理为核心,垂直整合操作系统、MPP数据库、Hadoop、统一数据服务的基础软件平台解决方案。2. 设计方案2.1. 设计原则为保证科研大数据平台项目建设的成功,在技术方案中我们主要遵循了以下几个原则:先进性与成熟技术的集合:在设备选型设计中,我们要考虑采用当今业界的主

9、流技术,同时要选用在众多关键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;高效的可管理性:对于日益复杂的IT系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;性能价格比:保证充分满足用户的性能的同时,考虑最优的性价比;坚持系统建设投资经济合理性的原则;高可靠性:全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;高安全性: 保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;平滑扩展性:基于统一标准设计的硬件平台架构,具有平滑扩展的能力,可在未来方便的根据客户需求增添新的硬件;开放性与标准

10、化:采用标准的技术以保证与其他厂家的产品相兼容;产品利用率:考虑现有设备的使用情况,提高产品的利用率。降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。本次设计满足当前阶段应用需求的同时,具备升级扩容能力,继续满足下一阶段的应用需求。2.2. 系统架构2.3. 分布式数据库系统2.3.1. MPP + Share Nothing架构分布式数据库采用完全并行的 MPP + Share Nothing 的分布式扁平架构,这种架构中的每一个节点( Node )都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。2.3.2. 核心组件分布式数

11、据库产品总共包含三大核心组件,即GCluster、GCware和GNode。GCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GCluster和GNode实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GC

12、luster中最基本的存储和计算单元。GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。2.3.3. 高可用分布式数据库通过SafeGroup组内冗余机制来保证集群的高可用特性:每个SafeGroup可提供1个或2个副本数据冗余;SafeGroup 内数据副本自动同步;复制引擎自动管理数据同步;采用扁平架构,每一个节点都可以充当主控节点,避免了Maste

13、r节点产生的瓶颈以及当Master与Stand-by宕机产生的整个集群不可用。2.3.4. 高性能在线扩展分布式数据库具备在线扩展技术:通过SafeGroup 动态扩展集群节点,实际可扩展到64 3(192)个节点;每个节点可以处理100 TB有效数据,同时提供计算和存储能力;GCware 负责新节点的数据同步。因为浪潮分布式数据库采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。2.3.5. 高性能数据加载数据加载功能作为浪潮分布式数据库的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库

14、保存到本地磁盘。分布式数据库支持数据高效并行加载,数据加载速度随节点的扩展而呈现线性增加。集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。2.3.6. OLAP函数分布式数据库提供OLAP函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。2.4. Hadoop集群Hadoop技

15、术给客户提供稳定的、可靠的、易用的大数据设计架构,其组件包括::Hadoop企业版,HIVE分布式内存分析引擎,HBASE分布式实时在线数据处理引擎和Stream流处理引擎。其特点如下:2.4.1. Hadoop企业版Hadoop企业版具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。数据存储层: 基于HDFS 2.2的大数据存储和在线服务体系,支持Erasure Code,在副本数降低至1.5倍的情况下,提高了可靠性,可同时容忍四个数据块丢失,支持可靠存储TB级到数十PB级的数据量。资源管理层:缺省采用下一代资源管理框架YARN进行资源的分

16、配和调度,支持同时运行多个计算框架。计算引擎层:采用Map/Reduce 2完成大部分离线批处理计算任务。数据分析与挖掘层:支持离线批量SQL统计,支持R语言以及机器学习算法库 Mahout。数据集成层:Sqoop支持从DB到Hadoop的数据迁移,Flume支持从日志系统采集数据。2.4.2. HIVE分布式内存分析引擎HIVE内存分析引擎提供大数据的交互式SQL统计和R语言挖掘能力。它具有以下一些特点:高性能:HIVE支持将二维数据表缓存入独立的分布式内存(或SSD)中,建立列式存储、分区/分块和索引,采用改进后的Apache Spark作为执行引擎,SQL执行性能比Apache Hado

17、op/Hive快10100倍左右。更强的SQL支持:HIVE同时兼容Oracle PL/SQL和HiveQL语法,自动识别不同语法,支持存储过程和函数,支持常用Oracle扩展函数。完整的SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。更强的统计分析能力:用户可以通过RStudio或者R命令行访问存储在分布式内存中的数据,R语言中数千个统计算法可以和浪潮HIVE提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具。支持广泛的BI和报表工具:HIVE可以和常用的BI工具对接,包括Tableau, SAP Business Objects, Orac

18、le OBIEE等,用户无需编程就可以方便地为大数据创建美丽的报表,通过浪潮HIVE提供的高速大数据统计分析能力提高决策效率;高扩展能力:Inceptor可以随着集群规模的扩展,线性扩展处理能力,可以支持从GB到数百TB的数据处理。2.4.3. HBASE分布式实时在线数据处理引擎HBASE实时在线数据处理引擎以Apache HBase为基础,是企业建立高并发的在线业务系统的最佳选择。它有以下特点:多种数据类型支持:HBASE支持从GB到数十PB数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存储、搜索、统计和分析。高速数据处理

19、能力:HBASE支持高速的数据检索、搜索和统计;根据索引进行检索的延时在数毫秒到数百毫秒量级;支持上亿的并发用户同时进行数据插入、修改、查询和检索;支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。高效OLAP和批量统计:HBASE为HIVE引擎提供高效数据扫描接口,通过HIVE的扩展SQL语法,充分利用浪潮HBASE的内部数据结构以及全局/辅助索引进行SQL执行加速,可以满足高速的OLAP数据分析应用需求;同时也支持高速的SQL离线批处理,性能接近于存储在HDFS上的相同数据的统计。高效图计算:HBASE 提供构造图形的API,帮助用户构造由上亿顶点组成的复杂大图,同时提供专有的高效图

20、算法,包括关联网络的高速分析。2.4.4. Stream流处理引擎Stream实时流处理引擎以Spark Streaming为基础。Spark Streaming提供了强大的流计算(Streaming)表达能力,支持DAG(有向无环图)计算模型;而Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。Streaming中的复杂应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群、告警页面

21、、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。Streaming支持Kafka, Flume等常见消息队列或采集工具。2.5. 服务器虚拟化2.5.1. 设计理念浪潮云海服务器虚拟化系统是浪潮云计算解决方案的核心基础,主要负责完成底层物理资源的虚拟融合、按需分配与高效管理,可以显著提高资源交付的敏捷性和灵活性,提升资源的使用效率,为上层业务提供不间断地资源保障与可伸缩的资源供给。浪潮云海服务器虚拟化系统为计算、存储和网络提供了完整的虚拟化解决方案,支持资源的灵活分配、动态组合、在线调整与智能调度,并以虚拟机

22、或虚拟集群的形式将最终资源呈现给用户。该系统既可以单独使用,也可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者IaaS系统,同时本系统还提供了开放接口,支持二次开发,方便与其他管理平台整合。在设计理念上,整个系统遵循了以下几个原则:命令查询职责分离(CQRS)CQRS原则基于一个简单的事实:资源(对象)的行为只有两种,即命令(Command)和查询(Query)。命令可以改变资源的状态,而查询不会。基于这一原则,系统可以分为两个部分,命令部分和查询部分,并采用不同的技术加以实现和优化,简化整个系统的设计,提升整个系统的性能和可维护性。独立的认证服务服务器虚拟化是一个复杂的软件系统,由多

23、个不同功能的模块组合而成,安全认证是每个模块必须的逻辑。独立的认证服务从系统层面划分出来一个切面,实现集中式的认证管理,其他模块只需与认证服务交互,将复杂的认证过程交由认证服务处理,这一过程对模块而言是透明的。独立的认证服务对于实现SSO和系统集成具有重要的意义。独立的监控服务系统状态是进行决策的数据基础,这些数据多数是由监控服务提供的,监控服务几乎存在于任何大型的软件系统之中。浪潮服务器虚拟化系统将监控服务剥离出来,以易复用、易扩展、轻量级为目标独立发展,使其可以在不同的系统中提供监控服务。监控服务为服务器虚拟化系统监控资源状态提供了极高的灵活性和扩展性,大大缩短了系统故障的排查时间。业务数

24、据与监控数据分离业务数据与监控数据的分离,主要体现在存储、UI显示以及持久化三个方面。从存储方面来说,业务数据和监控数据的分离主要体现在存储方式,前者存到关系数据库,后者存到NOSQL数据库。从UI显示来说,UI显示的主要是业务数据,通过查询关系数据库获取,而对于监控数据,则通过查询NOSQL数据库中获取告警信息。从持久化方面的讲,业务数据具有关系性强和逻辑紧密,体现用户的业务需求,需要较高的可靠性和稳定性,因此需要持久化到关系型数据库中较为合适,这样既保证了业务关系又确保了数据的稳定性;而监控数据强调实时性,体现被监控对象的当前状况,数据关系性不强,结构单一,而且不需要进行持久化,因此使用易

25、扩展、可用性高的内存型数据库来存储这类数据比较合适,以最大程度保证数据的实时性。资源操作与资源状态维护分离资源操作与资源状态维护分离主要体现在虚拟机的管理上,资源操作基于业务流程,而资源状态维护基于事务的原子操作实现,例如通过监控数据更新虚拟机状态,并维护数据的一致性。这种机制在虚拟机管理中体现最为明显,主要包括状态切换和虚拟机并发操作处理。首先,对于状态切换失败处理,如果当前存在其他工作流正在处理当前虚拟机,将终止整个工作流并记录失败原因;否则强制同步业务状态,使之与监控状态相同,然后终止整个工作流并记录失败原因。其次,阻止对同一个虚拟机的并发操作,以避免上述的第一个可能分支出现。2.5.2

26、. 系统结构服务器虚拟化系统可分为四个层次,分别为虚拟层、应用层、展示层、运维层,虚拟层是整个系统的基础,在虚拟层之上构建了应用层,实现高级的业务逻辑,展示层用于对外交互,为了便于系统运维,专门划分了运维层,涵盖系统的安装、部署和安全管理。虚拟层直接构建在物理硬件之上,在功能上主要是完成物理资源的池化与重新组合:基于Hypervisor实现计算资源的池化,基于分布式存储/集中式存储实现存储资源的池化,基于虚拟交换机和虚拟路由器实现网络资源的池化,经由这几种技术形成了统一的计算池、存储池和网络池,在此基础之上通过按需组合构建虚拟主机和虚拟集群对外提供服务。虚拟层同时提供了资源调度(DRS/DPM

27、/HA)、镜像管理和资源管理等功能,为上层实现高级功能提供支持。应用层基于虚拟层构建高级功能,通过组合虚拟层的功能模块支撑系统的业务逻辑实现,这些主要的业务逻辑包括系统任务管理、物理资源管理(主机、存储、网络)、系统配置、虚机、模板管理以及容灾备份等,这些高级功能全部封装在应用层实现。展示层是系统对外的交互接口,提供WEB GUI界面和API接口两种形式,方便系统集成和二次开发;在运维层,提供资源访问控制、PXE安装和在线升级等功能,简化系统运维。2.5.3. 服务器虚拟化系统组成 上图中计算资源和存储资源均由控制中心统一控制与管理。服务器虚拟化系统包括三条通信链路:控制网,用于控制中心与各计

28、算节点、存储节点及文件系统主控间传输资源信息与控制指令;数据网,连接计算节点与存储系统,用于传输虚拟机正常所需的存储数据;业务网,资源租户及云业务用户通过此网访问虚拟机及部署在虚拟机里的业务,业务网通过VLAN等技术实现隔离。2.6. 云管理平台浪潮云海OS 是浪潮自主设计的系统架构,自主研发的国产云资源管理平台,支持底层VMWare vSphere平台及浪潮自研虚拟化产品iVirtual的异构虚拟资源池,对已部署的vSphere环境无需停机即可被云海OS接管,实现对现有vSphere环境的无缝兼容,实现安全可控。浪潮云海OS 的架构秉承模块化设计理念,结合浪潮对云数据中心客户需求的理解,以超

29、越用户所想,提供超值的用户体验而完成的系统设计。2.6.1. 浪潮云海OS架构图 2.6.2. 浪潮云海OS实现的功能云资源管理(1)资源池管理:通过添加vCenter/iVirtual将多个异构资源池整合成一个更大的资源池,进行统一管理和资源分配。资源池管理包括对资源池的扩充和缩减,暂停使用某些资源等操作。(2)资源池集群管理:集群是云资源的载体,是资源池分配的组成单位。通过集群管理功能实现为不同用户提供不同等级的资源服务,扩充资源池容量。可重新导入资源池的新增集群,也可暂停在某些集群上新建虚拟数据中心及应用服务。(3)虚拟数据中心管理:虚拟数据中心(vdc)界定了组织能够使用资源的范围,组

30、织管理员可将vdc资源分配给组织内用户。虚拟数据中心管理包括创建、导入,暂停使用、重新启用等操作。(4)虚拟网络管理:虚拟网络允许组织及组织用户像定义物理网络一样定义组织自己内部的网络,以及与组织外网络的连接方式,包括直连、NAT等,组织内部网络的地址分配、VLAN划分等。(5)应用服务管理:应用服务(vApp)是指提供某种服务的一个或多个通过特定网络连接在一起的虚拟机集合。可通过服务模板、新建虚拟机2种方式创建应用服务。操作包括开启、关闭、重启、删除、复制、更改所有者、导出为模板等操作。(6)虚拟机管理:单独对组成vApp的虚拟机操作。功能包括虚拟机控制台、开启、关闭、重启、挂起、恢复、删除

31、、快照、复制、移动至其他应用服务中、导出为模板等操作。(7)模板/镜像管理:通过FTP方式将应用服务模板或操作系统安装镜像上传至组织存储空间下,用于部署应用服务和安装操作系统,也可将服务模板和镜像文件共享给其他组织使用。业务管理(1)业务审批:审批系统用户提交的虚拟数据中心(vdc)、虚拟网络、虚拟应用(vApp)申请。(2)业务流程管理:审批流程引擎实现虚拟数据中心、虚拟网络、虚拟应用服务审批流程的自定义。(3)审批历史查询:查询每个订单的详细信息,包括订单内容,审批流程上的各节点的审批情况,包括审批人、审批时间和是否通过等。计费管理(1)计费设置:设置用户帐户余额的提醒周期及提醒方式(邮件

32、、短信);定义资源单价(元/资源度量单位/小时)。(2)计费等级:资源按一定标准分为不同的等级,各等级的资源计费系数不同,组织分为不同的等级,不同等级的组织计费系数也不同;系统可自行设置资源等级、组织等级对应的折扣率,从而为不同的用户提供不同的等级的服务。(3)组织账户充值:为组织账户充值,并可查询充值历史。(4)查询组织账户余额:查询各组织的帐户余额。(5)查询组织账单:查询组织每月的消费金额及费用明细。管理监控(1)监控视图:显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源组及组内各节点的状态统计信息。(2)资源管理:开启、关闭、重启服务器组内所有机器或某些服务器;配置服务器

33、BMC信息;获取并显示网络设备、数据库、web服务、操作系统、虚拟化资源的相关状态参数信息。(3)节能管理:节能管理在不影响正常业务的情况下,通过降低服务器CPU频率来降低服务器组或服务器的能耗。功能包括节能策略制定及服务器组或服务器的能耗曲线显示。(4)告警分析:分时段显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的各监测器返回的异常告警信息。(5)报表中心:图表显示服务器、网络设备、数据库、操作系统、web服务、虚拟化资源等的资源状态统计、各监测项状态。(6)系统配置:监控管理功能模块的基础性配置。如添加资源(服务器、网络设备、操作系统、web服务、数据库、虚拟化资源、)

34、,为资源选择添加监测项,通知时间表设置,告警通知联系人设置,备份与恢复当前的监控管理配置信息。系统管理(1)组织管理:组织是用户的集合,是虚拟数据中心(VDC)及vApp的所有者,也是资源使用费用的承担者。组织管理功能包括添加组织、编辑、启用、禁用、删除等操作。(2)用户管理:系统管理员管理各组织的组织管理员,各组织管理员管理其组织内部的组织用户。用户管理操作包括:添加、删除、修改基础信息、重置密码、启用、禁用等操作。(3)角色管理:角色是系统操作的集合,界定了相同角色的用户拥有的操作权限范围。角色管理包括:添加、编辑、删除等操作。(4)日志查询:根据时间、组织、用户、操作对象等条件查询相关联

35、的操作记录。(5)系统设置:配置系统发送提醒、告警类信息的邮件、短信信息。导出、删除日志,设置日志停留时长。(6)序列号管理:系统序列号分为正式序列号和试用期序列号,序列号到期后,系统将无法使用,需重新注册。(7)LDAP管理:云管理平台可与用户现有的LDAP系统集成,实现基于LDAP的身份验证访问机制,LDAP的用户可作为云平台的用户来管理或使用云资源。云管理平台为客户带来的收益使用浪潮云海云数据中心操作系统,客户可以获得以下收益:节约软件采购及服务成本浪潮提供云数据中心整体解决方案,减少项目集成费用。全国产的云管理平台,相对于国外产品价格相对较低,相对于基于开源的云管理平台,浪潮云海云数据

36、中心管理平台更加安全、稳定。管理运营效率提升云数据中心管理平台集成虚拟化管理及服务器、网络设备等硬件设备和操作系统、web服务、数据库等中间件的监控与管理功能,几乎涵盖了数据中心所有的可管理对象范畴,一套系统即可运营整个云数据中心。云数据中心管理平台能够实现对多虚拟化平台的统一管理。通过将多虚拟化平台集中到统一管理门户,形成一个大的资源池,有效解决异构资源池管理问题。服务水平提高浪潮云海云数据中心管理平台实现基础设施资源的服务化(IaaS),以应用服务形式对外提供服务,利用服务模板可实现业务的快速部署,显著缩短应用系统上线时间,帮助客户快速实现自身价值。2.7. 爬虫软件2.7.1. 建设网络

37、爬虫私有云GooSeeker网络爬虫软件由两部分组成:网络爬虫云服务器、网络爬虫执行单元。2.7.2. 高效的分布式、协同化数据采集模式集搜客GooSeeker用户无论分布在哪里,都可以享受集搜客网络爬虫的服务,在线版用户可以创立一个工作组,邀请其他在线版用户加入工作组,为相同的采集目的协同完成数据采集任务。企业版将这个能力完全开放,可以完全控制和管理分布式和协同化数据采集模式。l 在企业内部可以划分成多个工作组l 工作组可以用后台管理程序随时根据工作目标直接创建l 工作组大小不受限制l 工作组的划分和管理完全受控GooSeeker网络爬虫可以由服务器统一调度,企业版可以用定制开发的更周密的负

38、荷分担算法控制每个网络爬虫的运行,而且根据网络爬虫的运行状态合理调配工作量,对于失败的网络爬虫可以及时予以隔离,甚至在其他网管系统的辅助下,监控网络爬虫计算机各个层面的运行状况。2.7.3. 爬虫路线规划能力集搜客GooSeeker网络爬虫沿着线索扩展爬行范围,而且不限广度和深度。免费在线版用户在MS谋数台的爬虫路线工作台上规划爬虫路线,主要能力就是:从抓取到的网址上建立下一级线索,这是深度方向,同时抓取到的下级线索不只一个,那么就是在广度方向进行扩展。总之,网络爬虫抓取网页数据的时候,把一些网址作为广度或者深度方向扩展的线索。免费在线版只能在定义抓取规则的时候规划爬虫路线;而企业版可以有更多

39、规划爬虫路线的选择。在抓取结果清洗和入库的时候在深度和广度方向生成线索,这是企业版常用的方式,此时,企业版GooSeeker具有最大的灵活性和控制力,比如,可以用入库脚本程序任意控制爬虫路线的生成,可以替换URL中的参数,可以根据URL地址规律批量生成网址,可以在一批网址中根据一定规则进行筛选等等。最大的灵活性在于爬虫路线的生成时间。当网页抓取用于探索性研究的时候,可以根据需要随时延伸爬虫深度和广度范围,不必在第一次数据清洗过程就把所有线索都生成好了,其实那时可能还不知道是否有必要做爬行范围延展。而且也容易实现同一个网址用于多个抓取主题,分别为不同的研究目的服务。2.7.4. 爬虫调度和负荷规

40、划能力集搜客GooSeeker网络爬虫是一款高性能网络爬虫软件,多台计算机可为同一目标协同工作,同一台计算机上能运行多个线程并行抓取网页。那么就需要规划每个网络爬虫线程的工作内容和工作负荷,以及启动和停止时间等等。免费在线版GooSeeker网络爬虫主要依赖周期性网页抓取调度文件crontab.xml管理网络爬虫,比如,一台计算机上启动多少个线程,每个线程在什么时间启动,每一批包含多少网页,抓取什么主题,按照什么顺序等等。crontab.xml文件是预先生成好的,比如,使用crontab.xml生成器。预先生成的缺点是调度爬虫不够灵活,如果爬几十个网站,这个缺点并不显著,如果要爬几百上千个网站

41、,要把所有的网站目标都编制到crontab文件,将是十分繁琐的。企业版GooSeeker网络爬虫可以接受服务器下发的任务安排,也就是crontab文件中的每个step都可以通过云服务器下发下来,那么在云服务器上可以实现一个复杂的调度和负荷规划程序,配以爬虫管理程序,能够细致地为每个爬虫安排合适的抓取任务。2.7.5. 极致的开放兼容平台2.7.5.1. 为什么需要开放的可集成的网页抓取软件如果网络爬虫只是大型IT系统的一个模块,集搜客GooSeeker网络爬虫能否无缝地集成到各种IT系统中?此类IT系统对网络爬虫的需求主要包括: IT系统可以控制网络爬虫的爬行范围 IT系统可以控制网络爬虫什么

42、时候启动,每次抓取的批次大小等 IT系统需要及时获得爬取结果,由IT系统负责内容管理、数据挖掘等信息处理过程 IT系统能够监控爬虫的成功率,可及时修正失败状态,比如,重新启动抓取失败的线索2.7.5.2. 集搜客网络爬虫的开放接口显然,一个封闭的网络爬虫软件不能满足上述需求,而集搜客网络爬虫提供标准的开放的API接口,也可以直接从数据库层面进行对接,完美解决无缝集成问题。3. 方案优势3.1. 浪潮MPP数据库优势3.1.1. 高性能列存储技术在大大减少 I/O 的同时,能显著提高查询性能;智能索引大幅提高查询性能;高速的数据加载性能;高效的并行 SQL 执行计划。3.1.2. 高性价比采用多

43、种压缩技术, 减少存储数据所需的空间, 可以将所用空间减少 1 20倍,并相应地提高了 I/O 性能;采用高压缩技术,能显著减少存储开销,从而帮助客户减少了数据库整体投入成本。3.1.3. 高易用性易于实施和管理,只需要传统数据库 1/10 的管理成本,与主要商业智能工具兼容,如 Cognos、SAP BO、BIEE、SAS、SPSS。3.2. 浪潮Hadoop优势支持高性能交互式数据分析,无需等待,实时生成统计结果。性能比开源Hadoop产品快10到100倍;提供PL/SQL以及R语言,支持更强的统计分析能力,应用迁移非常方便;支持广泛的BI和报表工具,无需编程,方便应用迁移。3.3. 浪潮

44、云计算优势方案中虚拟化软件采用浪潮云海Incloud Sphere,国产自主研发,并具备当下最主流先进的虚拟化功能。云管理平台部分采用浪潮云海Incloud Manager,全自主知识产权,突破了云数据中心资源管理、调度、多资源池融合等多项核心技术,实现了真正的安全可控。3.3.1. 运营效率提升通过云海实现系统的搭建与部署,大大提高运营效率。其工作效率的提升不是以百分之多少来衡量的,而是几倍甚至数十倍的提升。传统的一个操作系统的准备物理环境可能需要几个小时甚至几天,而虚拟化的环境只需要十几分钟。事实上,只需要人工的几个鼠标点击。其余的时间都是系统自动工作而不需要人工的干预。最快的时候,搭建一

45、个数百操作系统的应用人工也只需要配置十几分钟。虚拟层会自动的根据模版生成你需要的工作环境。3.3.2. 服务水平提高云计算环境可以很容易的帮助企业建立业务和IT资源之间的关系,使各种应用和企业的苛刻的业务条件能一一对应。从整个数据中心的视图来看,云数据中心管理平台可以将所有的物理服务器作为一个大的资源池进行统一的管理,并可以按需的自动进行所有运算资源的人工或自动调度。因为所有的硬件资源与客户的应用及操作系统隔离,今后不论是物理主机的更换还是存储的升级,均可以实现应用的零宕机。也许以前的维护需要几天甚至几周的时间变更管理准备。但现在这个时间被大大的缩减甚至不需要了,我们所有的资源都可以无中断的按

46、需扩容。3.3.3. 实现数据中心的绿色节能云海的节能控制功能,能够根据业务负载,自动调整虚拟资源在物理资源上的分布,实现物理资源的动态伸缩,有效降低数据中心的能耗,实现数据中心的绿色低碳和节能环保。3.3.4. 分工细化使得终端用户只需专注自身业务云海使得普通用户无需自行构建数据中心,即可在线申请并使用数据中心的资源,减少了固定资产的投资,使其专注于自身业务,确保企业的核心竞争力。3.3.5. 降低总体拥有成本(TCO)许多应用均在未得到资源充分利用的独立物理服务器上运行,造成投资浪费。借助浪潮虚拟化解决方案,一个硬件平台可以运行不同操作系统的多个任务,其中每个任务均在自己的隔离区(VM)内

47、运行,并共享对硬件资源的访问。采用桌面虚拟化技术,用户可以将自己的多个应用系统整合至一个硬件平台中,大大降低需要投入的软件、硬件、维护等成本。3.3.6. 可靠性提高虚拟化技术将大大提高了业务及桌面端系统的服务可用性。在实施虚拟化技术之前,如果桌面端发生硬件故障,通常要停用12天的时间,来进行硬件更换。如果运行虚拟系统的服务器发生硬件故障,我们只需要将备份好的虚拟桌面的配置文件和虚拟硬盘镜像文件还原到新的服务器上,并恢复最近一次数据备份,就可以恢复桌面端系统的正常使用。3.3.7. 性能强大本方案中涉及的设备和配件全部是当前最高端的选型,拥有强大的计算性能、I/O性能、和存储性能。充分满足关键应用对内存带宽和性能需求;同时,内存的镜像功能,让内存板上的对应内存形成良好的备份,确保内存数据的可靠。3.3.8. 扩展性

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服