资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,智慧企业大数据平台解决方案,大数据,云平台,Contents,目 录,1.企业大数据平台业务需求,2.,企业大数据解决方案,数据交换平台,数据仓库平台,数据管控平台,数据的展现与可视化,3.企业大数据平台的相关案例,Part 1,企业大数据平台业务需求,企业数据成熟度分析,每提高一个成熟度,将带来巨大的业务价值,目前阶段,创新,大数据技,术与业务,运营融合,,利用大数,据预测成,果自动优,化和提升,业务,管理,了解,具备一定,的预测洞,察能力,,对特定业,务领域提,业务场景成熟度,应对,只有部分,关键绩效,历史数据,分析,无,统一标准,监测现有,业务的整,体运行状,况,一定,的业务预,最难跨越的阶段,出改善业,警功能,无知,不具备大,数据功能,务绩效的,行动建议,大数据发挥的业务价值,4,中国邮政大数据平台建设的总体要求,构建企业数据管控体系,实现邮政数据安全、标,实现大数据、云计算等新技术的落地应用,为,其他系统建设探索经验,,开启邮政云时代,准和质量的集中管理,,固化数据管控流程,推,动企业数据治理。,云计算,推动企业,落地应用数据治理,建立企业级数据中心,,实现企业数据统一归集,促进企业数据共享,成,为企业唯一真实数据来,源,推动大数据分析,挖掘邮政数据潜在价值,,为企业战略决策、业,务协同、风险管控等提供有力支撑。,企业数据,支撑数据,归集,分析,促进企业数据共享机制,建立,为生产、经营、,管理、决策提供数据服务,全企业,提高数据,统一整合企业内外部,结构化、半/非结构化,数据资源,提高企业,数据利用率。,数据支撑,利用率,5,5,提高数据成熟度,发挥大数据价值,应从五个方面入手,建立数据场景或,KPI体系,大数据,数据流程和制度,场景,标准化,标准和,人员、,组织架构创新,以适应大数据发展需,技能和,要,流程,文化,建立统一的可扩,信息和,应用架,数据治,理,展大数据分析平,台,进行数据质量、,构,元数据治理,6,中国邮政大数据平台建议架构,数据分析,与可,视化,分析,SAP Predictive Analysis 预测分析,SAP Lumira,SAP 移动平台,探索,仪表盘,报表,图表,可视化SAP BusinessObjects BI,(BI Mobile,MobileApplication),企业级数据仓库平台,数据管控平台,扩展数据层(冷存储),SAP HANA,主数据治理(MDG),历史数据、非机构化数据,Vora,ODS、EDW Data Mart,元数据管理(,信息,Spark,温存储(动态分层),热存储(内存计算),管家,),Hive,Pig,vUDF,DLM,热表,数据质量管理,(Data Quality),Hadoop分布式文件系统,SDA,历史数据结构化,磁盘数据扩展表,自动搬移数据老化,扩展存储(定义),实时数据结构化,数据标准管理,流数据(ESP),数据复制(SRS),(Data Services)ETL,ESB(PI),数据安全管理,数据交换平台,量收数据,邮务数据源速递、物流数据源金融数据源 ERP数据源,A-CRM数据源,其它系统数据源非结构化数据源邮政外部数据源,7,SAP建议数据平台的主要特点,广度,良好的产品覆盖度,深度,以内存计算为核心,打造实时型企业,开放与集成,与开源产品紧密集成,具有良好延展性,SAP产品能够覆盖邮政大数据平台的几大,功能模块,以内存计算为核心的大数据处理平台,遵循业界通用的接口与开发标准,SAP HANA同时满足企业数据仓库的,基于HANA简化企业EDW的复杂度,支持开源的数据处理技术,如Hadoop,能够与Hadoop/Spark等进行深度的技术j集成,ODS、EDW和Data Mart的需求,SAP在内存计算领域排名第一,部署方式灵活:企业预置型与云部署,大数据领域软件供应商的领导者,理念领先,互联网+与工业4.0的主要倡导者,可结合开源产品实现邮政集团数据生命周,SAP在全球有大量的实施案例,期管理,能够提供基于产品的快速部署和开发服务,HANA RDS(快速实施服务),借助SAP提供的全面解决方案,中国邮政可构建敏捷、高效能的大数据平台,从而消除业务复杂度,提升企业整体洞察力,8,Part 2,企业大数据解决方案,数据交换平台,邮政大数据平台整合给类型数据源,金融板块数据源,邮政板块数据源,数据抽取,数据清洗,数据合并,数据排重,等操作,结,构化,数,据,邮,政,企,业,级,数,据,仓,库,速递物流板块,数据源,ERP数据源,邮政外部数据,源,非结,构,化数,据,各类非结构化,非结构化,数据源,数据读取解析,11,SAP的数据服务方案,全面考虑数据集成,数据质量管理,数据切面及非结构化数据获取问题,全面接口支持,数据服务解决方案包,各类型数据库:,各类型技术接口:,Text delimited,业务界面,技术界面,OracleDB2,Sybase ASE,Text fixed widthEBCDIC,非结构数据结构数据,统,一个运行一的元数据,时架构及,SQL ServerSybase IQ,Informix,MySQLTeradata,HP NeoView,XML,CobolExcel,HTTP,JMSSOAP,(Web Services),一系列服,务,数据抽取,数据质量数据切面,文本分析,统,一的管理,环境,NetezzaODBC,SAP HANA,(调度,一套源,安全,/用目户标管理),JSON,支持访问全部关键业务数据据的清洗、排重、归并、衍生(任意数据源、合并、,类型和领域统计、汇总等一系列数据加工问题),一体化平台全面解决数,12,SAP BusinessObjects Data Service,性能强劲的执行引擎,使用便捷的开发工具,所有的任务在统一的图形界面开发,易于使用,拖拽界面,内带数据预览、结构分析、清洗和调试,Designer(Windows),Administrator(Web),WebApplications,交付可信赖的信息,集成数据质量管理,跨越,BI,环境的元数据管理,端到端冲突分析,简化变动管理,Data Integrator,RepositorCentral,LocalRepositor,y,y,性能强劲的执行引擎,通过高性能并行架构支持网格计算,最好的企业应用连接性,实时和批处理数据整合,Real-timeServices,Request-Response,Access Server,HeterogeneousData Sources,Job Server andEngine,HeterogeneousData Targets,13,SAP SRS(SAP Replication Server),复制数据,HANA,DBDB,DB,WAN,HANA ODBC,SAP Sybase ASE,OracleMS SQL,IBM DB2/UDB,SAP SybaseReplication,SAP SybaseReplication,Server forHANA,LAN,Server forHANA,HANA,HANA,14,实时或定,时复制数,据到,HANA,数据仓库平台,整体框架,真正实现“,实时,”,业务洞察力,第三方查询工具,BI客户端,工具,什么是SAP HANA?,SAP HANA 是一个先进的平台,使用内存,SQLMDXBICS,实时业务,计算技术来实现企业应用,数据驱动业务,在大数据下实现实时处理,简化IT的系统部署,可通过云方式交付,实时分析,实时应用,商务套件,SAP,实时,可信的数据,SAP HANA为企业带来的好处,创新平台,,并且在应用中不会中断原有系统,ERP/CRM等等,实时复制,应用,实现大量数据的高速处理,HadoopHDFS,内存数据库,提供实时访问,,实时复制服务和数据集成功,数据抽取,SAP HANA,能,其他信息系统,完整和即时的,洞察力,与,灵活,的数据计算引擎,,基于(DB2Sybase,提供预置的报告和分析模型,SQL-Server)Oracle,实时复制/数据抽取,简化IT架构,,多用途的内存计算平台减少数,据处理层次,16,基于HANA的大数据平台,SAP HANA平台,ON-PREMISE|CLOUD|HYBRID,应用服务,处理服务,集成服务,Web Server JavaScript,Spatial Graph,Predictive,Search,Data Virtualization,ReplicationELT&,ALM,Fiori用户界,面,ModelerGraphic,Application LifecycleManagement,AnalyticsText,Planning,EnrichmentDataSeriesDataLibrariesFunction,Streaming(CEP),IntegrationHadoop,Remote DataSync,数据库服务,库列存储内存数据OLTP+OLAP,多核大规模并行计算,高级压缩,多租户,动态分层存储,数据模型,开放的标准,高可用性和灾难恢复,17,大数据平台的数据温度管理策略,现状:,且数据类型多样(结构化、非结构化)。今后可能会大数据平台数据规模庞大,数据增长速度快,,集成更多的外部数据,数据管理策略(由业务应用主导定义),热数据,SAP,温数据,HANA,频繁访问数据实时计算数据,中国邮政大数据平台数据量,动态分层,HANA,历史数据相对复杂的计算与查询,增长趋势,扩展数据,非活跃数据,30002500,20001500,1000500,HadoopSpark,海量非结构化数据非复杂的分析计算,Data,数据仓库分析型业务应用,0,Data Lifecycle数据移动,:,manager,更高效地管理海量数据,降低整体拥有成本,HANA一体化的数据管理品台,降低系统复杂度与温数据层、扩展数据层深度集成,提升系统性能,高度可扩展的架构,SAP HANA,热数据,HANA动态分层,温数据历史数据,Hadoop&Spark,实时数据,扩展数据,18,HANA大数据平台的数据存储层,如何有效区别各数据层次,内存管理,动态分层,Hadoop,企业级海量数据存储,低成本的数据存储、通用硬件,数据特征,大量非结构化/半结构化数据,,操作类型,HANA的磁盘级处理引擎,数据特征,历史数据为主,数据移动(,Mgt.,)Data Lifecycle,日常运行的业务应用,分析操作和统计报表,实时分析复杂的分析、预测等,密集型计算,高度灵活、可扩展架构,数据特征,管理数据量,管理数据规模在几十个TB量级,近实时的分析场景,信息单位价值较高的业务数据,社交媒体和邮政外部数据,非活跃,批量处理数据,信息单位价值相对不高的业务数据,当前活跃数据,信息单位价值高的业务数据,定义数据分割/分区策略,按照规则在内存和硬盘引擎间移动数据,数据移动(同前),管理数据量,管理数据量,管理数据规模在几百个TB以内,管理数据规模可达到PB级,HANASAP,SAP HANA,HANARA,DT,M,数据的温度是随时间动态变化的,而且并不是同类型数据只存在一个存储空间,要看具体的业务场景和数据价值,比如实时数据不只是在温存储中,也可以在HANA内存中,HANA也有处理时间序列的功能。,19,HANA动态数据分层,在高度集成的系统内,提供高性能的数据管理,支持可扩展架构,能力,基于表级别定义数据管理层:内存处理利用磁盘级的列存储技术,提高数据分析访问性能(热数据)或磁盘处理(温数据),可支持高达提供集成的安全策略与备份恢复能力PB级的数据规模,动态分层处理引擎,列式处理引擎的先驱与领导者久经考验的数据处理引擎(大量政府、金融、电信等行业),在TPC-H基准的领先者,优势,库内集成,高性能单一系统,消除了数据冗余,统一访问接口,降低复杂度邮政可根据需要定义数据管理策略,动态分层支持海量数据管理,20,与Hadoop的深度集成,支持丰富的Hadoop处理引擎,支持主要的Hadoop厂商,,如Cloudera,Hortonworks,MapR等,Smart Data Access,将外部的数据源映射为本地的数据表,做到实时访问外部数据源,IBM Netezza支持与Hadoop等数据库的集成,Teradata,Microsoft SQLServer,Oracle,IBM DB2,Virtual UDF(vUDF),SAP HANA,可自定义的数据联邦类型,包支持访问Hadoop分布式文件系统(HDFS),无需Mapper/Reducer解析,支持直接调用自定义的Map Reduce任务,vUDF可集成到SQL语句,OperatorvUDF,Smart Dataaccess,HadoopRFC,效益,能够利用Hadoop集群中HIVE&Spark无法提供的功能(如.Hadoop,ReduceMap,YARN,Distributed File System(HDFS)提高非结构化数据的即席查询能力和MapReduce),HDFS,HIVE,Hadoop,21,SAP HANA Vora,与Spark的深度集成,SAP HANA Vora内置于Apache Spark执行架构之,中,是一款内存计算查询引擎,能够基于Hadoop提供,丰富的交互式分析体验。,编译查询,ApacheSpark,向下钻取功Adapter,能,其他应用,HANA VoraSAP,SAP HANAVora,SAP HANAVora,SAP HANA内存平台,应用服务,ApacheSparkSAP HANA-,ApacheSpark,ApacheSpark,ApacheSpark,内存存储,数据库服务,Adapter,集成服务,YARN,处理服务,文件,文件,文件,HDFS,SAP HANA,平台,SAP HANA-Apache SparkAdapter,可用于提高分布式系统连接的性能,编译查询,在各节点的运行效率可以提高应用和数据分析,基于,见,可用于从大数据中挖掘业务洞Hadoop,的,OLAP,体验,非常常,察,比如向下钻取HDFS数据,22,数据仓库平台,EDW系统的高可用性,SAP HANA的备份与恢复,可供选择的备份方式,文件系统备份,利用DAS存储数据的备份集,第三方工具备份,HANA的Backint可兼容主流,的备份软件,存储快照备份,将存储设备的数据快照作为备份集,studioHANASAP,Prepare database,hdbsql,SAP HANA,Database,Data Area,snapshotData,SAP HANAstudiohdbsql,SAP HANAstudiohdbsql,StorageTool,Create backup,Create backup,Confirm storage,snapshot,SAP HANA,e.g.NFSStorage,Backup,SAP HANA,Database,Database,Create storagesnapshot,ExternalStorage,3Backup,rd,Party,3BackupServer,rd,Party,(Disk),Agent,利用数据内置的备份功能,低成本的备份与恢复方案,仅需HANA服务器连接存储设备(如,NAS),最便捷管理数据备份的方式,SAP HANA has full control aboutB&R management,可快速地创建数据备份集,可与其它备份方式结合使用,提升系统可恢复性,24,首选的备份方式,基于MPP的集群架构,水平线性扩展与高可用性,邮政大数据平台分析型数据应用,大规模并行处理,数据均匀分布在各个节点(数据分区),并行处理,提供更高的处理性能与并发性,良好的线性扩展性,支持大规模的集群部署,(可支持上百个节点),可基于数据分布优化器(DDO),优化数据分布,生产节点,生产节点,生产节点,热备节点,SAP HANA DB,DB分区1,DB分区2,DB分区N,DB分区N,Worker,HANA DB,节点,Worker,HANA DB,节点,Worker,HANA DB,节点,StandbyHANA DB节点,高可用集群架构,统计信息服务索引服务器,器,统计信息服务索引服务器,器,统计信息服务索引服务器,器,统计信息服务索引服务器,器,集群中可配置备用节点,可接管故,障的工作节点,热备节点数量=容错节点数,自动的故障切换与数据装载,共享卷,SAS存储,日志卷,1,SAS存储,日志卷,2,SAS存储,日志卷,N,数据,数据,数据卷,25,卷,卷,Master2,大数据平台容灾系统,Clients,Application Servers,邮政大数据平台数据中心,大数据平台灾备中心,Data Center,OS:DNS,virt.hostnames,virt.IPs,Async,Primary,(active),(active,data pre-loaded),Secondary,Sync,Name Server,Transferby,databasekernelHANA,Name Server,Index server,Index server,HA Solution Partner,InternalDisks,InternalDisks,HA Solution Partner,容灾中心部署,DisksData,DisksLog,DisksData,DisksLog,容灾系统设计,数据库容灾技术,鉴于大数据平台为中国邮政的核心业务平台,建议采用两级容灾机制,本地/同城灾备中心:同步数据复制,异地灾备中心:可选择基础情况较好的省中心,异步数据复制,异地灾备中心冗余的资源也可以用于开,发/测试快速的RTO(最小化RTO),同步复制零数据丢失,数据库容灾(System Replication,),基于HANA的日志复制技术日志通过网络传输,可支持同步/异步数据复制,灾备中心可选择内存同步复制方式(灾备中心数据在内存中预装载),能够保持事务的一致性:进行中的事务,被回滚并被重演,无数据丢失,26,数据仓库平台,基于HANA部署企业云,中国邮政企业云平台建设的几种思路,业务应用(量收、速递、集邮、物流等业务),私有云(Platform-as-a-service),企业级共享数据中心,SAP HANAEnterprise Cloud)企业云(HANA,SAP HANA合作伙伴云(Partner Cloud),中国邮政自建与维护企业级数运用HANA多租户的技术,数据中心支撑企业内部多业务据中心,系统,做到资源按需分动态配,由SAP提供基础设施,可以选择购买或者租赁License,由SAP提供管理服务,由SAP合作伙伴提供基础设施,可以选择购买或者租赁License,由SAP合作伙伴提供管理服务,SAP HANA,IT基础设施(服务器、网络、存储等基础设施),整合与企业内部IT基础设施,企业无需自行IT基础设施,合作伙伴可以根据用户需求灵活地构建,基础架构,集中式的部署与维护,由SAP提供基础架构与数据库服务,动态系统扩展与资源按需分配,快速的部署与实施,良好地本地支持与服务,企业级的系统安全性,及时采用最新的技术,与硬件供应商更紧密地集成与合作,业务灵活地扩展与计费方式,2014 SAP AG or an SAP affiliate company.All rights reserved.28Public,28,SAP 能够提供什么样的云平台?,新应用,扩展服务,集成,云托管服务,PaaS(SAP HANA 云平台),SaaS,(HANA Enterprise Cloud),应用服务,Runtimes/Programming,Models,UX,SSO,API Mgmt.,商务套件,Identity Mgmt.,Finance,XSJS,Portal,Analytics,Mobile,Collaboration,SAP数据仓库,ConnectorCloud,Integration,Gateway,Doc.Mgmt,HR,其它SAP,应用,数据库服务,Procurement,On Store,Planning,Spatial,Multi_DB,Other DBs,IntegratioHadoop,Customer,Engagement,&Commerce,Predictive,Streaming,Tiering,Text,HA/DR,Smart Data,Graph,n,Powered by SAP,HANA,IaaS,OpenStack,SAP|合作伙伴,29,0,O,S,基于多租户构架HANA私有云平台,部署建议,基于HANA MPP集群构建邮政集团私有,云,邮政报刊业务系统,邮政集邮业务系统,邮政速递平台系统,邮政物流平台系统,在一个实例上运行多个业务应用根据业务负载选择部署节点,大数据平台私有云(SAP HANA),为何要使用多租户数据库,System DB,System DB,System DB,System DB,业务隔离,有效利用系统资源,计算资源管理,业务数据共享,(Standby),(Standby),(Standby),速递平台,速递平台,租户库1,租户库2,集邮业务,集邮业务,效益,简化系统管理,租户库1,租户库2,灵活可扩展,构建集团内部私有云提高硬件利用率,降低整体成本,量收业务,租户库1,量收业务,租户库2,报刊业务,物流业务,租户库,租户库,主机1,主机2,主机3,备用节点(主机4),31,数据管控平台,数据管控平台,主数据管理,更高效地管理海量数据,降低整体拥有成本,与Spark的深度集成,中国石油化工股份有限公司司控股的先后于集团概况中石化共有上百家全资、控股或分子公司,业务遍及国内外主要市场。,如Cloudera,Hortonworks,MapR等,HANA一体化的数据管理品台,降低系统复杂度与温数据层、扩展数据层深度集成,提升系统性能,数据的温度是随时间动态变化的,而且并不是同类型数据只存在一个存储空间,要看具体的业务场景和数据价值,比如实时数据不只是在温存储中,也可以在HANA内存中,HANA也有处理时间序列的功能。,SAP HANA分析函数包R语言,将上述过程自动化,以实现持续监控,将上述过程自动化,以实现持续监控,HA Solution Partner,内置于业务应用中,扩展到BI和报,主数据管理的基本架构,邮政各数据源,主数据分发,金融板块,邮政板块,创建,支配,大型主机,物流板块,清洗,MDM,分发,Web,ERP,信息管理通常被部署的位置标准化主数据,速递板块,匹配/合并,主数据管理经过专业认证审批主数据进入,分发主数据,普通文件,Excel和,XML,企业数据,创建并管理主数,据,分配/分发/发布主数据,34,数据标准化步骤建议,数据的编码范围,数据的分类标准,编码是指用于唯一区别一条数据记录的特殊标识,用于将具有相同数据属性、管理要求和系统要求的数据进行分组,为了避免由于各企业各自为政对数,据进行独立编码最终导致在企业横向整合的过程中发生重码、数据冗,的标准,通过分组实现对数据的专项化侧重管理,并为业务管理和分析提,余等情况,供必要基础依据,为了保证数据标准规能够准确、有,效的去规范数据元素的属性,必须制定一套科学、合理和高效的工作,数据标准,规定每个数据字段内容的填写规,范,保证所有的数据在整个企业范围的填写规则统一,流,即数据的维护流程,例如规定数据的申请人和申请流程、审批人和审批流程、数据的业,务归口管理部门等内容,数据的维护流程,数据元素的属性标准,35,35,各个业务板块主数据数据梳理准备步骤,总体思路,具体技术步骤,1.现有MDM的迁移,规则梳理、数据迁移大数据平台主数据与现有MDM双规运行一段周,期,双向数据同步平滑迁移,ERP,快递,2.新增主数据的规则,现有MDM,数据优化,确定数据优化的具体属性和内容进行数据总体优化,确定每个属性信息特别是,关键信息的标准和规范,在系统中进行合规校验和,修改,数据合规,确定并在系统,中实现重复原,则和查重策略,集团统一数据清理,数据查重,根据数据情况分别进行系统和人,工数据确认,数据确认,根据数据合并策略和数据确认结果在系统,中进行数据合并,数据合并,36,36,数据管控平台,元数据管理,SAP信息管家,提供强大的元数据管理能力,对各种类型的场景提供完善的元数据管理,BI系统,元数据与信息管家的集成,SAP BI Platform CWMXML(CWM),RDBMS:,MSSQL Server,DB2,Teradata and JDBC,Sources,元数据集成,数据库,其他元数据集成可用*,AltovaBorland,CACOBOL,EmbarcaderoEMC,GentlewareSilverun,Knightbridge(HP)IBM,Informatica,Micsosoft,MicroStrategy,NoMagicOMG,OracleSELECT,SPARX SystemsSUN,SybaseTeradata,TigrisVisible Systems Corp,ETL,模块工具,*其他元数据集成可通过Meta Integration Technology,Inc.(MITI),W3C,38,元数据管理,保障数据来源的可追溯和标准化程度做持续优化,提供血缘分析和影响分析功能,为保证系统能,积分卡功能,对数据质量是否满足设计目标,,从元数据的变化发现对数据分析的影响,确定某个实体的用途,以及实体之间的关联关系。,提供持续的监控,从各个维度(如:数据口径,依赖关系等)提供全面的检查,持续优化,39,数据管控平台,数据质量管理,数据质量管理,完整的方法论支持,评估(Assess),理解数据质量问题,Assess,Improve,Sustain,提升(Improve),(清洗、加强并合并),维持(Sustain),持续监控,典型应用场景,企业合并过程中,系统间主数据的合并,建立真正干净、完整的客户资料库,资源、资产管理的必要手段,SAP Data Quality,41,Data Quality:完整的方法论支持,持续监控,建立现存的或者推断的业务规则/任务,数据评估,自动发现易被忽略的业务规则和关系,设定阀值,定时评估,如果持续监控任务发现异常数据,则自动提醒,提示中包括阀值的细节情况,对数据进行探察,发现其是否符合业务规则,对来自异构数据源的数据进行对比,发现数据缺陷,衡量这些缺陷对业务的影响,将发现的结果向相关人士报告,就数据清洗中使用的业务规则进行沟通,将上述过程自动化,以实现持续监控,匹配和合并,识别“雪鸟”:例如具有多个居所的个人或者家庭,创建一个全景单条最佳纪录提供身份识别能力,揭示不明确的关系,用于欺诈侦测,数据清洗(客户数据),将客户数据进行清洗和标准化,例如姓名SSN,以及日期/地址,邮件,电话,,数据增强,可管理190多个国家的数据,支持Unicode数据读写,使用字典中的数据补足姓名、地址、电话或者电子邮件信息,从而让记录完整,提供地理编码能力,用于基于地理或者人口统计学的营销,数据清洗(操作数据)将业务数据进行解析和标准化提升数据完整性,识别匹配,并最终形成单一客户视图,去除错误,发现数据库中的真实内容,需求,例如客户编号,产品代码,产品描述,采购日期,部件编号,SKU等,架构提供图形化界面,让用户决定数据如何被解析,并评估定制化的,变化对数据的影响,为客户地址分派地理空间,用于税收监控,保险投保地区分布,保险风险分布等,对于更多的定制化结果需求,可利用基于规则的解析和规则编辑,架构提供图形化界面,让用户决定数据如何被解析,并评估定制化的,变化对数据的影响,42,数据分析与可视化平台,数据利用能力,企业级BI,敏捷可,高级分析,视化,收益,优化,预测模型,怎样可以取得更好的结果,通用预测分析,敏捷可视化,即席查询,自助BI,将会发生什么,固定报表,&OLAP,原始数据准确的数据,为什么会发生,已经发生了什么,利用能力,44,商务智能应用分析,适应不同用户的要求,管理关键指标,及时调整经营战略。比如收购,决策层,或并购新公司,进入新市场,引入新产品;,全面的视角,实时分析/趋势分析/预测推演,管理层需要获取和解读数据,快速调整运作战,术。比如开展/终止销售,计划,调整供应链指标;,管理层,统一的视角,实时告警/交互审批/级联分析,日常业务操作需求,直接获得分析内容提高操,作效率。比如客户信用状况,成本费用报表;,执行层,具体的视角,实时浏览/行业规范(套打),45,SAP,商务智能解决方案,一个套件,多个视角,创建互动体验,仪表盘(Dashboards),仪表盘和应用,自助与预测,语义层,查询与报表,BI平台(移动BI),发现、预测、创造,发布信息,Lumira,数据探索(Explorer*),预测分析(Infiniteinsight*),即时查询(Web Intelligence*),水晶报表(Crystal Reports*),46,示例:报表与查询示例,47,示例:仪表板,48,美观丰富的图形化引擎,可以进行分析、格式化、添加计算列、修改查询和图表类型,新增图表类型,散布气泡图,热点图,图表参数和图层的精细控制,极地气泡图,双轴图树形图,盒型图多系列饼图,云标签,共享的图形化引擎使之与其它客户端软件有相似的外观,更广泛的图表库,更多交互,创建和修改更简单,降低新用户学习曲线,同时提高高级用户的生产力和灵活度,49,随时随地的移动应用,更快、更便利的远距沟通,让信息随处可用的手段,可从任何移动设备上迅速访问到所需的信息,具有良好的交互功能,可立即采取行,动,部署简便、快捷,EASY,交互式、实时采取行动,可钻取式互动图标、度量、仪表盘,报告到报告的导航,从移动装置上可以直接改变重要的数据,直接的回答和触发遥控过程控制,50,SAP大数据预测分析专为业务用户设计,无,低,高,数据挖掘/统计学/概率学 专业知识,业务用户,业务分析师,数据,科学家,97%,3%,1%,SAP PA 智能建模+Lumira自助探索,SAP PA 专家建模,SAP HANA,分析函数包,R语言,SAP 大数据预测分析,51,SAP商务智能详细架构,平台,客户端,BI工具,数据源,查看平台,BI平台,分析共享,(基于LumiraHANA云),(内存数据库)Lumira服务器,(基于LumiraHANA服务器),报表,仪表盘,分析,水晶报表,即席查询,Dashboard,Design Studio,数据探索,高级分析,数据分析,Lumira桌面版,语义层*,数据建模,/CSVExcel,Excel/CSV,Clipboard,RDBMS,hadoop,HANA,BW*,数据源,52,敏捷可视化的4个步骤,数据准备,可视化探索,故事构建 结果分享,数据源多样化,自由灵活的展现,多种视觉冲击强烈的可视化组件,根据业务需求,快速构建故事板,发布结果到部门服务器、企业级服务器或,者云,内存存储,利用现有企业级BI搭建的模型中,根据业务分析需求处理数据,例如:企业,和个人数据合并、数,据计算、数据分组等,快速生成业务报告,持续增强和增加的可,视化组件,基于故事板的互动查,询,多种设备端查看分析,结果,实现随时随地的分析,发布故事板到BI与现有企业级BI平台平台,,统一管理,包括内容、,权限等,与第三方软件提供商,的集成(例如ESRI、,VE),53,关键能力(数据自由获取、整理,自动建模),54,Lumira加速数据探索过程,自助,业务人员可以完成全流程的数据分析,数据整理,数据建模,可视化,共享,集成,与企业级BI平台、高级分析高度集成,语义层、安全与共享;预测能力,55,SAP大数据预测分析系统架构 敏捷分析+内存数据库+自助探索,数据展现,BO仪表盘,Lumira自助探索,移动可视化,数据建模与分析,SAP Predictive Analytics 数据挖掘自动化,数据,驱动,数据存储,SAP HANA,大数据内存分析平台,历史数据扩展,SAP IQ,存储,Predictive Analysis Libraries|Business Function Libraries|Data Models&Stored Procedures,/Hadoop,ServicesData,企业核心业务数据,SAP ERP,SAP CRM,其它应用系统,第三方数据,56,数据挖掘和预测:直观的可视化应用,丰富的预置预测模型,SAP PA大数据预测分析解决方案,方案价值:,自动数据准备和探索、完整的数据,挖掘过程、强大的预测算法库,直观地设计复杂的预测模型,可视,化分析,丰富的建模技术,可扩展的预测模,型:,决策树分析,聚类分析,关联分析,聚类分析,决策树分析,神经网络分析,例外分析,回归分析,时间序列分析,概率分布,神经网络分析,例外分析,多元回归分析,时间序列分析,57,数据挖掘和预测:高效的内存预测分析,支持外部算法调用,SAP PA大数据预测分析解决方案,方案价值:,结合了SAP HANA内存分析的深,度、性能,支持多种高级分析和预,测场景,,高效快速,地获取结果,实,现大数据的挖掘,通过集成R语言,在SAP HANA中,访问3,500种以上的开源算法,内置于业务应用中,扩展到BI和报,表中,对事务的洞察结果,可立即,传送到仪表盘、警告提示和移动终,端,使业务相关人员都能灵活获取,预测洞察力,与BI平台的一体化设计,通过任何,BI报表或仪表盘均可访问分析结果,58,数据挖掘和预测:自动数据准备和探索,SAP PA大数据预测分析解决方案,方案价值:,自动数据准备和探索,包括上千个变量并自动找到重要的指标,在几小时内创建和部署模式,而不是数周,可以支持日常决策、解答传统模型因市场响应速度慢而无法解决的商业问题,自动实现,选择变量,准备数据,变量编码,SAP:自动决定重要变,SAP:结构风险最小化理,量,多至几千个变量,论自动选优,缺失值处理,选择商业问题最相关的变量,以适合算法需要,用不同算法进行建模,选择不同的参数,奇异值处理,匹配模型,测试模型,模型报告,模型部署,商业,问,题,选择变量,准备数据,建模,模型测试,理解,应用,准备数据:缺失值处理,异常值处理,函数变换,把数据语言转换成商业描述,SAP:自动化预处理,SAP:独特的专利技术,59,数据挖掘和预测:精简的预测分析应用函数建模工具(AFM),SAP PA大数据预测分析解决方案,方案价值:,图形化用户界面,用于创建基于函数和算法的程序PAL,模型将存为存储对象,可以在多个应用间重复使用,可用函数放置在拖拽列表中,简单选取输入并生成程序/输出表、参数、以及过滤器,,无需,函数的程序编写SQL,语句,代码,就可创建基于PAL,快速,开发和部署预测应用,简单易学率、有成效、出成果,的编辑器,使应用开发过程更,高效,60,项目实时规划概述,SAP 开发方法论 概述,业务蓝图设计,环境部署,开发与测试,客户验收测试与交付,生产切换,试运营,确定平台实现功能方案制定,软/硬件环境部署,开发数据迁移、测试,功能说明书,设计,实现,测试,校验,客户验收,数据准备,系统迁移,试运营,上线支持,项目,质量及风险管理,62,大数据平台实施计划和主要里程碑,项,制定项目计划,项目组织结构需求整理及准备,图例:UAT:用户确认测,试:主要里程碑,目准备,阶段一:大数据平台的搭建与量收系统迁移,业务蓝图,生产环境与认证机制硬件平台的部署平台应用的调整或二次开发,数据的迁移平
展开阅读全文