1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,2012 IBM Corporation,*,*,2012 IBM Corporation,*,*,怎样分析大数据,如何分析大数据,第1页,大数据无处不在,如何分析大数据,第2页,大数据来自哪里?,现在有,300,亿,个,RFID,记,(,年时有,13,亿),全球有,46,亿,台摄影手机,天天有超出,3,亿,活跃用户,每年售出,数亿,台支持,GPS,设备,天
2、天有 超出,1,亿,条消息,截至,年,末网络上有超出,20,亿,人,在,年有,7600,万,台智能仪表,至,年将到达,2,亿台,天天有超出,25 TB,日志数据,如何分析大数据,第3页,“,数据是新型石油,”,未开采石油,没有什么价值。,加工及提炼后,将助力世界。,“越来越多企业使用大众媒体去分析公众对产品反馈,比如Facebook或,Twitter,也有使用网站资源试着“了解客户,是什么让他们选择他们想要东西”负责IBM预测分析项目标迪阿德瓦说。,“大数据已抵达Seton医疗保健家庭,幸运是,经过使用这个分析工具,每年超出200万复杂病例患者得到了帮助”,“上个月在瑞士达沃斯举行世界经济论坛
3、上,大数据是一个热点话题。在论坛一份汇报大数据,,大影响中申明:,数据已成为一类新经济资产,就像货币或黄金一样,.,“,企业被数据淹没了,从客户习惯到供给链效率。不过许多经理却不能了解这些数据意义.”,奥斯卡情感测量 一个工具,是由洛杉矶时报、IBM和南加州大学安创新试验室共同开发,“现在,,沃森 正投入到工作中,消化了数百万页研究,结合最正确临床实践和监测结,果,以帮助医生治疗癌症患者.”,分析意见,“主要针对Twitter上共享百万条奥斯卡奖项比赛公共信息做出分析,”,意.”,数据是新型石,.,如何分析大数据,第4页,为了实现新机遇,您需要超越传统数据起源,交易型和应用程序数据,机器数据,
4、社交数据,企业内容,数量,结构化,生产能力,速度,半结构化,数据提取,种类,高度非结构化,准确性,种类,高度非结构化,数量,如何分析大数据,第5页,大数据特点 4个V,综合分析覆盖面越来越宽种类(Variety),应对日益增加速度 (Velocity),有效地处理日益增加数量(Volume),50 x,35 ZB,世界上,80%,数据是非结构化,300亿,RFID传感器和计数器,建立大数据起源,真,三分之一,商界领袖感到无法信任那些帮,实性(Veracity),助他们做决议信息,如何分析大数据,第6页,IBM 大数据平台,如何分析大数据,第7页,经过大数据能力取得突破性进展,分析任意大数据类型
5、含有独特功效,取得突破性进展,可视化和发觉,了解您客户一切,交易型/应用数据,零延迟操作,Hadoop,机器数据,在速度和规模上实现新产品创新,数据仓库,社交媒体数据,即时欺诈和风险,流计算,内容,意识,利用仪表化资产,整合与治理,文本分析,如何分析大数据,第8页,IBM 大数据战略:使分析离数据更近,新型分析应用程序需要一个大数据平,台,集成并管理不一样种类、不一样速率及不同流量数据,将高级分析应用于信息而且不改变信息原本格式,将全部可用信息可视化,供即席分析使用,为新型分析应用程序建立开发环境,优化工作负载并安排进度,安全和治理,如何分析大数据,第9页,用大数据平台内产品帮助入口点加速,
6、分析型应用,BI/汇报探索性/,可视性,功效性 APP,行业 APP,预测分析,内容,BI,分,/,析,Reportin g,1 解锁大数据,IBM Data Explorer,IBM大数据平台,系统管理,应用开发,可视化&发觉,2 分析原始数据,3 简化您数据仓库,IBM Data Warehouse Solutions,加速器,InfoSphere BigInsights,Hadoop系统,Stream 流计算,数据仓库,信息整合&治理,5 分析流数据,4 用Hadoop降低成本,InfoSphere Streams,InfoSphere BigInsights,如何分析大数据,第10页,
7、IBM 大数据经典应用架构 通信行业分析为例,实时计算和处理,流数据 结构化或非结构化,Network,流计算,流计算,Real time metrics analysis and modeling,Ad targeting,Real time next best offer,Fraud detection,非结构化,Reporting and Analytics,原始 分析与展现,Web,结构化,网络分析,/,社交媒体分析,Sentiment analysis,Location based,Reporting,Social,Hands,et,非结构化,增强分析,可查询存档,结构化,Bandw
8、idth,AMPU,Network,marketing,Behavioral analysis,Micro customer segmentation,and Analytics,Hadoop,增强分析,Sales,Content,Network,Services Subscribers,通用分析与挖掘,Subscriber analysis,Network analysis,Financial reporting,Customer segmentation,Campaign management,ELT,数据仓库,Partners,Call Center,Employee,Location,
9、Reporting and Analytics,如何分析大数据,第11页,IBM 大数据产品组件,如何分析大数据,第12页,IBM 大数据平台组件,分析型应用,BI/汇报探索性/,可视性,功效性 APP,行业 APP,预测分析,内容,BI,分,/,析,Reportin g,1 解锁大数据,IBM Data Explorer,IBM大数据平台,系统管理,应用开发,可视化&发觉,2 分析原始数据,3 简化您数据仓库,IBM Data Warehouse Solutions,加速器,InfoSphere BigInsights,Hadoop系统,Stream 流计算,数据仓库,信息整合&治理,5 分
10、析流数据,4 用Hadoop降低成本,InfoSphere Streams,InfoSphere BigInsights,如何分析大数据,第13页,1 解锁大数据,客户需求,了解现有数据起源,公布数据在现有内容管理和文件系统新用途,而不是把数据复制到一个中央位置,从经整合数据源搜索并浏览大数据,价值陈说,更加快到达、运行、发觉并检索相关大数据,在新以信息为中心应用中使用大数据源,客户案例,用一个360度视角将员工与大数据源联络起来,项目开端:IBM Data Explorer,如何分析大数据,第14页,海量数据管理中异构数据源集成,Relational Data,File Systems,Co
11、ntent Management,Email,CRM,数据管理平台,终端用户,Supply Chain,Integrated Platform,Systems Management,Application Development,Visualization&Discovery,ERP,RSS Feeds,Accelerators,Hadoop System,Stream Computing,Data Warehouse,Commenting,Rating,Tagging,Cloud,OA system,Shared Folders,Social Tools,External Sources,I
12、nformation Integration&Governance,15,如何分析大数据,第15页,非结构化数据管理框架,Results,Report Application,Publish Search,Search,Application,Present Application,Federated Sources,Application SDK,User Profiles,Web Results,Subscription Feeds s,Authentication/Authorization Query transformation Personalization,Display,Tex
13、t Analytics,Thesauri Clustering Ontology Support,Search Engine,Semantic Processing Entity Extraction Relevancy,Meta-Data,Faceting,BI,Tagging,Taxonomy Collaboration,数据连接和集成框架,CM,RM,DM,RDBMS,Feeds,Web 2.0,Email,Web,CRM,ERP File Systems,16,IBM Corporation,如何分析大数据,第16页,Data Exploer主要优势,1.独特索引技术,位置索引 vs.
14、向量索引,2.可扩展架构,分布式,实时性,容错性,3.高级分析能力,分析弹性和艺术性,元数据管理,4.整合强大兼容能力,各种数据源内嵌接口,API开发能力,5.先进应用框架,快速布署新应用,如何分析大数据,第17页,Data Explorer 功效组件,如何分析大数据,第18页,分析能力示例,图形导航功效,搜索结果自动聚类,自定义内容分类,协作交互功效,19,IBM Corporation,如何分析大数据,第19页,2 分析原始数据,客户需求,提取数据并原样导入到Hadoop,从中派生洞察力,在Hadoop中处理大量多样数据,将洞察力与数据仓库结合起来,用Hadoop进行低成本ad-hoc分析
15、用来测试新假设,价值陈说,从各种数据源组合获取新视角,克服将非结构化数据源结构化所花费过高成本,经过引进新数据类型或者驱动新分析类型,来扩展数据仓库价值,用基于不一样数据组合试验去修改数据仓库内分析模型,客户案例,金融服务监管机构管理额外数据类型并与现有数据仓库整合,项目开端,:InfoSphere BigInsight,如何分析大数据,第20页,BigInsights Enterprise Edition Components,Visualization&Discovery,Connectors,Systems Management,Netezza,BigSheets,JDBC,Devel
16、opment Tools,Eclipse Plug-ins,Text Analytics,MapReduce,Jaql,Hive Query,Web Admin Console,Streams,DB2,Advanced Engines,Text Processing Engine and Extractor Library,Flume,R,IBM-LZO,Compression,Enhanced Security,Flexible Scheduler,Jaql,ZooKeeper,Oozie,Adaptive MapReduce,Workload Optimization,Integrated
17、 Installer,Runtime,MapReduce,BigIndex,Pig,Lucene,Hive,File System,HDFS,Data Store,HBase,Column Store,如何分析大数据,第21页,BigInsights 企业版&Platform Symphony,可视化和发觉,连接器,开发工具,Eclipse Plug-ins,系统管理,文本分析,BigSheets,Jaql,MapReduce,Web,管理控制,JDBC,台,Hive,查询,Netezza,工作量优化,增强型引擎,文本,处,理引擎和,DB2,提取器文,库,Streams,IBM-L,增,强,安
18、全性,J,ZooKeeper,Oozie,自适自适,应应,R,ZO,压缩压缩,MaMapRepReducducee,aql,灵活排灵活排程程器器,Flume,继,承安装器,IBM Platform Symphony Advanced Edition,运行环境,BigIndex,Pig,Lucene,Hive,文件系统,HDFS,数据存放,HBase,Column Store,IBM Platform Symphony,替换了开源,Hadoop,中原生工作和任务跟踪设施,采取了经优化低延迟,MapReduce,实现方式,完,全兼容开源,Hapdoop,以提供增强容量,IBM,组件,开源,(IBM
19、),Symphony,如何分析大数据,第22页,IBM 大数据平台优势,扩展了 IBM InfoSphere BigInsights 能力,BI/Reporting Exploration/,Visualization,Functional App,Industry App,Predictive Analytics,Content Analytics,Analytic Applications,MapReduce 和 Hadoop 都采取集群管理 排程工作、管理资源、失败恢复 平台长久擅任,Big Data Platform,Systems Management,Application Dev
20、elopment,Visualization&Discovery,Platform Symphony 提供很多主要优势,Accelerators,Data Warehouse,Hadoop System,Stream Computing,改进性能,更高效基础设施利用,各种多样、并发工作量,动态资源配置,快速工作量优先占用,Information Integration&Governance,Agile,multi-tenant shared infrastructure,精细多重租用,有确保服务级别,如何分析大数据,第23页,加速器加紧实现价值速度,如何分析大数据,第24页,Big Sheet
21、类,Excel,分析工具,业务线用户即席分析,分析各种数据-非结构化和结构化,基于浏览器,用类似于电子表格方式探索/可视化数据,如何分析大数据,第25页,集成文本分析引擎,高度准确文本内容分析,工作原理,利用标注器解析文本并检测意义,了解文本分析上下文,数百个预建标注器,适合用于名称,、地址、电话号码等,准确性,高度准确地从复杂文本获取含义,性能,面向MapReduce AQL 语言优化,如何分析大数据,第26页,易开发性大数据应用,流程化,如何分析大数据,第27页,3 简化您数据仓库,客户需要,业务用户还会被低性能通用型企业数据仓库所困扰:查询需要运行数小时,企业数据仓库被太多用途太多数据
22、所阻碍提取大量结构化数据并对其进行多种并发深度分析查询,IT部门需要降低数据仓库维护成本,价值体现,快速 深度分析查询性能提高10-100倍,简单 最小管理和调优设备,快速建立并运行,客户案例,Catalina市场员工人数不变不过所执行预测性工作负载可以达到10倍,项目开端:IBM Data Warehouse Solutions(PureData for Analytics),如何分析大数据,第28页,IBM PureData System for Analytics,专为分析数据工作负载而优化,System for Analytics,为分析提供数据服务,速度,比传统自定义系统快,10-1
23、00,倍,*,取得专利,MPP,硬件加速(大规模并行处理),简单性,几小时内准备好数据加载,无需数据库索引,无需调优,无需存放管理,可扩展性,PB,级数据容量,智能,设计为在几分钟内运行复杂分析,而不是几小时,最丰富数据库内分析集合,如何分析大数据,第29页,传统数据仓库问题之一 复杂,如何分析大数据,第30页,PureData System for Analytics,化繁为简,如何分析大数据,第31页,PureData System for Analytics 集成设计,Disk Enclosures磁盘阵列柜,SMP主机,用户数据切片交换和镜像分区高速数据流,SQL编译器查询计划优化,管
24、理,处理器&,数据库逻辑流,高性能数据库引擎流加载,聚合,排序等,Snippet Blades,(S-Blades),如何分析大数据,第32页,PureData System for Analytics 简单易用,不需要索引 i,ndexes,和调优,tuning,不需要存放管理,没有dbspace/tablespace容量规划和配置,无需redo/physical/Logical log规划和配置,无需表page/block 规划和配置,无需 表extent规划和配置,无需暂时空间Temp space分配和监控,无需dbspaces 级RAID级别选择,有限技术人力资源成为真正数据管理员而不
25、是数据库管理员,无需文件逻辑卷logical volume创建,无需推荐OS kernel 集成,无需操作系统OS提议补丁级别维护,无需 JAD sessions host/network/storage配置,不需要软件安装,如何分析大数据,第33页,与现有,ETL/BI,产品无缝链接,采取,ANSI,国际标准,SQL,访问方式,实现高性能和简单易用,经过标准接口方便集成第三方工具,BI Application Server,Data,er,SQL Serv,DB2,MyS,Data Integration,ODBC/JDBC/,ODBC/,JDBC/OLE DB/SQL,DB,QL,OLE
26、DB/SQL,2TB/Hour High Speed Load,Cognos BO(SAP)SAS SPSS,Oracle,支持各种数据源,Informatica IBM,Information Svr,AB Initio,支,BO,持,(,各,SA,种,P,通,),用接口和,ETL,工具,OBIEE,支持各,种,BI,工具,支持外部,SQL,直接并行访问数据仓库设备,支持,SQL,直接访问外部文件,如何分析大数据,第34页,4 用Hadoop降低成本,客户需求,维持仓库数据,降低整体成本 往往极少使用,“以防万一”,降低因数据库内数据增加而带来成本,降低昂贵用于处理和转换基础架构,价值体现,
27、支持现有和新工作负载最符合成本效益替代方案,同时保留现有访问和查询功能。,降低存储成本,使用Hadoop来降低处理成本,推进硬件配置和并行处理更有价值,客户案例,金融服务公司 移动处理Hadoop HBase 应用程序和报告,同时保留现有查询功能,项目开端:IBM Infosphere Biginsights,如何分析大数据,第35页,Biginsight 超越 Hadoop,如何分析大数据,第36页,易管理性 全方面监控,全方面监控,集群,系统,应用,如何分析大数据,第37页,面向主题可定制化面板,定制化展示界面,如何分析大数据,第38页,业界良好表现,如何分析大数据,第39页,5 分析流数
28、据,客户需求,治理和处理流数据源,选择有价值数据和看法存储起来以备深入处理,快速处理和分析易损数据,并及时反应,Streams Computing,Streaming Data Sources,价值表达,显著降低处理时间和成本将有价值部分处理并存放起来,在过期(expire)之前及时作出反应并捕捉机会,ACTION,客户案例,Ufone采取电信呼叫细节统计(CDR)分析方法,以预防客户流失,项目开端:InfoSphere Streams,如何分析大数据,第40页,流计算提供了独特业务价值,实时答案=低延迟洞察力,对时间敏感应用程序(如欺诈检测、网络管理)取得更加好结果,数据过大或存放成本昂贵时
29、处理方案,在数据进入视野时就进行分析,保留感兴趣数据,进行深入分析,跨多个流取得洞察力,融合多个流,取得新洞察力,如何分析大数据,第41页,流分析,连续吸纳,连续分析,基础架构提供对应服务,用于跨硬件节点调度分析功效建立流连接,转换,过滤,批注,分类,关联,在适当情况下,,能够将各元素“熔合”在一起方便降低通信延迟,实现扩展,方法是,将应用程序划分成组件,跨经过流连接硬件节点进行分配,如何分析大数据,第42页,基于,Eclipse,开发工具,如何分析大数据,第43页,大数据平台有很多应用案例,在速度和规模上实现新产品创新,社会媒体 产品/品牌情感分析,品牌战略,市场分析,射频识别跟踪和分析,交易型分析创建基于产品/服务视角,了解关于您客户一切,社交媒体客户情绪分析,推广优化,市场细分,客户利润率,点击流分析,CDR处理,多渠道交互分析,忠诚度项目分析,客户流失预测,零延迟操作,智能电网/计量管理,即时风险和欺诈意识,多通道监测,网络安全,欺诈建模和监测,风险建模和管理,监管汇报,分配负荷预测,销售汇报,库存和销售优化,期权交易,ICU患者监控,利用仪表化资产,网络分析,疾病监测,交通网络优化,存放性能,环境分析,试验研究,资产管理以及可预见问题处理,网站分析,IT日志分析,如何分析大数据,第44页,






