资源描述
*,标题文本样式:微软雅黑/28号 Arial/28pt,第一级内容文本样式:微软雅黑/20号 Arial/20pt,第二级内容文本样式:微软雅黑/18号 Arial/18pt,第三级内容文本样式:微软雅黑/16号 Arial/16pt,第四级内容文本样式:微软雅黑/14号 Arial/14pt,第五级内容文本样式:微软雅黑/12号 Arial/12pt,基于大数据的,统计分析方法和工具,目录,背景,统计分析方法和技术原理,主流工具,案例,总结,结构化数据与非结构化数据,传统数据分析与大数据分析,NoSQL,的特点,背景,背景,结构化数据与非结构化数据,结构化数据:,行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。,非结构化数据:,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、,XML,、,HTML,、各类报表、图像和音频,/,视频信息等等,。,背景,传统数据分析与大数据分析,传统数据分析,大数据分析,关联性,重量,销量,形状,大小,适合喝茶,or,咖啡?,适合男生,or,女生?,适合送礼?,背景,NoSQL,的特点,NoSQL,数据库的主要特点:,NoSQL,具有灵活的数据模型,NoSQL,容易实现可伸缩性(向上扩展与水平扩展),动态模式,目录,概论,统计分析方法和技术原理,主流工具,案例,总结,基于,NoSQL,的统计分析方法和技术原理,基于,NoSQL,的数据管理,传统关系型数据库向大数据处理方式的转移,统计分析方法和技术原理,统计分析方法和技术原理,基于,NoSQL,的数据管理,类型,项目,键,/,值,Redis,,,MemcacheDB,等,列,Cassandra,,,HBase,等,文档,MongoDB,,,Couchbase,等,图形,OrientDB,,,Neo4J,等,统计分析方法和技术原理,传统关系型数据库向大数据处理方式的转移,数据迁移工作:,Apache Sqoop,访问接口改造:,Pig Latin,半结构化,/,非结构化数据存储,数据统计分析方式改造:,Hadoop,MAP REDUCE,目录,概论,统计分析方法和技术原理,主流工具,案例,总结,目前,大数据分析工具在金融服务、零售、医疗卫生,/,生命科学、执法、电信、能源与公共事业、数字媒体,/,精准营销、交通运输等行业都有着广泛的应用。但纵观国内企业,不论是国企还是民企,真正在业务决策中以数据分析结果为依据的,主要还是集中在银行,保险,电信和电商等几个行业。,主流大数据统计分析工具,成功案例,案例,1,:,民生银行借,IBM InfoSphereBigInsights,应对金融业的大数据挑战,IBM InfoSphereBigInsights,大数据解决方案和企业级,NoSQL,数据库,SequoiaDB,合作,为民生银行搭建低成本、高性能、高可靠且水平扩张的数据平台,帮助民生银行通过大数据分析应对金融业的大数据挑战,完善交易流水查询分析系统,产业链金融管理系统,以及私人银行产品货架管理系统。,主流大数据统计分析工具,成功案例,案例,2,:,华为,FusionInsight,:招行数据生产力的,“,挖掘机,”,招商银行部署华为,FusionInsight,之后,构建起基于云计算平台的大数据应用和分析平台,实现,7,年内海量交易历史明细信息的实时查询、实时征信、实时事件营销,以及针对准确客户群的精准营销。信用卡征信时间将由,2,周左右降到,10,分钟以内。根据招商银行某重要分行客户为样本测算,招商银行只要发送原来数量,19.6%,的短信,就可以覆盖,95%,最终购买的客户。,主流大数据统计分析工具,成功案例,案例,3,:,用友,UAP,成功案例大大提高波司登竞争力,波司登基于,用友,UAP,统一应用平台的,ERP,系统,打通从客户下订单到生产、仓储、发运、财务等环节,构建企业的完整的内部管理信息系统,提高企业的内部协同能力,从而提高企业竞争力。并且将财务、销售、订单等大集中,订单数据能实时统计到集团总部,为采购业务提供精确支撑,实现按订单采购,保证采购原辅料能够满足生产需要,避免大量库存积压,也避免缺货等风险。,主流大数据统计分析工具,成功案例,案例,4,:,农行携手曙光构建大数据系统推动业务创新,农行采用,曙光,XData,大数据一体机系统,满足系统对于并发用户数和性能的要求,能够支撑农业银行历史数据查询和分析业务,为推动农行业务持续不断创新奠定基础。,主流大数据统计分析工具,成功案例,案例,5,:,九次方企业征信大数据平台令金融交易更加简单便携,九次方企业征信大数据平台,利用互联网大数据挖掘技术采集互联网全部与企业相关的信用指标,比如企业违法违规信息、行政处罚信息、客户投诉信息等等。同时九次方还联合,20,多个省市政府,协助政府搭建当地的企业征信大数据平台获取地方政府的数据授权,通过脱敏处理之后,向银行、小贷公司、担保公司等客户提供企业信用分析服务。,主流大数据统计分析工具,成功案例,案例,6,:,王府井百货与百分点合作搭建王府井大数据平台,在王府井百货与百分点合作搭建的,王府井大数据平台,将用来分析商品、用户和业务数据,以打通用户和后端运营的关系,构建用户画像,以及分析商品的全渠道经营状况。其中,百分点帮助王府井针对线上用户的浏览和购买行为,进行数据分析,从而形成实时的商品个性化推荐和消息推送。,主流大数据统计分析工具,成功案例,案例,7,:,宜信金融云打造大数据变现超级伙伴,宜信旗下的宜人贷,是利用,宜信金融云平台,,其极速模式将对用户的授信时长从原来的十多分钟压缩到了一分钟之内,极大提高了用户体验和放款效率。宜信商通贷是基于宜信金融云推出的面向电商的一个实时授信产品。这种电商贷款模式通过高效整合交易数据、第三方数据以及社交网络行为数据,为用户提供个性化的融资产品。,主流大数据统计分析工具,目录,概论,统计分析方法和技术原理,主流工具,案例,总结,App,Analytics,Game Analytics,Mobile,Ad,Tracking,Enterprise,游戏运营分析,移动广告监测,企业解决方案,移动应用统计分析,11500+,应用款数,7,.5,亿,+,累计覆盖,25,00,万,+,日活设备,3,5%,覆盖,Top,盈收游戏,2,.5,亿,+,玩家覆盖,1,000,万,+,日活玩家,4,9,家,网盟对接,4,0%,覆盖,行业广告主,15,00,万点击,日监测点,两大,一线应用市场,三大,运营商,四大,银行,大数据统计分析案例,TalkingData,计算需求,大数据统计分析案例,大数据统计分析案例,开发人员少,业务方向不清晰,产品需求简单,简单、可用、快速开发,批量插入效率一般,大数据量下,Schema,变化难,草根时代(,HelloWorld,),草根时代,大数据统计分析案例,草根时代,(统计分析系统计算模型),count,sum,group,by,multi,join,distinct,count,草根时代,大数据统计分析案例,青铜时代,基于,Hadoop,生态的批处理系统,数据库批量,Insert/Update,,压力大,数据库读压力小,Schema,更新多,青铜时代,大数据统计分析案例,大数据量,Insert/Update/Delete/,优化,,均是,message,lazy,式操作,,,自上而下逐步,Flush,到,leaf,节点,天然多版本,,,无需做,undo log,Fast insert/Fast update,,延迟小,Schema,更改,例如,Column,增加,/,删除,/,更改,青铜时代,青铜时代,大数据统计分析案例,大数据量插入能力,更新能力的确比较突出,InnoDB,也不差,和索引、数据,Layout,、操作模式有关,青铜时代,青铜时代,大数据统计分析案例,黄金时代(行式到列式),极高的装载速度(最高可以等于所有硬盘,IO,的总和,基本是极限了),适合大量的数据而不是小数据,高效的压缩率,不仅节省储存空间也节省计算内存和,CPU,非常适合做聚合操作,黄金时代,大数据统计分析案例,Infobright,InfiniDB,MonetDB,Vertica,列存储,AggressiveCompression,(,CPU/IO,平衡),shared-nothing,grid-based,(并行查询),多备份(高可用性),黄金时代(行式到列式),黄金时代,大数据统计分析案例,select avg(score)from example where class=,Junior,and grade=A group by gender;,黄金时代(行式到列式),黄金时代,大数据统计分析案例,黄金时代(行式到列式),查询速度(,ms,),存储能力(,G,),黄金时代,大数据统计分析案例,云端时代,Aerospike/Redis,LevelDB/RocksDB,Bitmap,服务,高吞吐、高随机查询下下谁更合适?,云端时代,大数据统计分析案例,列式数据库(,count/Group,by,),HDFS/Kafka,等文件存储(,scan,),搜索引擎(文本随机查询),Redis/LMDB/RocksDB,等,KV,数据库,传统关系型数据库,云端时代,云端时代,大数据统计分析案例,云端时代,云端时代,大数据统计分析案例,小结,目录,概论,统计分析方法和技术原理,主流工具,案例,总结,总结,不同的时期不同的选型,每种数据库都有它特定的场景,-,读写优化的平衡,数据库和计算紧密捆绑在一起,-,存储和计算的平衡,自主创新和产品使用珠联璧合,-,底层研究和应用能力的平衡,
展开阅读全文