资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,大数据基础概念,1,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,2,“数据现在就像新型石油。数据就像原油一样,非常宝贵,但是如果未进行优化则毫无用处。”,专家,“我们的经济是基于一种不仅可再生并且会自我生成的资源。用完不是问题,被淹没才是问题。”,John Naisbitt,能力向消费者转移,数据竞争的压力,大数据的激增,商业模式驱动,3,社会在发生变革,Google,Facebook,腾讯百度阿里彻底的改变了人们生活,你在读书,书在读你,数据是一种资产,成为商品构成成分、是一种资源,4,全球每秒钟发送,2.9,百万,封,电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读,5.5,年,每天会有,2.88,万,个小时,的视频上传到,Youtube,,足够一个人昼夜不息的观看,3.3,年,推特上每天发布,5,千万,条,消息,假设,10,秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览,16,年,每天亚马逊上将产生,6.3,百万,笔,订单,每个月网民在,Facebook,上要花费,7,千亿,分钟,,被移动互联网使用者发送和接收的数据高达,1.3EB,Google,上每天需要处理,24PB,的数据,在,web 2.0,的时代,人们从信息的被动接受者变成了主动创造者,UGC,时代到来,5,*Truthfulness,accuracy or precision,correctness,Volume,多,Velocity,快,Veracity,垃圾,*,Variety,杂,Data at rest,Terabytes to exabytes of existing data to process,Data in motion,Streaming data,milliseconds to seconds to respond,Data in many forms,Structured,unstructured,text,multimedia,Data in doubt,Uncertainty due to data inconsistency&incompleteness,ambiguities,latency,deception,model approximations,全新的,计算时代,6,业务发展,-DAAS,模式精髓,IT,比业务反应更快!,BI,,分析,&,多变量测试,太多噪音数据,事后诸葛,依靠猜测,重,-,设计,重,-,发布,新,-,平台,每年,每季,每月,调整、商品化,&it,优化,业务改进,手动,&,高成本,仅提供前,5%,最热门内容,专家偏见,开发,&QA,太多项目,茅盾的优先级,昂贵,批准,&,部署研究,优先级问题,错过截止日期,与市场脱节,系统自动升级,使用群体智慧,少量,IT,参与,实时自动调节,7,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,8,何为大?,数据度量,1Byte=8 Bit,1KB=1,024 Bytes,1MB=1,024 KB=1,048,576 Bytes,1GB=1,024 MB=1,048,576 KB=1,073,741,824 Bytes,1TB=1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes,1PB=1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes,1EB=1,024 PB=1,048,576 TB=1,152,921,504,606,846,976 Bytes,1ZB=1,024 EB=1,180,591,620,717,411,303,424 Bytes,1YB=1,024 ZB=1,208,925,819,614,629,174,706,176,Bytes,9,大数据的“大“,红楼梦,含标点,87,万字(不含标点,853509,字),每个汉字占两个字节:,1,汉字,=16bit=2*8,位,=2bytes,1GB,约等于,671,部红楼梦,1TB,约等于,631,903,部,1PB,约等于,647,068,911,部,美国国会图书馆藏书(,151,785,778,册)(,2011,年,4,月:收录数据,235TB,),中国国家图书馆:,2631,万册,1EB=4000,倍美国国会图书馆存储的信息量,600,美元的硬盘就可以存储全世界所有的歌曲,MGI,估计,全球企业,2010,年在硬盘上存储了超过,7EB(1EB,等于,10,亿,GB),的新数据,同时,消费者在,PC,和笔记本等设备上存储了超过,6EB,新数据,10,集群容量,约3200台服务器,物理CPU 30000核,内存 100TB,磁盘 36000块,存储容量 60PB,阿里巴巴云梯一 数据规模(2012),集群负载,每天Job数 150,000+道,每天hive query数 6,000+,每天扫描数据量 7.5PB,每天扫描文件数 4亿,存储利用率 80%,CPU利用率65%峰值80%,阿里巴巴是数据信息流制造业,11,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据能做什么,方法(,HOW,),大,数据有哪些潜在价值,大数,据有哪些关键的技术,目录,12,大数据约,90%,是机器数据,关系型数据、高度结构化、基于僵化模式,财务记录、多维数据、数据计算,月报,非实时事件,时间序列非结构化数据,无预定义模式,由所有,IT,系统生成,大量不同类型的格式,巨量;快速导航和相关性最重要,由人与人之间的互动而产生,包括电子邮件、即时通信、语音、视频和文本,储存在集中式公司服务器、文件共享和桌面中,机器产生的数据,90%,商业应用程序数据,2%,人为产生的数据,8%,13,互联网络,14,Google,机房硬件(几十万台服务器),15,几百万平米米几百个数据中心,16,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,17,不断量化的宇宙,18,引爆大数据的原因,1946,1961,1970,1990,2000,2003,2008,2013,1960,年代,,数据与应用分离,,数据库技术蓬勃发展,但重视,事务处理,2000,年后,互联网公司开启数据分析挖掘新时代,1946,年,电脑诞生,,数据与应用,紧密捆绑在文件中,,彼此不分,1990,年代,提出,数据分析挖掘,数据,耦合,时代,数据分析时代,数据库时代,大数据时代,从流程电子化到数据资产化,1,)数据更加丰富,有分析价值,从,TB,到,PB,2,)分析工具更加强大,成本够低,,MapReduce,3,)互联网商业上的成功,引起重视,麦肯锡报告,数据驱动,2025/7/13 周日,19,初始期,-,发展期,-,成长成熟期,20,过去,现在,随机样本 全体数据,精确性 混杂性,因果关系 相关关系,21,数据成为资产,缺少数据资产不足以谈产业;缺少数据思维不足以语未来,数据资产评估模型,公司的价值与其数据规模、活性及其解释、运用的能力成正比,价值,=f,(颗粒度,维度,规模,,活性,关联度),x f,(应用),22,数据成为资产,不同行业数据资产特征对比,话说电子商务公司“银行”,银行搞电子商务;搜索巨头做电信业务,电信运营商搞应用商店。,23,Integration&Analytics(DW,MDM,),The unseen information(Big Data),Governance,Operational systems,24,信息社会的发展,&,企业内部管理的变革,C,端用户应用的网络发展:,目录式(,yahoo,),-,搜索式(,google,),-,分享式(,FaceBook,),-,推荐式(个性化信息服务平台),B,端企业内部管理变革,小农生产,-,小规模生产,-,大规模生产,-,大规模按需定制,-,大规模个性化生产,-,大规模协同生产,营销管理变革 大众,-,分众,-,微众,-,个性化 粗放,-,精细化,社会变革:,(1),强调消费者已逐渐取得交易主权;,(2),消费者需求差异日趋扩大;,(3),数据增加、竞争加剧、互联网改变传统行业加快,25,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,26,各,IT,厂家纷纷快速跟进大数据技术,“,大数据”对信息处理设施和技术提出了更高的要求,全球主流,IT,厂家纷纷加大在大数据领域的投入,行业价值快速增长,27,28,大数据产业相关企业一览图,关键技术,结构化,数据库,IT,基础设施,即服务,数据操作,基础设施,数据分析,基础设施,虚拟化应用,广告,/,媒体应用,商务智能,分析与展示,日志数据应用,数据即服务,29,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,30,大数据涉及的关键技术,需求,技术描述,关键技术,海量数据分布式处理,Hadoop,生态系统,针对大量数据进行分布式处理的系统框架,实时数据处理,Streaming Data,流计算引擎,非结构化数据处理,文本处理技术;自然语言理解;,多媒体处理技术,文本内容分词与分析;图像、音视频分析,可视化交互界面,通过交互式可视化界面辅助用户进行分析,交互式可视化探索分析技术,智能数据分析,大规模机器学习技术,计算机模拟人类学习行为,包括特征提取、图形生成等,保护隐私数据与信息个体的对应关系等安全技术,高效存储和管理大规模数据,数据存储备份技术、数据放置和调度技术、数据溯源,存储、放置、调度大规模的数据,数据隐私保护,数据隐私防范保护措施与数据安全技术,大数据采集处理,大数据分析,存储、组织、管理,31,增强的全方位客户视图,安全,/,智能扩展,数据仓库扩充,运营分析和优化,大数据探究,IBM,大数据的五大关键用例,查找、可视化和理解所有大数据,从而改进决策制定,整合额外的内部和外部信息源,从而扩展现有客户视图(MDM、CRM 等),分析各种机器数据以改进业务成果,实时降低风险、检测欺诈、监控电子安全,集成大数据和数据仓库功能以提高运营效率,32,大数据分析的广泛应用,Insurance,360 View of Domain or Subject,Catastrophe Modeling,Fraud&Abuse,Producer Performance Analytics,Analytics Sandbox,Banking,Optimizing Offers and Cross-sell,Customer Service and Call Center Efficiency,Fraud Detection&Investigation,Credit&Counterparty Risk,Telco,Pro-active Call Center,Network Analytics,Location Based Services,Energy&Utilities,Smart Meter Analytics,Distribution Load Forecasting/Scheduling,Condition Based Maintenance,Create&Target Customer Offerings,Media&Entertainment,Business process transformation,Audience&Marketing Optimization,Multi-Channel Enablement,Digital commerce optimization,Retail,Actionable Customer Insight,Merchandise Optimization,Dynamic Pricing,Travel&Transport,Customer Analytics&Loyalty Marketing,Predictive Maintenance Analytics,Capacity&Pricing Optimization,Consumer Products,Shelf Availability,Promotional Spend Optimization,Merchandising Compliance,Promotion Exceptions&Alerts,Government,Civilian Services,Defense&Intelligence,Tax&Treasury Services,Healthcare,Measure&Act on Population Health Outcomes,Engage Consumers in their Healthcare,Automotive,Advanced Condition Monitoring,Data Warehouse Optimization,Actionable Customer Intelligence,Life Sciences,Increase visibility into drug safety and effectiveness,Chemical&Petroleum,Operational Surveillance,Analysis&Optimization,Data Warehouse Consolidation,Integration&Augmentation,Big Data Exploration for Interdisciplinary Collaboration,Aerospace&Defense,Uniform Information Access Platform,Data Warehouse Optimization,Airliner Certification Platform,Advanced Condition Monitoring(ACM),Electronics,Customer/Channel Analytics,Advanced Condition Monitoring,33,大数据探究消除了结构化数据和非结构化数据之间的隔阂,非结构化数据,内容管理系统,企业系统和内容存储,ERP,CRM,SCM,SOA,、,ESB,、,Web Service,每个系统都,具有自己的且与众不同,的结构,没有任何结构,Web RSS,订阅源,社交媒体,大数据探究,20,%,80,%,全球总数据,非结构化,结构化,流化、处理和分析大数据,联合、发现和浏览大数据源,大数据治理和管理,34,探究和浏览您的大数据资产,安全连接到,所有第三方存储库,提供,统一,搜索和浏览界面,表面关系和主题,评估数据,确认,数据的价值,识别,数据的用户,建立,数据用法上下文,就数据进行协作,通过,用户,知识扩充数据,创建数据的,个性,化视图,识别现行用户和系统,集成点,利用数据,使用所有数据来构建令人信服的应用程序,协作,评估,发现,利用,35,高度相关,个性化,results,对众多,来源的评估,动态,分类,利用 结构化和,非结构化内容,由社交协作,增强,将内容组织为,虚拟文件夹,基于结构化,信息的优化,企业,位置,36,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,37,让数学家成为上帝吗?,数学世界,物理世界,精神世界,量化,量化,哲学,宗教,38,大数据让社会学成为科学?,人类的行为是随机的,不可预测的,人的行为是小概率事件,人类需要的是随机的智慧,人类工作娱乐等活动具有间歇性,总是在长时间休息后突然爆发,然后沉寂,人类,93%,的行为是可预测的,自然界人类世界,符合幂律,39,大数据对对企业,ROI,潜能,提高生产效率,降低风险并提高合规性,利用现有资产,增加收入,消除数据壁垒,利用现有研究和知识,消除,/,引退未使用的系统,从现有资产中抽取价值,降低培训成本,提高员工保留率,改善协作,捕获部落知识,消除冗余项目,为销售和服务员工提供最新且精确的信息,增加追加销售和交叉销售,缩短销售周期,增加客户生命周期价值,建议,缩短监视和合规的时间,推送相关法规更新,/,提醒,支持定价、,NDA,等等,单一版本的真相,避免处罚,40,海尔对于建立智慧的沟通协作模型的,外部客户,Web,Email,Qq,phone,经销商,销售,服务,内部员工,销售,市场,研发,服务,企业集团社交网络在企业,3,大基础应用,销售商机获取,产品建议聆听,服务问题处理,支持沟通、市场,、,销售,、,服务、产品创新、招聘、品牌、知识管理等等,41,构建新的,IT,系统,社交对于企业管理的发展,企业是控制,方,领到是控制方,员工是执行层,交易服务过程对企业更便利,根据需求寻找客户,以客户群体作为对象,强迫客户根据你的意愿行动,客户有被追赶的感觉,围绕产品,服务,以功能和事件为中心,外部客户,目前的商务组织,客户是控制方,员工是控制方,用户体验好,交易服务过程对客户更便利,理解客户的个性化需求,以单个客户作为对象,让客户告诉你他们的需要,客户有许可的决定权,围绕客户,服务,以人和社交为中心,内部外部供应商竞争对手合作伙伴,企业,2.0,时代的组织,42,数据对企业,KPI,的的价值,43,分享传播,产品服务,体验,对企业的,忠诚度,浏览页面,数量,转化率,客单价,品牌价值,消费者流量,产品体验,真实反馈,满意度,品牌的软性指标(长期),经营的硬性指标(短期),倒逼企业的人财物产供销体系,从新构建新的商业体系,消费者数据,销售额,43,Big Data,精准营销,银行本身拥有客户的大量数据,通过对数据的分析可以获得很多信息,从而成为进行管理和营销的依据。但由于银行拥有的客户信息并不全面,这种分析有时候难以得出理想的结果甚至有可能得出错误的结论。,举例:,银行数据:某位信用卡客户月均刷卡,6,次,平均每次刷卡金额,500,元,平均每年打,3,次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高、流失风险较低的客户。,网络数据:通过查看该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。,44,Amazon,Amazon,个性化推荐系统,45,商城个性化商品推荐部署机制,购物流程,部署页,推荐方法,解决的重要问题,线下导购话术,注意,首页,猜你喜欢,首页跳出率比较高,欢迎光临、主动沟通,购买历史、浏览历史,节省购买时间,您做这里、主动沟通,兴趣,导航页,个性化热销榜,快速了解用户,能帮您介绍下吗,?,个性化热栏榜,产生购买冲动,最近我们有一些新品,浏览历史,直接购买,您以前购买这个,搜索,单品页,组合购买,减少搜索时间,产品在这里,欲望,浏览过本商品的顾客还看过商品,减少搜索时间,发掘潜在需求,您是不是也需要这个,浏览了本商品的顾客还买过,进行交叉销售,其他客户购买了这个,买过还买过,发掘需求、提高客单价,买过的用户还买过,基于浏览历史的推荐,客单价提高,这样购买会更便宜,挑选,购物车,购买历史,增加购买商品的种类数和客单价,您还可以购买这个,浏览历史,节省时间,您浏览过这个商品,买过还买过,交叉销售,看看这个是否适合,猜你喜欢(购买,+,浏览),发掘需求、提高客单价,喜欢就多买点吧,付款,订单,基于购买历史的推荐,提醒购买、可高客单价,您忘记购买这个了,会员中心,基于浏览历史的推荐,节省时间直接购买,您可以直接购买,相似用户购买,发掘客户需求、增强购买信心,预计这个是更好的选择,售后服务,EDM,个性化,EDM,在售后的每一个阶段,期待客户满意并再次购买,46,爱多评数字案例京东商城,用户评价分析,用户评价,用户评论,图文分享,UGC,搜索,微博,口碑评价维、集、分一体化整合营销,:,通过的各种,Web Apps,整合网站、电子邮件、网购渠道、微博、搜索引擎、移动客户端,精准与规模结合、即时性与转化力结合、个性化与精准结合、社交与销售结合,低成本高收益,而且收益持久,最重要的,被消费者需要和喜欢的感觉真好,数据监测、分析、优化,移动,维护,分发:让老客户帮你赢得新客户,网络,邮件,:,:,:,集中,47,用户评价的效果是个积累过程,越早越好,传统广告与口碑营销,ROI,对比,传统广告,口碑营销(用户评价),48,Big Data,品牌建设,举例:,2011,年,4,月,光大银行通过其官方微博发起了,“95595,酒窝哦酒窝,光大电子银行酒窝传递活动,”,,向网民征集酒窝照片,并由参与者向好友进行传递,征集的照片会组成一个笑容墙展示,一个月的时间里有超过,740000,人参与了活动,使得光大银行的客服电话号码一夜走红。,大数据时代,信息传播的方式、渠道、内容和速度都是前所未有的。传统上依赖信息不对称的品牌营销都将无所适从。大胆尝试、不断把搜索引擎的营销,社会化网络的营销,网络视频互动的营销、即时通讯的营销、论坛营销和微博营销等等应用到品牌建设当中和品牌的传播上。,49,个性化推荐云端服务,it,比业务的反应更快,BI,,分析,&,经验决策,太多噪音数据,事后诸葛,依靠猜测,重,-,开发,重,-,发布,新,-,平台,每年,每季,每月,业务、产品,&,人员协作,周期长,&,高成本,专家偏见,开发,&QA,太多项目,茅盾的优先级,昂贵,批准,&,部署,优先级问题,计划实施,与市场脱节,SaaS,部署实时更新升级,使用群体智慧,少量,IT,参与,实时自动调节,50,Big Data,业务拓展,麦肯锡公司在调查中发现,有些银行如果能有效地利用相关数据,就可以把接收他们贷款的客户份额增加一倍,贷款损失减少四分之一。,举例:,ZestCash,公司使用,Mapreduce,技术进行大数据分析,考察贷款人的数千个信息线索,从而造成了它独特的竞争力。对于一个无法进行某次还款的客户不论他是否主动解释,传统银行都认为他是高风险的,但,ZestCash,通过大量的数据调研与分析发现,如果这种客户主动解释其原因,他们更有可能全额还款。,51,潜在客户,意向客户,目标客户,消费客户,潜在客户,52,Big Data,业务拓展,以往,传统商业银行投放信贷的原则是:“握着客户的手放款”。但面对即将到来的大数据时代,民生、中信、光大、兴业等多家银行在供应链金融领域发力,实现从“线下手工处理”到“线上多系统集成”的转变。,举例:华夏银行,(600015),以,“,奥康,”,为核心企业,将资金支付管理系统对接,“,奥康,”,销售系统,根据订单信息为下游小企业代理商提供在线融资服务。代理商只需定点鼠标,资金支付管理系统即可根据订单金额发放一定比例的贷款。这种,“,一笔订单一笔贷款,线上发起随借随还,”,的便捷模式突破时间和空间限制,免去小企业,“,跑银行、办手续,”,的负担,有效地降低了融资成本。,53,Big Data,客户服务,举例:新加坡花旗银行基于消费者的信用卡交易记录,有针对性地给他们提供商家和餐馆优惠,并且根据反馈不断学习提升推荐准确度。,目前网上的信息浩如烟海,如何利用内外部数据及时发现客户的需求并做好精准服务是非常考验银行自身技术段位的,这就需要建立更立体丰富的数据资源,打造一个立体化的社会化数据大厦。,54,Big Data,风险控制,举例:,Wonga,是英国一家小额贷款公司,他们利用海量数据挖掘算法来做一些贷款业务。,Wonga,对过去客户的各种碎片化信息进行数据获取与整理,用大量的数据串成了客户特征的全貌,同时根据不良贷款等风险信号不断完善调整模型,有效控制风险。如今他已获得了,5,亿美金的年利润,其风险管理能力也获得业界的认可。,社会化媒体的互动,实时的传感器数据,电子商务以及其他新的数据源,正在给银行带来一系列的挑战。仅仅借助传统的解决方案,无法全面进行风险管理。大数据分析帮助银行了解客户的自然属性和行为属性,结合客户行为分析、客户信用度分析、客户风险分析以及客户的资产负债状况,建立完善的风险防范体系。,55,Big Data,阿里巴巴,阿里小贷,阿里小额贷款是指以借款人的信誉发放的贷款,借款人不需要提供担保。其特征就是债务人无需提供抵押品或第三方担保仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的。,阿里巴巴公司通过其掌握的电商平台阿里巴巴、淘宝网和支付宝等的各种信息数据,借助大数据分析技术自动判定是否给予企业贷款,全程几乎不用出现人工干预。,56,用,5W1H,了解大数据,为什么要研究大数据(,WHY,),什么是大数据(,WHAT,),哪里有大数据(,WHERE,),大数据现在什么阶段(,WHEN,),谁,在做大,数据,(,WHO,),大数据是,一种方法(,HOW,),大,数据有哪些潜在价值(,Value,),大数,据有哪些关键的技术(,T,achnology,),目录,57,处理大数据在技术上面临的挑战,1,、对现有数据库管理技术的挑战,传统的数据库部署不能处理数,TB,级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。,如何构建全球级的分布式数据库,(Globally-Distributed Database),,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。,2,、经典数据库技术并没有考虑数据的多类别(,variety,),SQL,(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。,3,、实时性的技术挑战:,一般而言,像数据仓库系统、,BI,应用,对处理时间的要求并不高。因此这类应用往往运行,1,、,2,天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、,BI,技术的关键差别之一。,网络架构、数据中心、运维的挑战:,技术架构的挑战:,人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。,如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。,58,分析技术:,数据处理:自然语言处理技术,统计和分析:,A/B test;top N,排行榜;地域占比;文本情感分析,数据挖掘:关联规则分析;分类;聚类,模型预测:预测模型;机器学习;建模仿真,大数据技术:,数据采集:,ETL,工具,数据存取:关系数据库;,NoSQL,;,SQL,等,基础架构支持:云存储;分布式文件系统等,计算结果展现:云计算;标签云;关系图等,处理大数据的一些相关技术,存储,结构化数据:,海量数据的查询、统计、更新等操作效率低,非结构化数据,图片、视频、,word,、,pdf,、,ppt,等文件存储,不利于检索、查询和存储,半结构化数据,转换为结构化存储,按照非结构化存储,解决方案:,Hadoop,(,MapReduce,技术),流计算(,twitter,的,storm,和,yahoo,!的,S4,),59,用户行为分析,60,用户行为分析,61,大数据应用路线图,62,实施久经验证,的创新之路,随着数据呈指数级增长,降低大数据成本,63,企业推进信息化必须切实推进资源整合,资源整合的本质是信息整合,统一网络平台,三网融合、大连接、大交互、万联网,统一数据平台,数据中心(大集中数据库、交换共享平台、信息资源目录、标准等),统一服务渠道和手段,实现一站办理、一网连通、一号服务,、,一卡通行,64,消除对大数据认识的误区,大,数据就是,Hadoop,应用。,大,数据是关于大量数据的应用,大,数据主要是关于社交媒体数据的应用,大,数据都是和技术相关的。,大,数据都是和分析相关的。,一,种解决方案能够满足所有大数据的应用需求。,65,
展开阅读全文