大数据应用解决专业方案.doc

资源描述

1、大数据应用处理方案目录1.大数据概述61.1.概述61.2.大数据定义61.3.大数据技术发展82.大数据应用112.1.大数据应用叙述112.2.大数据应用架构132.3.大数据行业应用132.3.1.医疗行业132.3.2.能源行业142.3.3.通信行业142.3.4.零售业153.大数据处理方案163.1.大数据技术组成163.1.1.分析技术163.1.1.1.可视化分析163.1.1.2.数据挖掘算法163.1.1.3.估计分析能力163.1.1.4.语义引擎163.1.1.5.数据质量和数据管理173.1.2.存放数据库173.1.3.分布式计算技术183.2.大数据处理过程2

2、03.2.1.采集203.2.2.导入/预处理213.2.3.统计/分析213.2.4.挖掘213.3.大数据处理关键技术-Hadoop213.3.1.Hadoop组成223.3.2.Hadoop优点：253.3.2.1.高可靠性。253.3.2.2.高扩展性。253.3.2.3.高效性。253.3.2.4.高容错性。253.3.3.Hadoop不足253.3.4.关键商业性“大数据”处理方案263.3.2.5.IBM InfoSphere大数据分析平台263.3.2.6.Or a c l e Bi g Da t aApplianc273.3.2.7.Mi c r o s o f t S QL

3、Server273.3.2.8.Sybase IQ283.3.5.其它“大数据”处理方案283.3.2.9.EMC283.3.2.10.BigQuery293.3.6.大数据”和科技文件信息处理293.4.大数据处理技术发展前景293.4.1.大数据复杂度降低293.4.2.大数据细分市场303.4.3.大数据开源303.4.4.Hadoop将加速发展303.4.5.打包大数据行业分析应用303.4.6.大数据分析革命性方法出现313.4.7.大数据和云计算:深度融合313.4.8.大数据一体机陆续公布314.基于基站大数据应用及案例324.1.气象灾难应急短信公布平台324.1.1.概述32

4、4.1.1.1.项目背景324.1.1.2.平台概述324.1.2.平台建设特点和标准324.1.2.1.建设特点324.1.2.2.建设标准324.1.2.3.大数据管理平台特点334.1.3.平台整体架构334.1.3.1.建设原理334.1.3.2.平台总体设计351.平台总体结构352.平台技术架构364.1.3.3.平台技术思绪374.1.3.4.平台技术路线381.内存数据库382.短信发送多链路配置383.队列缓存384.参数可配置384.1.3.5.平台性能要求384.1.4.平台网络拓扑384.1.5.平台关键步骤394.1.5.1.平台数据步骤394.1.5.2.平台业务主

5、步骤404.1.5.3.短信下发审批步骤414.1.5.4.信令分析处理步骤424.1.5.5.短信发送步骤434.1.6.平台功效模块434.1.6.1.信令分析子系统434.1.6.2.短信发送子系统441.短信发送功效442.短信回执接收功效443.短信批量发送管理功效454.统计报表454.1.6.3.管理子系统451.用户管理452.权限管理463.实时监控464.日志管理465.基站位置信息管理466.系统参数配置管理464.1.6.4.内容数据库子系统464.1.7.平台外部接口474.1.7.1.信令采集接口471.接口说明472.数据采集模式474.1.7.2.短信发送接口4

6、71.短信发送通知接口472.短信发送状态查询接口473.短信发送接口474.1.7.3.基站位置信息接口481.数据同时模式482.基站位置信息全量同时接口483.基站位置信息增量同时接口484.2.旅游客源分析484.2.1.建设目标484.2.2.整体方案494.2.2.1.方案思绪494.2.2.2.分析范围494.2.2.3.方案特点504.2.3.方案设计514.2.3.1.系统关系514.2.3.2.系统架构511.数据分析后台能力522.Web前台能力524.2.3.3.数据采集534.2.3.4.业务分析531.总体分析步骤532.景区综合流量统计分析543.景区游客起源地组

7、成份析554.景区全网总游客实时估算575.景区流量预判模型分析586.景区流量上限告警597.旅游景点热度排名分析598.旅游线路归类统计609.景区和相关场所关联分析614.2.3.5.界面功效介绍611.菜单功效列表622.界面辅助功效介绍633.运行部门应用Portal644.用户权限641. 大数据概述1.1. 概述大数据，IT行业又一次技术变革，大数据浪潮汹涌而至，对国家治理、企业决议和个人生活全部在产生深远影响，并将成为云计算、物联网以后信息技术产业领域又一重大创新变革。未来十年将是一个“大数据”引领智慧科技时代、伴随社交网络逐步成熟，移动带宽快速提升、云计算、物联网应用愈加丰富

8、、更多传感设备、移动终端接入到网络，由此而产生数据及增加速度将比历史上任何时期全部要多、全部要快。数据技术发展历史图一所表示：图一1.2. 大数据定义“大数据”是一个涵盖多个技术概念，简单地说，是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理数据集合。IBM将“大数据”理念定义为4个V，即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生价值(Value)。图二;图二要了解大数据这一概念，首先要从大入手，大是指数据规模，大数据通常指在10TB(1TB=1024GB)规模以上数据量。大数据同过去海量数据有所区分，其基础特征能够用4个V来总结(Vo

9、l-ume、Variety、Value和Veloc-ity)，即体量大、多样性、价值密度低、速度快。数据体量巨大。从TB等级，跃升到PB等级。数据类型繁多，如前文提到网络日志、视频、图片、地理位置信息，等等。价值密度低。以视频为例，连续不间断监控过程中，可能有用数据仅仅有一两秒。处理速度快。1秒定律。最终这一点也是和传统数据挖掘技术有着本质不一样。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC和遍布地球各个角落多种多样传感器，无一不是数据起源或承载方法。大数据技术是指从多种多样类型巨量数据中，快速取得有价值信息技术。处理大数据问题关键是大数据技术。现在所说大数据不仅指数据本身

10、规模，也包含采集数据工具、平台和数据分析系统。大数据研发目标是发展大数据技术并将其应用到相关领域，经过处理巨量数据处理问题促进其突破性发展。所以，大数据时代带来挑战不仅表现在怎样处理巨量数据从中获取有价值信息，也表现在怎样加强大数据技术研发，抢占时代发展前沿。1.3. 大数据技术发展大数据技术描述了一个新一代技术和构架，用于以很经济方法、以高速捕捉、发觉和分析技术，从多种超大规模数据中提取价值，而且未来急剧增加数据迫切需要寻求新处理技术手段。图三所表示：图三在“大数据”(Big data)时代，经过互联网、社交网络、物联网，大家能够立即全方面地取得大信息。同时，信息本身存在形式改变和演进，也使

11、得作为信息载体数据以远超大家想象速度快速膨胀。云时代到来使得数据发明主体由企业逐步转向个体，而个体所产生绝大部分数据为图片、文档、视频等非结构化数据。信息化技术普及使得企业更多办公步骤经过网络得以实现，由此产生数据也以非结构化数据为主。估计到，非结构化数据将达成互联网整个数据量75%以上。用于提取智慧“大数据”，往往是这些非结构化数据。传统数据仓库系统、BI、链路挖掘等应用对数据处理时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理实时性。在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。全球技术研究和咨询企业Gartner将“大数据”技术列入对众多企业和

12、组织机构含有战略意义十大技术和趋势之一，而其它领域研究，如云计算、下一代分析、内存计算等也全部和“大数据”研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术，这意味着“大数据”技术将在未来35年内进入主流。而 “大数据”多样性决定了数据采集起源复杂性，从智能传感器到社交网络数据，从声音图片到在线交易数据，可能性是无穷无尽。选择正确数据起源并进行交叉分析能够为企业发明最显著利益。伴随数据源爆发式增加，数据多样性成为“大数据”应用亟待处理问题。比如怎样实时地及经过多种数据库管理系统来安全地访问数据，怎样经过优化存放策略，评定目前数据存放技术并改善、加强数据存放能力，最

13、大程度地利用现有存放投资。从某种意义上说，数据将成为企业关键资产。“大数据”不仅是一场技术变革，更是一场商业模式变革。在“大数据”概念提出之前，尽管互联网为传统企业提供了一个新销售渠道，但总体来看，二者平行发展，鲜有交集。我们能够看到，不管是谷歌经过分析用户个人信息，依据用户偏好提供正确广告，还是Facebook将用户线下社会关系迁移在线上，结构一个半真实实名帝国，但这些商业和消费模式仍不能脱离互联网，传统企业仍无法嫁接到互联网中。同时，传统企业经过传统用户分析工具却极难取得大范围用户真实需求。企业从大规模制造过渡到大规模定制，必需掌握用户需求特点。在互联网时代，这些需求特征往往是在用户不经意

14、行为中透露出来。经过对信息进行关联、参考、聚类、分类等方法分析，才能得到答案。“大数据”在互联网和传统企业间建立一个交集。它推进互联网企业融合进传统企业供给链，并在传统企业种下互联网基因。传统企业和互联网企业结合，网民和消费者融合，必将引发消费模式、制造模式、管理模式巨大变革。大数据正成为IT行业全新制高点，各企业和组织纷纷助推大数据发展，相关技术展现百花齐放局面，并在互联网应用领域崭露头角，具体情况以下图四所表示：图四大数据将带来巨大技术和商业机遇，大数据分析挖掘和利用将为企业带来巨大商业价值，而伴随应用数据规模急剧增加，传统计算面临严重挑战，大规模数据处理和行业应用需求日益增加和迫切出现越

15、来越多大规模数据处理应用需求，传统系统难以提供足够存放和计算资源进行处理，云计算技术是最理想处理方案。调查显示：现在，IT专业人员对云计算中很多关键技术最为关心是大规模数据并行处理技术大数据并行处理没有通用和现成处理方案对于应用行业来说，云计算平台软件、虚拟化软件全部不需要自己开发，但行业大规模数据处理应用没有现成和通用软件，需要针对特定应用需求专门开发，包含到很多并行化算法、索引查询优化技术研究、和系统设计实现，这些全部为大数据处理技术发展提供了巨大驱动力，2. 大数据应用2.1. 大数据应用叙述大数据能做什么？我们那么多地方探讨大数据，无非总结下来就做三件事：第一，对信息了解。你发每一张图

16、片、每一个新闻、每一个广告，这些全部是信息，你对这个信息了解是大数据关键领域。第二，用户了解，每个人基础特征，你潜在特征，每个用户上网习惯等等，这些全部是对用户了解。第三，关系。关系才是我们关键，信息和信息之间关系，一条微博和另外一条微博之间关系，一个广告和另外一个广告关系。一条微博和一个视频之间关系，这些在我们肉眼去看时候是相对简单。比如有条微博说这两天朝鲜绑架我们船事，那条微博也大约是谈这件事。人眼一眼就能看出来。不过用机器怎么能看出来这是一件事，和她们之间因果关系，这是很有难度。然后就是用户和用户之间关系。哪些人你愿意收听，是你好友，哪些是你感爱好领域，你是一个音乐达人，你是一个吃货，

17、那个用户也是一个吃货，你愿意收听她。这就是用户和用户之间关系了解。还有用户和信息之间了解，就是你对哪一类型微博感爱好，你对哪一类型信息感爱好，假如牵扯到商业化，你对哪一类广告或商品感爱好。其实就是用户和信息之间关系，她无非是做这件事。大数听说那么悬，其实关键是做三件事：对用户了解、对信息了解、对关系了解。假如我们在这三件事之间还要提一件事话，一个叫趋势。她也是关系一个变种，只是关系稍微远一点，情感之间分析，还有我们政府部门做舆情监控。她能够监控大规模数据，能够分析出人动向。在美国好莱坞，这两年也是基于FACEBOOK和TIWTTER数据来估计立即上映电影票房。她也是一个趋势分析，只是我

18、们把这个趋势提前来。关键就是这三件事。2.2. 大数据应用架构2.3. 大数据行业应用2.3.1. 医疗行业1. Seton Healthcare是采取IBM最新沃森技术医疗保健内容分析估计首个用户。该技术许可企业找到大量病人相关临床医疗信息，经过大数据处理，愈加好地分析病人信息。2. 在加拿大多伦多一家医院，针对早产婴儿，每秒钟有超出3000次数据读取。经过这些数据分析，医院能够提前知道哪些早产儿出现问题而且有针对性地采取方法，避免早产婴儿夭折。3. 它让更多创业者更方便地开发产品，比如经过社交网络来搜集数据健康类App。可能未来数年后，它们搜集数据能让医生给你诊疗变得更为正确，比方说不是通

19、用成人每日三次一次一片，而是检测到你血液中药剂已经代谢完成会自动提醒你再次服药。2.3.2. 能源行业1. 智能电网现在欧洲已经做到了终端，也就是所谓智能电表。在德国，为了激励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你太阳能有多出电时候还能够买回来。经过电网搜集每隔五分钟或十分钟搜集一次数据，搜集来这些数据能够用来估计用户用电习惯等，从而推断出在未来23个月时间里，整个电网大约需要多少电。有了这个估计后，就能够向发电或供电企业购置一定数量电。因为电有点像期货一样，假如提前买就会比较廉价，买现货就比较贵。经过这个估计后，能够降低采购成本。2. 维斯塔斯风力系统，依靠是BigInsight

20、s软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最好地点。利用大数据，以往需要数周分析工作，现在仅需要不足1小时便可完成。2.3.3. 通信行业1. XO Communications经过使用IBM SPSS估计分析软件，降低了快要二分之一用户流失率。XO现在能够估计用户行为，发觉行为趋势，并找出存在缺点步骤，从而帮助企业立即采取方法，保留用户。另外，IBM新Netezza网络分析加速器，将经过提供单个端到端网络、服务、用户分析视图可扩展平台，帮助通信企业制订更科学、合理决议。2. 电信业者透过数以千万计用户资料，能分析出多个使用者行为和趋势，卖给需要企业，这是

21、全新资料经济。3. 中国移动经过大数据分析，对企业运行全业务进行针对性监控、预警、跟踪。系统在第一时间自动捕捉市场改变，再以最快捷方法推送给指定责任人，使她在最短时间内获知市场行情。4. NTT docomo把手机位置信息和互联网上信息结合起来，为用户提供周围餐饮店信息，靠近末班车时间时，提供末班车信息服务。2.3.4. 零售业1. 我们某个用户，是一家领先专业时装零售商，经过当地百货商店、网络及其邮购目录业务为用户提供服务。企业期望向用户提供差异化服务，怎样定位企业差异化，她们经过从 Twitter 和 Facebook 上搜集社交信息，更深入了解化妆品营销模式，随即她们认识到必需保留两类有

22、价值用户：高消费者和高影响者。期望经过接收无偿化妆服务，让用户进行口碑宣传，这是交易数据和交互数据完美结合，为业务挑战提供了处理方案。Informatica技术帮助这家零售商用社交平台上数据充实了用户主数据，使她业务服务更含有目标性。2. 零售企业也监控用户店内走动情况和和商品互动。它们将这些数据和交易统计相结合来展开分析，从而在销售哪些商品、怎样摆放货物和何时调整售价上给出意见，这类方法已经帮助某领先零售企业降低了17%存货，同时在保持市场份额前提下，增加了高利润率自有品牌商品百分比。3. 大数据处理方案1.2.3.3.1. 大数据技术组成大数据技术由四种技术组成，它们包含：3.1.1. 分

23、析技术分析技术意味着对海量数据进行分析以实时得出答案，因为大数据特殊性，大数据分析技术还处于发展阶段，老技术会日趋完善，新技术会更多出现。大数据分析技术涵盖了以下五个方面3.1.1.1. 可视化分析数据可视化不管对于一般用户或是数据分析教授，全部是最基础功效。数据图像化能够让数据自己说话，让用户直观感受到结果。3.1.1.2. 数据挖掘算法图像化是将机器语言翻译给人看，而数据挖掘就是机器母语。分割、集群、孤立点分析还有多种多样五花八门算法让我们精炼数据，挖掘价值。这些算法一定要能够应付大数据量，同时还含有很高处理速度。3.1.1.3. 估计分析能力数据挖掘能够让分析师对数据承载信息愈加快愈加好

24、地消化了解，进而提升判定正确性，而估计性分析能够让分析师依据图像化分析和数据挖掘结果做出部分前瞻性判定。3.1.1.4. 语义引擎非结构化数据多元化给数据分析带来新挑战，我们需要一套工具系统去分析，提炼数据。语义引擎需要设计到有足够人工智能以足以从数据中主动地提取信息。3.1.1.5. 数据质量和数据管理数据质量和管理是管理最好实践，透过标准化步骤和机器对数据进行处理能够确保取得一个预设质量分析结果。我们知道大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了连续增加海量数据集。这些大数据中蕴藏着大量能够用于增强用户体验、提升服务质量和开发新型应用知识，而怎样

25、高效和正确发觉这些知识就基础决定了各大互联网企业在猛烈竞争环境中位置。首先，以谷歌为首技术型互联网企业提出了MapReduce技术框架，利用廉价PC服务器集群，大规模并发处理批量事务。利用文件系统存放非结构化数据，加上完善备份和容灾策略，这套经济实惠大数据处理方案和之前昂贵企业小型机集群+商业数据库方案相比，不仅没有丢失性能，而且还赢在了可扩展性上。之前，我们在设计一个数据中心处理方案前期，就要考虑到方案实施后可扩展性。通常方法是预估以后一段时期内业务量和数据量，加入多出计算单元（CPU）和存放，以备不时只需。这么方法直接造成了前期一次性投资巨大，而且即使这么也仍然无法确保计算需求和存放超出设

26、计量时系统性能。而一旦需要扩容，问题就会接踵而来。首先是商业并行数据库通常需要各节点物理同构，也就是含有近似计算和存放能力。而伴随硬件更新，我们通常加入新硬件全部会强于已经有硬件。这么，旧硬件就成为了系统瓶颈。为了确保系统性能，我们不得不把旧硬件逐步替换掉，经济成本损失巨大。其次，即使是目前最强商业并行数据库，其所能管理数据节点也只是在几十或上百这个数量级，这关键是因为架构上设计问题，所以其可扩展性肯定有限。而MapReduce+GFS框架，不受上述问题困扰。需要扩容了，只需增加个机柜，加入合适计算单元和存放，集群系统会自动分配和调度这些资源，丝毫不影响现有系统运行3.1.2. 存放数据库存放

27、数据库(In-Memory Databases)让信息快速流通，大数据分析常常会用到存放数据库来快速处理大量统计数据流通。比方说，它能够对某个全国性连锁店某天销售统计进行分析，得出一些特征进而依据某种规则立即为消费者提供奖励回馈。但传统关系型数据库严格设计定式、为确保强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐步暴露。随之而来，NoSQL数据存放模型开始风行。NoSQL，也有些人了解为Not Only SQL，并不是一个特定数据存放模型，它是一类非关系型数据库统称。其特点是：没有固定数据表模式、能够分布式和水平扩展。NoSQL并不是单纯反对关系型数据库，而是针对其缺点一个补充和扩展。

28、经典NoSQL数据存放模型有文档存放、键-值存放、图存放、对象数据库、列存放等NoSQL数据库是一个建立在云平台新型数据处理模式，NoSQL在很多情况下又叫做云数据库。因为其处理数据模式完全是分布于多种低成本服务器和存放磁盘，所以它能够帮助网页和多种交互性应用快速处理过程中海量数据。它为Zynga、AOL、Cisco和其它部分企业提供网页应用支持。正常数据库需要将数据进行归类组织，类似于姓名和帐号这些数据需要进行结构化和标签化。不过NoSQL数据库则完全不关心这些，它能处理多种类型文档。在处理海量数据同时请求时，它也不会有任何问题。比方说，假如有1000万人同时登录某个Zynga游戏，它会将这

29、些数据分布于全世界服务器并经过它们来进行数据处理，结果和1万人同时在线没什么两样。现今有多个不一样类型NoSQL模式。商业化模式如Couchbase、10genmongoDB和OracleNoSQL;开源无偿模式如CouchDB和Cassandra;还有亚马逊最新推出NoSQL云服务。3.1.3. 分布式计算技术分布式计算结合了NoSQL和实时分析技术，假如想要同时处理实时分析和NoSQL数据功效，那么你就需要分布式计算技术。分布式技术结合了一系列技术，能够对海量数据进行实时分析。更关键是，它所使用硬件很廉价，所以让这种技术普及变成可能。SGISunny Sundstrom解释说，经过对那些看

30、起来没什么关联和组织数据进行分析，我们能够取得很多有价值结果。比如说能够分发觉部分新模式或新行为。利用分布式计算技术，银行能够从消费者部分消费行为和模式中识别网上交易欺诈行为。分布式计算技术让不可能变成可能，分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好例子。这家企业经过对卫星图片分析得出部分实时结果，比如说某个城市有多少可用停车空间，或某个港口现在有多少船只。它们将这些实时结果卖给需要用户。没有这个技术，要想快速廉价分析这么大量卫星图片数据将是不可能。图五所表示：图五分布式计算技术是谷歌关键，也是Yahoo基础，现在分布式计算技术是基于谷歌创建技术，不过却最

31、新由Yahoo所建立。谷歌总共发表了两篇论文，发表叫做MapReduce论文介绍了怎样在多计算机之间进行数据处理;另一篇于发表，关键是相关怎样在多服务器上存放数据。来自于Yahoo工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台，以她儿子玩具大象命名。图六所表示图六而Hadoop作为一个重量级分布式处理开源框架已经在大数据处理领域有所作为3.2. 大数据处理过程3.2.1. 采集大数据采集是指利用多个数据库来接收发自用户端（Web、App或传感器形式等）数据，而且用户能够经过这些数据库来进行简单查询和处理工作。比如，电商会使用传统关系型数据库MySQL和Oracle等来存放

32、每一笔事务数据，除此之外，Redis和MongoDB这么NoSQL数据库也常见于数据采集。在大数据采集过程中，其关键特点和挑战是并发数高，因为同时有可能会有成千上万用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发访问量在峰值时达成上百万，所以需要在采集端布署大量数据库才能支撑。而且怎样在这些数据库之间进行负载均衡和分片确实是需要深入思索和设计。3.2.2. 导入/预处理即使采集端本身会有很多数据库，不过假如要对这些海量数据进行有效分析，还是应该将这些来自前端数据导入到一个集中大型分布式数据库，或分布式存放集群，而且能够在导入基础上做部分简单清洗和预处理工作。也有部分用户会在导入时使用来

33、自TwitterStorm来对数据进行流式计算，来满足部分业务实时计算需求。导入和预处理过程特点和挑战关键是导入数据量大，每秒钟导入量常常会达成百兆，甚至千兆等级。3.2.3. 统计/分析统计和分析关键利用分布式数据库，或分布式计算集群来对存放于其内海量数据进行一般分析和分类汇总等，以满足大多数常见分析需求，在这方面，部分实时性需求会用到EMCGreenPlum、OracleExadata，和基于MySQL列式存放Infobright等，而部分批处理，或基于半结构化数据需求能够使用Hadoop。统计和分析这部分关键特点和挑战是分析包含数据量大，其对系统资源，尤其是I/O会有极大占用。3.2.4

34、. 挖掘和前面统计和分析过程不一样是，数据挖掘通常没有什么预先设定好专题，关键是在现有数据上面进行基于多种算法计算，从而起到估计（Predict）效果，从而实现部分高等级数据分析需求。比较经典算法有用于聚类Kmeans、用于统计学习SVM和用于分类NaiveBayes，关键使用工含有HadoopMahout等。该过程特点和挑战关键是用于挖掘算法很复杂，而且计算包含数据量和计算量全部很大，常见数据挖掘算法全部以单线程为主。整个大数据处理普遍步骤最少应该满足这四个方面步骤，才能算得上是一个比较完整大数据处理3.3. 大数据处理关键技术-Hadoop大数据技术涵盖了硬软件多个方面技术，现在多种技术基

35、础全部独立存在于存放、开发、平台架构、数据分析挖掘各个相对独立领域。这一部分关键介绍和分析大数据处理关键技术Hadoop。3.3.1. Hadoop组成大数据不一样于传统类型数据，它可能由TB甚至PB级信息组成，既包含结构化数据，也包含文本、多媒体等非结构化数据。这些数据类型缺乏一致性，使得标准存放技术无法对大数据进行有效存放，而且我们也难以使用传统服务器和SAN方法来有效地存放和处理庞大数据量。这些全部决定了“大数据”需要不一样处理方法，而Hadoop现在正是广泛应用大数据处理技术。Hadoop是一个基于Java分布式密集数据处理和数据分析软件框架。该框架在很大程度上受谷歌在白皮书中叙述Ma

36、pReduce技术启发。Hadoop关键组件包含图七：图七Hadoop Common：通用模块，支持其它Hadoop模块Ha d o o p Di s t r i b u t e d Fi l eSystem（HDFS）：分布式文件系统，用以提供高流量应用数据访问Hadoop YARN：支持工作调度和集群资源管理框架HadoopMapReduce：针对大数据、灵活并行数据处理框架其它相关模块还有：ZooKeeper：高可靠性分布式协调系统Oozie：负责MapReduce作业调度HBase：可扩展分布式数据库，能够将结构性数据存放为大表Hive：构建在MapRudece之上数据仓库软件包Pig

37、：架构在Hadoop之上高级数据处理层在Hadoop框架中，最底层HDFS存放Hadoop集群中全部存放节点上文件。HDFS架构是基于一组特定节点构建（图八），图八这些节点包含一个NameNode和大量DataNode。存放在HDFS中文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这和传统RAID架构大不相同。块大小（通常为64MB）和复制块数量在创建文件时由用户机决定。NameNode能够控制全部文件操作。HDFS内部全部通信全部基于标准TCP/IP协议。NameNode在HDFS内部提供元数据服务，负责管理文件系统名称空间和控制外部用户机访问。它决定是否将文件映射到Da

38、taNode上复制块上。DataNode通常以机架形式组织，机架经过一个交换机将全部系统连接起来。H a d o o p M a p R e d u c e 是谷歌 MapReduce开源实现。MapReduce技术是一个简练并行计算模型，它在系统层面处理了扩展性、容错性等问题，经过接收用户编写Map函数和Reduce函数，自动地在可伸缩大规模集群上并行实施，从而能够处理和分析大规模数据6。Hadoop提供了大量接口和抽象类，从而为Hadoop应用程序开发人员提供很多工具，可用于调试和性能度量等。在H a d o o p 应用实例中，一个代表用户机在单个主系统上开启Ma pRe d u c e

39、应用程序称为JobTracker。类似于NameNode，它是Ha d o o p 集群中唯一负责控制MapReduce应用程序系统。在应用程序提交以后，将提供包含在HDFS中输入和输出目录。JobTr a cke r使用文件块信息（物理量和位置）确定怎样创建其它TaskTracker隶属任务。MapReduce应用程序被复制到每个出现输入文件块节点，将为特定节点上每个文件块创建一个唯一隶属任务。每个TaskTracker将状态和完成信息汇报给JobTracker。图显示一个示例集群中工作分布，图九:图九3.3.2. Hadoop优点：Hadoop能够使用户轻松开发和运行处理大数据应用程序。它

40、关键有以下多个优点：3.2.3.3.3.3.1.3.3.2.3.3.2.1. 高可靠性。Hadoop按位存放和处理数据能力值得大家信赖。3.3.2.2. 高扩展性。Hadoop是在可用计算机集簇间分配数据并完成计算任务，这些集簇能够方便地扩展到数以千计节点中。3.3.2.3. 高效性。Hadoop能够在节点之间动态地移动数据，并确保各个节点动态平衡，所以处理速度很快。3.3.2.4. 高容错性。Hadoop能够自动保留数据多个副本，而且能够自动将失败任务重新分配。Hadoop带有用Java语言编写框架，所以运行在Linux生产平台上是很理想。Hadoop上应用程序也能够使用其它语言编写，比如C

41、+。3.3.3. Hadoop不足Hadoop作为一个处理大数据软件框架，即使受到众多商业企业青睐，不过其本身技术特点也决定了它不能完全处理大数据问题。在目前Hadoop设计中，全部metadata操作全部要经过集中式NameNode来进行，NameNode有可能是性能瓶颈。目前Hadoop单一NameNode、单一Jobtracker设计严重制约了整个Hadoop可扩展性和可靠性。首先，NameNode和JobTracker是整个系统中显著单点故障源。再次，单一NameNode内存容量有限，使得Hadoop集群节点数量被限制到个左右，能支持文件系统大小被限制在10-50PB，最多能支持文件数

42、量大约为1.5亿左右。实际上，有用户埋怨其集群NameNode重启需要数小时，这大大降低了系统可用性。伴随Hadoop被广泛使用，面对各式各样需求，大家期望Hadoop能提供更多特征，比如完全可读写文件系统、Snapshot、Mirror等等。这些全部是目前版本Hadoop不支持，不过用户又有强烈需求。3.3.4. 关键商业性“大数据”处理方案“大数据”被科技企业看作是云计算以后另一个巨大商机，包含IBM、谷歌、亚马逊和微软在内一大批著名企业纷纷掘金这一市场。另外，很多初创企业也开始加入到大数据淘金队伍中。Hadoop是非结构数据库代表，低成本、高扩展性和灵活性等优势使其成为多种面向大数据处理

43、分析商业服务方案首选。Oracle、IBM、Microsoft三大商业数据提供商是Hadoop关键支持者。很多著名企业全部以Hadoop技术为基础提供自己商业性大数据处理方案。这一部分关键介绍以Hadoop为基础经典商业性大数据处理方案。3.3.2.5. IBM InfoSphere大数据分析平台I B M于2 0 1 1 年5 月推出InfoSphere大数据分析平台是一款定位为企业级大数据分析产品。该产品包含BigInsight s和Streams，二者互补，Biglnsights基于Hadoop，对大规模静态数据进行分析，它提供多节点分布式计算，能够随时增加节点，提升数据处理能力。St

44、reams采取内存计算方法分析实时数据。它们将包含HadoopMapReduce在内开源技术紧密地和IBM系统集成起来。研究Hadoop这么开源技术人很多，不过IBM这次是真正将其变成了企业级应用，针对不一样人员增加不一样价值。InfoSphereBigInsight s 1.3存放和运算框架采取了开源Ha d o o pMa pRe d u c e，同时针对Ha d o o p 框架进行了改造，采取了IBM特有通用并行文件系统GPFS。利用GPFS目标是为了避免单点故障，确保可用性。BigInsights中还有两个分析产品Cognos和SPSS，这两个分析产品在传统功效上加强了文本分析功效，

45、提供了一系列文本分析工具，并使用高级语言进行自定义规则，如文本格式转换等。现在BigInsights提供两种版本，一个是企业版（Enterprise Edition），用于企业级大数据分析处理方案。另一个是基础版（Basic Edition），去掉了企业版中大部分功效，用户能够无偿下载，关键提供给开发人员和合作伙伴试用。St r e ams 最大特点就是内存分析，利用多节点PC服务器内存来处理大批量数据分析请求。St reams特点就是“小快灵”，数据是实时流动，其分析反应速度能够控制在毫秒等级，而BigInsights分析是批处理，反应速度无法同St reams相比。总体来说，二者设计架构不

46、一样，也用于处理不一样大数据分析需求，并能够形成良好互补。InfoSphere平台仅仅是IBM大数据处理方案中一部分。IBM大数据平台包含4大部分：信息整合和治理组件、基于开源Apache Hadoop框架而实现Bi g I n s i g h t s 平台、加速器，和包含可视化和发觉、应用程序开发、系统管理上层应用。经过IBM处理方案能够看出，处理大数据问题不能仅仅依靠Hadoop。3.3.2.6. Or a c l e Bi g Da t aAppliancOracle Big Data Appliance正确地说是一款硬件产品，添加了Hadoop装载器、应用适配器和Or acle新NoSQL数据库，关键目标是为了将非结构化数据加载到关系型数据库中去，并对软硬件集成做了部分优化。Oracle BigData机包含开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHa d o o p 装载器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虚拟机。它能够快速、便捷地和Oracle数据库11g、Oracle Exadata数据库云服务器和Oracle Exa

展开阅读全文