收藏 分销(赏)

大数据应用解决专项方案.doc

上传人:w****g 文档编号:2947503 上传时间:2024-06-11 格式:DOC 页数:43 大小:1.80MB
下载 相关 举报
大数据应用解决专项方案.doc_第1页
第1页 / 共43页
大数据应用解决专项方案.doc_第2页
第2页 / 共43页
大数据应用解决专项方案.doc_第3页
第3页 / 共43页
大数据应用解决专项方案.doc_第4页
第4页 / 共43页
大数据应用解决专项方案.doc_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、大数据应用解决方案目 录1.大数据概述61.1.概述61.2.大数据定义61.3.大数据技术发展82.大数据应用112.1.大数据应用阐述112.2.大数据应用架构132.3.大数据行业应用132.3.1.医疗行业132.3.2.能源行业142.3.3.通信行业142.3.4.零售业153.大数据解决方案163.1.大数据技术构成163.1.1.分析技术163.1.1.1.可视化分析163.1.1.2.数据挖掘算法163.1.1.3.预测分析能力163.1.1.4.语义引擎163.1.1.5.数据质量和数据管理173.1.2.存储数据库173.1.3.分布式计算技术183.2.大数据解决过程2

2、03.2.1.采集203.2.2.导入/预解决213.2.3.记录/分析213.2.4.挖掘213.3.大数据解决核心技术-Hadoop213.3.1.Hadoop构成223.3.2.Hadoop长处:253.3.2.1.高可靠性。253.3.2.2.高扩展性。253.3.2.3.高效性。253.3.2.4.高容错性。253.3.3.Hadoop局限性253.3.4.重要商业性“大数据”解决方案263.3.2.5.IBM InfoSphere大数据分析平台263.3.2.6.Or a c l e Bi g Da t aApplianc273.3.2.7.Mi c r o s o f t S Q

3、LServer273.3.2.8.Sybase IQ283.3.5.其她“大数据”解决方案283.3.2.9.EMC283.3.2.10.BigQuery293.3.6.大数据”与科技文献信息解决293.4.大数据解决技术发展前景293.4.1.大数据复杂度减少293.4.2.大数据细分市场303.4.3.大数据开源303.4.4.Hadoop将加速发展303.4.5.打包大数据行业分析应用303.4.6.大数据分析革命性办法浮现313.4.7.大数据与云计算:深度融合313.4.8.大数据一体机陆续发布314.基于基站大数据应用及案例324.1.气象灾害应急短信发布平台324.1.1.概述3

4、24.1.1.1.项目背景324.1.1.2.平台概述324.1.2.平台建设特点与原则324.1.2.1.建设特点324.1.2.2.建设原则324.1.2.3.大数据管理平台特点334.1.3.平台整体架构334.1.3.1.建设原理334.1.3.2.平台总体设计351.平台总体构造352.平台技术架构364.1.3.3.平台技术思路374.1.3.4.平台技术路线381.内存数据库382.短信发送多链路配备383.队列缓存384.参数可配备384.1.3.5.平台性能规定384.1.4.平台网络拓扑384.1.5.平台核心流程394.1.5.1.平台数据流程394.1.5.2.平台业务

5、主流程404.1.5.3.短信下发审批流程414.1.5.4.信令分析解决流程424.1.5.5.短信发送流程434.1.6.平台功能模块434.1.6.1.信令分析子系统434.1.6.2.短信发送子系统441.短信发送功能442.短信回执接受功能443.短信批量发送管理功能454.记录报表454.1.6.3.管理子系统451.顾客管理452.权限管理463.实时监控464.日记管理465.基站位置信息管理466.系统参数配备管理464.1.6.4.内容数据库子系统464.1.7.平台外部接口474.1.7.1.信令采集接口471.接口阐明472.数据采集模式474.1.7.2.短信发送接口

6、471.短信发送告知接口472.短信发送状态查询接口473.短信发送接口474.1.7.3.基站位置信息接口481.数据同步模式482.基站位置信息全量同步接口483.基站位置信息增量同步接口484.2.旅游客源分析484.2.1.建设目的484.2.2.整体方案494.2.2.1.方案思路494.2.2.2.分析范畴494.2.2.3.方案特点504.2.3.方案设计514.2.3.1.系统关系514.2.3.2.系统架构511.数据分析后台能力522.Web前台能力524.2.3.3.数据采集534.2.3.4.业务分析531.总体分析流程532.景区综合流量记录分析543.景区游客来源地

7、构成分析554.景区全网总游客实时估算575.景区流量预判模型分析586.景区流量上限告警597.旅游景点热度排名分析598.旅游线路归类记录609.景区与有关场合关联分析614.2.3.5.界面功能简介611.菜单功能列表622.界面辅助功能简介633.运营部门应用Portal644.顾客权限641. 大数据概述1.1. 概述大数据,IT行业又一次技术变革,大数据浪潮汹涌而至,对国家治理、公司决策和个人生活都在产生深远影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。将来十年将是一种“大数据”引领智慧科技时代、随着社交网络逐渐成熟,移动带宽迅速提高、云计算、物联网应用更加丰富

8、、更多传感设备、移动终端接入到网络,由此而产生数据及增长速度将比历史上任何时期都要多、都要快。数据技术发展历史如图一所示:图一1.2. 大数据定义“大数据”是一种涵盖各种技术概念,简朴地说,是指无法在一定期间内用常规软件工具对其内容进行抓取、管理和解决数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、迅速化(Velocity)及由此产生价值(Value)。如图二;图二要理解大数据这一概念,一方面要从大入手,大是指数据规模,大数据普通指在10TB(1TB=1024GB)规模以上数据量。大数据同过去海量数据有所区别,其基本特性可以用4个V来总结(Vo

9、l-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。 数据体量巨大。从TB级别,跃升到PB级别。 数据类型繁多,如前文提到网络日记、视频、图片、地理位置信息,等等。 价值密度低。以视频为例,持续不间断监控过程中,也许有用数据仅仅有一两秒。 解决速度快。1秒定律。最后这一点也是和老式数据挖掘技术有着本质不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍及地球各个角落各种各样传感器,无一不是数据来源或者承载方式。大数据技术是指从各种各样类型巨量数据中,迅速获得有价值信息技术。解决大数据问题核心是大数据技术。当前所说大数据不但指数据自

10、身规模,也涉及采集数据工具、平台和数据分析系统。大数据研发目是发展大数据技术并将其应用到有关领域,通过解决巨量数据解决问题增进其突破性发展。因而,大数据时代带来挑战不但体当前如何解决巨量数据从中获取有价值信息,也体当前如何加强大数据技术研发,抢占时代发展前沿。1.3. 大数据技术发展大数据技术描述了一种新一代技术和构架,用于以很经济方式、以高速捕获、发现和分析技术,从各种超大规模数据中提取价值,并且将来急剧增长数据迫切需要谋求新解决技术手段。如图三所示:图三在“大数据”(Big data)时代,通过互联网、社交网络、物联网,人们可以及时全面地获得大信息。同步,信息自身存在形式变化与演进,也使得

11、作为信息载体数据以远超人们想象速度迅速膨胀。云时代到来使得数据创造主体由公司逐渐转向个体,而个体所产生绝大某些数据为图片、文档、视频等非构造化数据。信息化技术普及使得公司更多办公流程通过网络得以实现,由此产生数据也以非构造化数据为主。预测到,非构造化数据将达到互联网整个数据量75%以上。用于提取智慧“大数据”,往往是这些非构造化数据。老式数据仓库系统、BI、链路挖掘等应用对数据解决时间规定往往以小时或天为单位。但“大数据”应用突出强调数据解决实时性。在线个性化推荐、股票交易解决、实时路况信息等数据解决时间规定在分钟甚至秒级。全球技术研究和征询公司Gartner将“大数据”技术列入对众多公司和组

12、织机构具备战略意义十大技术与趋势之一,而其她领域研究,如云计算、下一代分析、内存计算等也都与“大数据”研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在将来35年内进入主流。而 “大数据”多样性决定了数据采集来源复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,也许性是无穷无尽。选取对的数据来源并进行交叉分析可觉得公司创造最明显利益。随着数据源爆发式增长,数据多样性成为“大数据”应用亟待解决问题。例如如何实时地及通过各种数据库管理系统来安全地访问数据,如何通过优化存储方略,评估当前数据存储技术并改进、加强数据存储能力,最大限

13、度地运用既有存储投资。从某种意义上说,数据将成为公司核心资产。“大数据”不但是一场技术变革,更是一场商业模式变革。在“大数据”概念提出之前,尽管互联网为老式公司提供了一种新销售渠道,但总体来看,两者平行发展,鲜有交集。咱们可以看到,无论是Google通过度析顾客个人信息,依照顾客偏好提供精准广告,还是Facebook将顾客线下社会关系迁移在线上,构造一种半真实实名帝国,但这些商业和消费模式仍不能脱离互联网,老式公司仍无法嫁接到互联网中。同步,老式公司通过老式顾客分析工具却很难获得大范畴顾客真实需求。公司从大规模制造过渡到大规模定制,必要掌握顾客需求特点。在互联网时代,这些需求特性往往是在顾客不

14、经意行为中透露出来。通过对信息进行关联、参照、聚类、分类等办法分析,才干得到答案。“大数据”在互联网与老式公司间建立一种交集。它推动互联网公司融合进老式公司供应链,并在老式公司种下互联网基因。老式公司与互联网公司结合,网民和消费者融合,必将引起消费模式、制造模式、管理模式巨大变革。大数据正成为IT行业全新制高点,各公司和组织纷纷助推大数据发展,有关技术呈现百花齐放局面,并在互联网应用领域崭露头角,详细状况如下图四所示:图四大数据将带来巨大技术和商业机遇,大数据分析挖掘和运用将为公司带来巨大商业价值,而随着应用数据规模急剧增长,老式计算面临严重挑战,大规模数据解决和行业应用需求日益增长和迫切浮现

15、越来越多大规模数据解决应用需求,老式系统难以提供足够存储和计算资源进行解决,云计算技术是最抱负解决方案。调查显示:当前,IT专业人员对云计算中诸多核心技术最为关怀是大规模数据并行解决技术大数据并行解决没有通用和现成解决方案对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发,但行业大规模数据解决应用没有现成和通用软件,需要针对特定应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统设计实现,这些都为大数据解决技术发展提供了巨大驱动力,2. 大数据应用2.1. 大数据应用阐述大数据能做什么?咱们那么多地方探讨大数据,无非总结下来就做三件事:第一,对信息理解。你发每一张图

16、片、每一种新闻、每一种广告,这些都是信息,你对这个信息理解是大数据重要领域。第二,顾客理解,每个人基本特性,你潜在特性,每个顾客上网习惯等等,这些都是对顾客理解。第三,关系。关系才是咱们核心,信息与信息之间关系,一条微博和此外一条微博之间关系,一种广告和此外一种广告关系。一条微博和一种视频之间关系,这些在咱们肉眼去看时候是相对简朴。例如有条微博说这两天朝鲜绑架咱们船事,那条微博也大概是谈这件事。人眼一眼就能看出来。但是用机器怎么能看出来这是一件事,以及她们之间因果关 系,这是很有难度。然后就是顾客与顾客之间关系。哪些人你乐意收听,是你朋友,哪些是你感兴趣领域,你是一种音乐达人,你是一种吃货,那

17、个顾客也 是一种吃货,你乐意收听她。这就是顾客与顾客之间关系理解。尚有顾客与信息之间理解,就是你对哪一类型微博感兴趣,你对哪一类型信息感兴趣,如果 牵扯到商业化,你对哪一类广告或者商品感兴趣。其实就是顾客与信息之间关系,她无非是做这件事。大数据说那么悬,其实重要是做三件事:对顾客理解、对信息理解、对关系理解。如果咱们在这三件事之间还要提一件事话,一种叫趋势。 她也是关系一种变种,只是关系稍微远一点,情感之间分析,尚有咱们政府部门做舆情监控。她可以监控大规模数据,可以分析出人动向。在美国好莱 坞,这两年也是基于FACEBOOK和TIWTTER数据来预测即将上映电影票房。她也是一种趋势分析,只是咱

18、们把这个趋势提前来。核心就是这三件事。2.2. 大数据应用架构2.3. 大数据行业应用2.3.1. 医疗行业1. Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测首个客户。该技术容许公司找到大量病人有关临床医疗信息,通过大数据解决,更好地分析病人信息。2. 在加拿大多伦多一家医院,针对早产婴儿,每秒钟有超过3000次数据读取。通过这些数据分析,医院可以提前懂得哪些早产儿浮现问题并且有针对性地采用办法,避免早产婴儿夭折。3. 它让更多创业者更以便地开发产品,例如通过社交网络来收集数据健康类App。也许将来数年后,它们收集数据能让医生给你诊断变得更为精准,比喻说不是通用

19、成人每日三次一次一片,而是检测到你血液中药剂已经代谢完毕会自动提示你再次服药。2.3.2. 能源行业1. 智能电网当前欧洲已经做到了终端,也就是所谓智能电表。在德国,为了勉励运用太阳能,会在家庭安装太阳能,除了卖电给你,当你太阳能有多余电时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来这些数据可以用来预测客户用电习惯等,从而推断出在将来23个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电公司购买一定数量电。由于电有点像期货同样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以减少采购成本。2. 维斯塔斯风力系统,依托是BigInsight

20、s软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳地点。运用大数据,以往需要数周分析工作,当前仅需要局限性1小时便可完毕。2.3.3. 通信行业1. XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半客户流失率。XO当前可以预测客户行为,发现行为趋势,并找出存在缺陷环节,从而协助公司及时采用办法,保存客户。此外,IBM新Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图可扩展平台,协助通信公司制定更科学、合理决策。2. 电信业者透过数以千万计客户资料,能分析出各种使用者行为和趋势,卖给需要公司,这是全

21、新资料经济。3. 中华人民共和国移动通过大数据分析,对公司运营全业务进行针对性监控、预警、跟踪。系统在第一时间自动捕获市场变化,再以最快捷方式推送给指定负责人,使她在最短时间内获知市场行情。4. NTT docomo把手机位置信息和互联网上信息结合起来,为顾客提供附近餐饮店信息,接近末班车时间时,提供末班车信息服务。2.3.4. 零售业1. 咱们某个客户,是一家领先专业时装零售商,通过本地百货商店、网络及其邮购目录业务为客户提供服务。公司但愿向客户提供差别化服务,如何定位公司差别化,她们通过从 Twitter 和 Facebook 上收集社交信息,更进一步理解化妆品营销模式,随后她们结识到必要

22、保存两类有价值客户:高消费者和高影响者。但愿通过接受免费化妆服务,让顾客进行口碑宣传,这是交易数据与交互数据完美结合,为业务挑战提供理解决方案。Informatica技术协助这家零售商用社交平台上数据充实了客户主数据,使她业务服务更具备目的性。2. 零售公司也监控客户店内走动状况以及与商品互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调节售价上给出意见,此类办法已经协助某领先零售公司减少了17%存货,同步在保持市场份额前提下,增长了高利润率自有品牌商品比例。3. 大数据解决方案1.2.3.3.1. 大数据技术构成大数据技术由四种技术构成,它们涉及:3.

23、1.1. 分析技术分析技术意味着对海量数据进行分析以实时得出答案,由于大数据特殊性,大数据分析技术还处在发展阶段,老技术会日趋完善,新技术会更多余现。大数据分析技术涵盖了如下五个方面3.1.1.1. 可视化分析数据可视化无论对于普通顾客或是数据分析专家,都是最基本功能。数据图像化可以让数据自己说话,让顾客直观感受到成果。3.1.1.2. 数据挖掘算法图像化是将机器语言翻译给人看,而数据挖掘就是机器母语。分割、集群、孤立点分析尚有各种各样五花八门算法让咱们精炼数据,挖掘价值。这些算法一定要可以应付大数据量,同步还具备很高解决速度。3.1.1.3. 预测分析能力数据挖掘可以让分析师对数据承载信息更

24、快更好地消化理解,进而提高判断精确性,而预测性分析可以让分析师依照图像化分析和数据挖掘成果做出某些前瞻性判断。3.1.1.4. 语义引擎非构造化数据多元化给数据分析带来新挑战,咱们需要一套工具系统去分析,提炼数据。语义引擎需要设计到有足够人工智能以足以从数据中积极地提取信息。3.1.1.5. 数据质量和数据管理数据质量与管理是管理最佳实践,透过原则化流程和机器对数据进行解决可以保证获得一种预设质量分析成果。咱们懂得大数据分析技术最初来源于互联网行业。网页存档、顾客点击、商品信息、顾客关系等数据形成了持续增长海量数据集。这些大数据中蕴藏着大量可以用于增强顾客体验、提高服务质量和开发新型应用知识,

25、而如何高效和精确发现这些知识就基本决定了各大互联网公司在激烈竞争环境中位置。一方面,以Google为首技术型互联网公司提出了MapReduce技术框架,运用便宜PC服务器集群,大规模并发解决批量事务。运用文献系统存储非构造化数据,加上完善备份和容灾方略,这套经济实惠大数据解决方案与之前昂贵公司小型机集群+商业数据库方案相比,不但没有丢失性能,并且还赢在了可扩展性上。之前,咱们在设计一种数据中心解决方案前期,就要考虑到方案实行后可扩展性。普通办法是预估此后一段时期内业务量和数据量,加入多余计算单元(CPU)和存储,以备不时只需。这样方式直接导致了前期一次性投资巨大,并且虽然这样也依然无法保证计算

26、需求和存储超过设计量时系统性能。而一旦需要扩容,问题就会接踵而来。一方面是商业并行数据库普通需要各节点物理同构,也就是具备近似计算和存储能力。而随着硬件更新,咱们普通加入新硬件都会强于已有硬件。这样,旧硬件就成为了系统瓶颈。为了保证系统性能,咱们不得不把旧硬件逐渐替代掉,经济成本损失巨大。另一方面,虽然是当前最强商业并行数据库,其所能管理数据节点也只是在几十或上百这个数量级,这重要是由于架构上设计问题,因此其可扩展性必然有限。而MapReduce+GFS框架,不受上述问题困扰。需要扩容了,只需增长个机柜,加入恰当计算单元和存储,集群系统会自动分派和调度这些资源,丝毫不影响既有系统运营3.1.2

27、. 存储数据库存储数据库(In-Memory Databases)让信息迅速流通,大数据分析经常会用到存储数据库来迅速解决大量记录数据流通。比喻说,它可以对某个全国性连锁店某天销售记录进行分析,得出某些特性进而依照某种规则及时为消费者提供奖励回馈。但老式关系型数据库严格设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NoSQL数据存储模型开始风行。NoSQL,也有人理解为Not Only SQL,并不是一种特定数据存储模型,它是一类非关系型数据库统称。其特点是:没有固定数据表模式、可以分布式和水平扩展。NoSQL并不是单纯反对关系型数据库,而是针对其缺陷

28、一种补充和扩展。典型NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等NoSQL数据库是一种建立在云平台新型数据解决模式,NoSQL在诸多状况下又叫做云数据库。由于其解决数据模式完全是分布于各种低成本服务器和存储磁盘,因而它可以协助网页和各种交互性应用迅速解决过程中海量数据。它为Zynga、AOL、Cisco以及其他某些公司提供网页应用支持。正常数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行构造化和标签化。但是NoSQL数据库则完全不关怀这些,它能解决各种类型文档。在解决海量数据同步祈求时,它也不会有任何问题。比喻说,如果有1000万人同步登录某个Zyn

29、ga游戏,它会将这些数据分布于全世界服务器并通过它们来进行数据解决,成果与1万人同步在线没什么两样。现今有各种不同类型NoSQL模式。商业化模式如Couchbase、10genmongoDB以及OracleNoSQL;开源免费模式如CouchDB和Cassandra;尚有亚马逊最新推出NoSQL云服务。3.1.3. 分布式计算技术分布式计算结合了NoSQL与实时分析技术,如果想要同步解决实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要是,它所使用硬件非常便宜,因而让这种技术普及变成也许。SGISunny Sundstrom

30、解释说,通过对那些看起来没什么关联和组织数据进行分析,咱们可以获得诸多有价值成果。例如说可以分发现某些新模式或者新行为。运用分布式计算技术,银行可以从消费者某些消费行为和模式中辨认网上交易欺诈行为。分布式计算技术让不也许变成也许,分布式计算技术正引领着将不也许变为也许。Skybox Imaging就是一种较好例子。这家公司通过对卫星图片分析得出某些实时成果,例如说某个都市有多少可用停车空间,或者某个港口当前有多少船只。它们将这些实时成果卖给需要客户。没有这个技术,要想迅速便宜分析这样大量卫星图片数据将是不也许。如图五所示:图五分布式计算技术是Google核心,也是Yahoo基本,当前分布式计算

31、技术是基于Google创立技术,但是却最新由Yahoo所建立。Google总共刊登了两篇论文,刊登叫做MapReduce论文简介了如何在多计算机之间进行数据解决;另一篇于刊登,重要是关于如何在多服务器上存储数据。来自于Yahoo工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台,以她儿子玩具大象命名。如图六所示图六而Hadoop作为一种重量级分布式解决开源框架已经在大数据解决领域有所作为3.2. 大数据解决过程3.2.1. 采集大数据采集是指运用各种数据库来接受发自客户端(Web、App或者传感器形式等)数据,并且顾客可以通过这些数据库来进行简朴查询和解决工作。例如,电商会使

32、用老式关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样NoSQL数据库也惯用于数据采集。在大数据采集过程中,其重要特点和挑战是并发数高,由于同步有也许会有成千上万顾客来进行访问和操作,例如火车票售票网站和淘宝,它们并发访问量在峰值时达到上百万,因此需要在采集端布置大量数据库才干支撑。并且如何在这些数据库之间进行负载均衡和分片确是需要进一步思考和设计。3.2.2. 导入/预解决虽然采集端自身会有诸多数据库,但是如果要对这些海量数据进行有效分析,还是应当将这些来自前端数据导入到一种集中大型分布式数据库,或者分布式存储集群,并且可以在导入基本上做某

33、些简朴清洗和预解决工作。也有某些顾客会在导入时使用来自TwitterStorm来对数据进行流式计算,来满足某些业务实时计算需求。导入与预解决过程特点和挑战重要是导入数据量大,每秒钟导入量经常会达到百兆,甚至千兆级别。3.2.3. 记录/分析记录与分析重要运用分布式数据库,或者分布式计算集群来对存储于其内海量数据进行普通分析和分类汇总等,以满足大多数常用分析需求,在这方面,某些实时性需求会用到EMCGreenPlum、OracleExadata,以及基于MySQL列式存储Infobright等,而某些批解决,或者基于半构造化数据需求可以使用Hadoop。记录与分析这某些重要特点和挑战是分析涉及数

34、据量大,其对系统资源,特别是I/O会有极大占用。3.2.4. 挖掘与前面记录和分析过程不同是,数据挖掘普通没有什么预先设定好主题,重要是在既有数据上面进行基于各种算法计算,从而起到预测(Predict)效果,从而实现某些高档别数据分析需求。比较典型算法有用于聚类Kmeans、用于记录学习SVM和用于分类NaiveBayes,重要使用工具备HadoopMahout等。该过程特点和挑战重要是用于挖掘算法很复杂,并且计算涉及数据量和计算量都很大,惯用数据挖掘算法都以单线程为主。整个大数据解决普遍流程至少应当满足这四个方面环节,才干算得上是一种比较完整大数据解决3.3. 大数据解决核心技术-Hadoo

35、p大数据技术涵盖了硬软件各种方面技术,当前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘各个相对独立领域。这一某些重要简介和分析大数据解决核心技术Hadoop。3.3.1. Hadoop构成大数据不同于老式类型数据,它也许由TB甚至PB级信息构成,既涉及构造化数据,也涉及文本、多媒体等非构造化数据。这些数据类型缺少一致性,使得原则存储技术无法对大数据进行有效存储,并且咱们也难以使用老式服务器和SAN办法来有效地存储和解决庞大数据量。这些都决定了“大数据”需要不同解决办法,而Hadoop当前正是广泛应用大数据解决技术。Hadoop是一种基于Java分布式密集数据解决和数据分析软件框架

36、。该框架在很大限度上受Google在白皮书中阐述MapReduce技术启发。Hadoop重要组件包括如图七:图七Hadoop Common:通用模块,支持其她Hadoop模块Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文献系统,用以提供高流量应用数据访问Hadoop YARN:支持工作调度和集群资源管理框架HadoopMapReduce:针对大数据、灵活并行数据解决框架其她有关模块尚有:ZooKeeper:高可靠性分布式协调系统Oozie:负责MapReduce作业调度HBase:可扩展分布式数据库,可以将构造性数据存储为大表Hi

37、ve:构建在MapRudece之上数据仓库软件包Pig:架构在Hadoop之上高档数据解决层在Hadoop框架中,最底层HDFS存储Hadoop集群中所有存储节点上文献。HDFS架构是基于一组特定节点构建(如图八),图八这些节点涉及一种NameNode和大量DataNode。存储在HDFS中文献被提成块,然后将这些块复制到各种计算机中(DataNode)。这与老式RAID架构大不相似。块大小(普通为64MB)和复制块数量在创立文献时由客户机决定。NameNode可以控制所有文献操作。HDFS内部所有通信都基于原则TCP/IP合同。NameNode在HDFS内部提供元数据服务,负责管理文献系统名

38、称空间和控制外部客户机访问。它决定与否将文献映射到DataNode上复制块上。DataNode普通以机架形式组织,机架通过一种互换机将所有系统连接起来。H a d o o p M a p R e d u c e 是Google MapReduce开源实现。MapReduce技术是一种简洁并行计算模型,它在系统层面解决了扩展性、容错性等问题,通过接受顾客编写Map函数和Reduce函数,自动地在可伸缩大规模集群上并行执行,从而可以解决和分析大规模数据6。Hadoop提供了大量接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。在H a d o o p 应用实例中

39、,一种代表客户机在单个主系统上启动Ma pRe d u c e应用程序称为JobTracker。类似于NameNode,它是Ha d o o p 集群中唯一负责控制MapReduce应用程序系统。在应用程序提交之后,将提供包括在HDFS中输入和输出目录。JobTr a cke r使用文献块信息(物理量和位置)拟定如何创立其她TaskTracker从属任务。MapReduce应用程序被复制到每个浮现输入文献块节点,将为特定节点上每个文献块创立一种唯一从属任务。每个TaskTracker将状态和完毕信息报告给JobTracker。如图显示一种示例集群中工作分布,如图九:图九3.3.2. Hadoo

40、p长处:Hadoop可以使顾客轻松开发和运营解决大数据应用程序。它重要有如下几种长处:3.2.3.3.3.3.1.3.3.2.3.3.2.1. 高可靠性。Hadoop按位存储和解决数据能力值得人们信赖。3.3.2.2. 高扩展性。Hadoop是在可用计算机集簇间分派数据并完毕计算任务,这些集簇可以以便地扩展到数以千计节点中。3.3.2.3. 高效性。Hadoop可以在节点之间动态地移动数据,并保证各个节点动态平衡,因而解决速度非常快。3.3.2.4. 高容错性。Hadoop可以自动保存数据各种副本,并且可以自动将失败任务重新分派。Hadoop带有用Java语言编写框架,因而运营在Linux生产

41、平台上是非常抱负。Hadoop上应用程序也可以使用其她语言编写,例如C+。3.3.3. Hadoop局限性Hadoop作为一种解决大数据软件框架,虽然受到众多商业公司青睐,但是其自身技术特点也决定了它不能完全解决大数据问题。在当前Hadoop设计中,所有metadata操作都要通过集中式NameNode来进行,NameNode有也许是性能瓶颈。当前Hadoop单一NameNode、单一Jobtracker设计严重制约了整个Hadoop可扩展性和可靠性。一方面,NameNode和JobTracker是整个系统中明显单点故障源。再次,单一NameNode内存容量有限,使得Hadoop集群节点数量被

42、限制到个左右,能支持文献系统大小被限制在10-50PB,最多能支持文献数量大概为1.5亿左右。事实上,有顾客抱怨其集群NameNode重启需要数小时,这大大减少了系统可用性。随着Hadoop被广泛使用,面对各式各样需求,人们盼望Hadoop能提供更多特性,例如完全可读写文献系统、Snapshot、Mirror等等。这些都是当前版本Hadoop不支持,但是顾客又有强烈需求。3.3.4. 重要商业性“大数据”解决方案“大数据”被科技公司看作是云计算之后另一种巨大商机,涉及IBM、google、亚马逊和微软在内一大批知名公司纷纷掘金这一市场。此外,诸多初创公司也开始加入到大数据淘金队伍中。Hadoo

43、p是非构造数据库代表,低成本、高扩展性和灵活性等优势使其成为各种面向大数据解决分析商业服务方案首选。Oracle、IBM、Microsoft三大商业数据提供商是Hadoop重要支持者。诸多知名公司都以Hadoop技术为基本提供自己商业性大数据解决方案。这一某些重要简介以Hadoop为基本典型商业性大数据解决方案。3.3.2.5. IBM InfoSphere大数据分析平台I B M于2 0 1 1 年5 月推出InfoSphere大数据分析平台是一款定位为公司级大数据分析产品。该产品涉及BigInsight s和Streams,两者互补,Biglnsights基于Hadoop,对大规模静态数据

44、进行分析,它提供多节点分布式计算,可以随时增长节点,提高数据解决能力。St reams采用内存计算方式分析实时数据。它们将涉及HadoopMapReduce在内开源技术紧密地与IBM系统集成起来。研究Hadoop这样开源技术人诸多,但是IBM这次是真正将其变成了公司级应用,针对不同人员增长不同价值。InfoSphereBigInsight s 1.3存储和运算框架采用了开源Ha d o o pMa pRe d u c e,同步针对Ha d o o p 框架进行了改造,采用了IBM特有通用并行文献系统GPFS。运用GPFS目是为了避免单点故障,保证可用性。BigInsights中尚有两个分析产品

45、Cognos和SPSS,这两个分析产品在老式功能上加强了文本分析功能,提供了一系列文本分析工具,并使用高档语言进行自定义规则,如文本格式转换等。当前BigInsights提供两种版本,一种是公司版(Enterprise Edition),用于公司级大数据分析解决方案。另一种是基本版(Basic Edition),去掉了公司版中大某些功能,顾客可以免费下载,重要提供应开发人员和合伙伙伴试用。St r e ams 最大特点就是内存分析,运用多节点PC服务器内存来解决大批量数据分析祈求。St reams特点就是“小快灵”,数据是实时流动,其分析反映速度可以控制在毫秒级别,而BigInsights分析

46、是批解决,反映速度无法同St reams相比。总体来说,两者设计架构不同,也用于解决不同大数据分析需求,并可以形成良好互补。InfoSphere平台仅仅是IBM大数据解决方案中一某些。IBM大数据平台涉及4大某些:信息整合与治理组件、基于开源Apache Hadoop框架而实现Bi g I n s i g h t s 平台、加速器,以及包括可视化与发现、应用程序开发、系统管理上层应用。通过IBM解决方案可以看出,解决大数据问题不能仅仅依托Hadoop。3.3.2.6. Or a c l e Bi g Da t aAppliancOracle Big Data Appliance精确地说是一款硬件产品,添加了Hadoop装载器、应用适配器以及Or acle新NoSQL数据库,重要目是为了将非构造化数据加载到关系型数据库中去,并对软硬件集成做了某些优化。Oracle BigData机涉及开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、OracleHa d o o p 装载器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虚拟机。它可以迅速、便捷地与Oracle数据库11

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服