电力大数据处理、存储与分析调研报告.docx

资源描述

!编号：SY-.. !密级：受控Sieyuan 电力大数据处理、存储与分析的调研报告编制：审核: 思源电气股份有限公司SIEYUAN ELECTRIC CO., LTD. 2015年12月传统数据大数据千兆字节-百万兆字节拍字节(PB)-艾字节(EB) 集中式分布式结构化半结构化和无结构化稳定的数据模型平面模式已知的复杂的内部关系不复杂的内部关系从时间或成本效益上看，传统的数据仓库等数据管理工具都无法实现大数据的处理和分析工作。也就是说，必须将数据组织成关系表(整齐的行和列数据)，传统的企业级数据仓库才可以处理。由于需要的时间和人力成本，对海量的非结构化数据应用这种结构是不切实际的。此外，扩展传统的企业级数据仓库使其适应潜在的PB级数据需要在新的专用硬件上投资巨额资金。而由于数据加载这一个瓶颈，传统数据仓库性能也会受到影响。 (1ZB=1O24EB , 1EB = 1024PB, 1PB = 1024TB , 1TB = 1024GB)3.2、Hadoop大数据新方法在Hadoop出现之前，高性能计算和网格计算一直是处理大数据问题主要的使用方法和工具，它们主要采用消息传递接口(Message Passing Interface, MPI)提供的API来处理大数据。高性能计算的思想是将计算作业分散到集群机器上，集群计算节点访问存储区域网络 SAN构成的共享文件系统获取数据，这种设计比较适合计算密集型作业。当需要访问像PB 级别的数据的时候，由于存储设备网络带宽的限制，很多集群计算节点只能空闲等待数据。而Hadoop却不存在这种问题，由于Hadoop使用专门为分布式计算设计的文件系统HDFS, 计算的时候只需要将计算代码推送到存储节点上，即可在存储节点上完成数据本地化计算， Hadoop中的集群存储节点也是计算节点。在分布式编程方面，MPI是属于比较底层的开发库，它赋予了程序员极大的控制能力，但是却要程序员自己控制程序的执行流程，容错功能, 甚至底层的套接字通信、数据分析算法等底层细节都需要白己编程实现。这种要求无疑对开发分布式程序的程序员提出了较高的要求。相反，Hadoop的M叩Reduce却是一个高度抽象的并行编程模型，它将分布式并行编程抽象为两个原语操作，即m叩操作和reduce操作，开发人员只需要简单地实现相应的接口即可，完全不用考虑底层数据流、容错、程序的并行执行等细节。这种设计无疑大大降低了开发分布式并行程序的难度。 Hadoop得以在大数据处理应用中广泛应用得益「其自身在数据提取、变形和加载(ETL) 方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL (Exiract-Transform-Load )这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。 3.3、大规模并行分析数据库不同于传统的数据仓库，大规模并行分析数据库能够以必需的最小的数据建模,快速获取大量的结构化数据，可以向外扩展以容纳TB甚至PB级数据。对最终用户而言最重要的是，大规模并行分析数据库支持近乎实时的复杂SQL查询结果，也叫交互式查询功能，而这正是Hadoop显著缺失的能力。大规模并行分析数据库在某些情况下支持近实时的大数据应用。大规模并行分析数据库的基本特性包括：大规模并行处理的能力：就像其名字表明的一样，大规模并行分析数据库采用大规模并行处理同时支持多台机器上的数据采集、处理和查询。相对传统的数据仓库具有更快的性能，传统数据仓库运行在单一机器上，会受到数据采集这个单一瓶颈点的限制。无共享架构：无共享架构可确保分析数据库环境中没有单点故障。在这种架构下，每个节点独立于其他节点，所以如果一台机器出现故障，其他机器可以继续运行。对大规模并行处理环境而言，这点尤其重要，数百台计算机并行处理数据，偶尔出现一台或多台机器失败是不可避免的。列存储结构：大多数大规模并行分析数据库采用列存储结构，而大多数关系型数据库以行结构存储和处理数据。在列存储环境中，由包含必要数据的列决定查询语句的“答案"，而不是由整行的数据决定，从而导致查询结果瞬间可以得出。这也意味着数据不需要像传统的关系数据库那样构造成整齐的表格。强大的数据压缩功能：它们允许分析数据库收集和存储更大量的数据，而旦与传统数据库相比占用更少的硬件资源。例如，具有10比1的压缩功能的数据库，可以将10 TB字节的数据压缩到1 TB。数据编码（包括数据压缩以及相关的技术）是有效的扩展到海量数据的关键。商用硬件：像Hadoop集群一样，大多数（肯定不是全部）大规模并行分析数据库运行在戴尔、IBM等厂商现成的商用硬件上，这使他们能够以具有成本效益的方式向外扩展。在内存中进行数据处理：有些（肯定不是全部）大规模并行分析数据库使用动态RAM 或闪存进行实时数据处理。有些（如SAPHANA）完全在内存中运行数据，而其他则采用混合的方式，即用较便宜但低性能的磁盘内存处理''冷"数据，用动态RAM或闪存处理“热”数据。然而，大规模并行分析数据库确实有一些盲点。最值得注意的是，他们并非被设计用来存储、处理和分析大量的半结构化和非结构化数据。 3.4、大数据方法的互补 Hadoop, NoSQL和大规模并行分析数据库不是相互排斥的。相反的这三种方法是互补的，彼此可以而且应该共存于许多企业。Hadoop擅长处理和分析大量分布式的非结构化数据，以分批的方式进行历史分析。NoSQL数据库擅长为基于Web的大数据应用程序提供近实时地多结构化数据存储和处理。而大规模并行分析数据库最擅氏对大容量的主流结构化数据提供接近实时的分析。例如，Hadoop完成的历史分析可以移植到分析数据库供进一步分析，或者与传统的企业数据仓库的结构化数据进行集成。从大数据分析得到的见解可以而且应该通过大数据应用实现产品化。企业的目标应该是实现一个灵活的大数据架构，在该架构中，三种技术可以尽可能无缝地共享数据和见解。很多预建的连接器可以帮助Hadoop开发者和管理员实现这种数据集成，同时也有很多厂商提供大数据应用。这些大数据应用将Hadoop、分析数据库和预配置的硬件进行捆绑，可以达到以最小的调整实现快速部署的目的。另外•种情况，Hadapt提供了 •个单-平台，这个平台在相同的集群上同时提供sql和Hadoop/MapRcducc的处理功能。Cloudcra也在 Impala和Hortonworks项目上通过开源倡议推行这一策略。但是，为了充分利用大数据，企业必须采取进一步措施。也就是说，他们必须使用高级分析技术处理数据，并以此得出有意义的见解。数据科学家通过屈指可数的语言或方法执行这项复杂的工作。分析的结果可以通过工具可视化，也可以通过大数据应用程序进行操作，这些大数据应用程序包括自己开发的应用程序和现成的应用程序。 3.5、大数据使用案例让Hadoop和其他大数据技术如此引人注目的部分原因是，他们让企业找到问题的答案, 而在此之前他们甚至不知道问题是什么。这可能会产生引出新产品的想法，或者帮助确定改善运营效率的方法。不过，也有一些已经明确的大数据用例，无论是互联网巨头如谷歌， Facebook和阿里巴巴还是更多的传统企业。它们包括：推荐引擎：网络资源和在线零售商使用Hadoop根据用户的个人资料和行为数据匹配和推荐用户、产品和服务。Linkedln使用此方法增强其“你可能认识的人''这一功能，而亚马逊利用该方法为网上消费者推荐相关产品。情感分析：Hadoop与先进的文本分析工具结合，分析社会化媒体和社交网络发布的非结构化的文本，包括Tweets和Facebook,以确定用户对特定公司，品牌或产品的情绪。分析既可以专注于宏观层面的情绪，也可以细分到个人用户的情绪。风险建模：财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据，以确定金融资产的风险，模拟市场行为为潜在的“假设''方案做准备，并根据风险为潜在客户打分。欺诈检测：金融公司、零侈商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如，信用卡公司使用大数据技术识别可能的被盗卡的交易行为。营销活动分析：各行业的营销部门长期使用技术手段监测和确定营销活动的有效性。大数据让营销团队拥有更大量的越来越精细的数据，如点击流数据和呼叫详情记录数据，以提高分析的准确性。客户流失分析：企业使用Hadoop和大数据技术分析客广行为数据并确定分析模型，该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。社交图谱分析：Hadoop和下一代数据仓库相结合，通过挖掘社交网络数据，可以确定社交网络中哪些客户对其他客户产生最大的影响力。这有助于企业确定其“最重要”的客户，不总是那些购买最多产品或花最多钱的，而是那些最能够影响他人购买行为的客户。用户体验分析：面向消费者的企业使用Hadoop和其他大数据技术将之前单一客尸互动渠道（如呼叫中心，网上聊天，微博等）数据整合在一起，，以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响，从而优化整个客户生命周期的用户体验。网络监控：Hadoop和其他大数据技术被用来获取，分析和显示来自服务器，存储设备和其他IT硬件的数据，使管理员能够监视网络活动，诊断瓶颈等问题。这种类型的分析，也可应用到交通网络，以提高燃料效率，当然也可以应用到其他网络。研究与发展：有些企业(如制药商)使用Hadoop技术进行大量文本及历史数据的研究，以协助新产品的开发。当然，上述这些都只是大数据用例的举例。事实上，在所有企业中大数据最引人注目的用例可能尚未被发现。这就是大数据的希望。 4、展望电力大数据时代4.1 >电力大数据价值分析电力系统作为经济发展和人类生活依赖的能量供给系统，也具有大数据的典型特征。电力系统是最复杂的人造系统之一，其具有地理位置分布广泛、发电用电实时平衡、传输能量数量庞大、电能传输光速可达、通讯调度高度可靠、实时运行从不停止、重大故障瞬间扩大等特点，这些特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富，完全符合大数据的所有特征，是典型的大数据,在智能电网深入推进的形势下，电力系统的数字化、信息化、智能化不断发展，带来了更多的数据源，例如智能电表从数以亿计的家庭和企业终端带来的数据，电力设备状态监测系统从数以万计的发电机、变压器、开关设备、架空线路、高压电缆等设备中获取的高速增长的监测数据，光伏和风电功率预测所需的大量的历史运行数据、气象观测数据等。因此在电力系统数据爆炸式增长的新形势下，传统的数据处理技术遇到瓶颈，不能满足电力行业从海量数据中快速获取知识与信息的分析需求，电力大数据技木的应用是电力行业信息化、智能化发展的必然要求。中国电机工程学会信息化专委会在2013年3月发布了《中国电力大数据发展白皮书》, 将2013年定为“中国大数据元年”，掀起了电力大数据的研究热潮。根据白皮书描述，电力大数据的特征可概括为3V和3E。3V为体量大(Volume)>速度快(Velocity)和类型多 (Variety) ； 3E为数据即能量(Energy)、数据即交互(Exchange)和数据即共情(Empathy)<> 其3V的描述和其他行业的描述比较接近，3E的描述具有典型的电力行业特征，体现了大数据在电力系统应用中的巨大价值。数据即能量简而言之，就是指通过大数据分析达到节能的目的，电力大数据应用的过程，就是电力数据能量释放的过程；数据即交互是指电力大数据与国民经济其他领域数据进行交互融合，才能发挥其更大价值；数据即共情是指电力大数据紧密联系千家万户、厂矿企业，只有情系用电户，满足客户需求，电力企业方能以数据取胜。电力大数据贯穿发、输、变、配、用等电力生产及管理的各个环节，是能源变革中电力工业技术革新的必然过程，不仅是技术上的进步，更是涉及电力系统管理体制、发展理念和技术路线等方面的重大变革，是下一代电力系统在大数据时代下价值形态的跃升。对建设坚强智能电网而言，亟需开展大数据相关技术研究，为电力大数据时代的到来奠定理论基础和技术积累。 4.2、电力大数据应用前景发电环节输电环节变电环节薄弱点 .能源结构以火电为主 .可再生能源井网有待力破 .可持续性发屣思路有侍加强 .电源结构需进一步优化调整 .线路运行推护与装备管理较为粗放 .线路迎检、评估诊断和辅助决策的技术手段和模型不够完善 .纹路运行态势、弋象与环境监测面不够 .变电自动化系统信息共享程度有待健高、效能综合利用还有提升空间 .设备智育毗巡检模式有待改进、加快计划检修向智能化状态检修的过渡 .一次装备的智能水平有待提高大数据应用前景 .进一步深化推广风电和太阳能等新能源发电功能预测和运行智能控fM技术 .提升新能源接入和分布式储能的科学合理利用 .减少能重损失，优化发电侧运行效率，解决能源利用率低的问题 •开展分析评估诊断与决策技术研究，实现谕电侧态势评估的实时化和智能化 .结合外部数据.开展谕电侧设施智能防灾研究，实现线路问题元器件的快速恢复，提高输电的自愈能力 .提升变电站的智能化管理水平，通过全网、全区域实时信息共享和分析实现变电侧的实时控制和智能调节，实现变电设备信息和运行推护策略与电力遍度的智慧互动配电环节用电环节祯度环节薄弱点 .在基于配网自动化的智能配电方面建设己经开展、在横向集成方面工作开屣迅速，但智能化程度尚待进一步提高 .配电网命僵流、信息流和业务流的双向互动和高度整舍有待加强 .用电环节己基本实现番肖信息化、初步完成横向集成和纵向贯通、但数据共享机制尚未完全建立 .企业同外部的信息策成共享和交互机制尚待进一为加强 .电㈣高度技术水平、如电网在线安全分析、控制序段需要进一埸完善提高 .对大容量凤光储等新能源、间敬性电源的预测和调控^力有待加强大数据应用前景 .实现对用户负荷和用电情况的深入了解.提高对客户用电需求和负荷模式的认知水平 .优化配网蛆划供电计划，提高配网监测、保护和控制水平，提高配㈣事故的响应程序. 优化配网运行管理水平，提升供电可靠率 .建立面向经营与管理的科学会肖决策支拜平台，实现市场运营、营销及客户服务、设备全寿命殉期管理等各类主题的分析及预测，提高营销阪务的绦合分析预测能力 .实现容户用电管理优化、用能实时分析和预测等高级应用，提供用电培值服务 .建设以欺据驱动的智能高度体系，实现运行信息全景化、数据传输网塔化、安全评估动态化、调度决策精细化、运行控制自动化、机网协调最优化 .提升调度驾驭电网能力、黄海优化配置能力、科学决策管理能力和灵活高效迎控粉 •数据质量较低，数据管控能力不强。 •数据共享不畅，数据集成程度不够。 •防御能力不足，信息安全面临挑战。 •承载能力不足，基础设施函待完善。 ♦ •相关人才欠缺，专业人员供应不足。 5、迈向电力大数据时代5.1、电力大数据关健技术 •数据分析技术 •数据管理技术 •数据处理技术 •数据展现技术 •策划先行、加快示范 •数据质量、行业共享 •人才培养、生态建设 •智慧电力、智慧城市6、电力大数据实践 6.1 ＞实时海量数据是坚强智能电网的重要资产信息化支捧信息化支捧 _强三优两个瞧坚强智能电网；关键需求i [-安全接入! i•海员存储i i •实时监研 \ -智龄析i ;规需求i ;・标频范i I •皱 1 I •集约管控[ | •智瞅策I -r 平台决策保障 I 6.2、对实时数据的接入、存储与处理、监测与智能分析海量瞬 •信息网络覆盖范围，支持智能传感器、智能表计等设备接入 •多渠道互动用户入口 •信息双向交互的安全晰能力 •海量实时的曜分析能力 •电网状态、设备状态、用电信息采集等海量信息的存储能力经营管理的公司f化数据模型，统一管 •资产运彳亍绩效的实时监测和分析能力 •电网的动态运行监测、智能报警、自动故障定位等能力 •用户用电行为、能效、电能质量等分析能力 •新能漏口分布式能源的并网控制能力 •电网调度和运行1幡的协同融合能力 •实时线损管理及实时费控能力•储能系统^控制能力 •需求侧管理和对用户员荷的控制能力6.3、电网实时数据调研现状（1）某省实时数据分布1（2）某省实时数据分布2 部门业务系统实时数据数据量频率调控中心 SCADA/EMS 电流、电压、功率、档位、频率、开关动作、SOE、保护事件、计算值、积分电量 132980点 1~3秒电能计量关口电量数据 2860个表计 15分钟生技（电科院）设备在线监测系统变压器监测SPTR、绝缘监测SINS、局放监测与诊断 SPDC、断路器SCBR、避雨器SLAR、环境监测SENV、绝缘气体监测SIMG、绝缘液体监测SIML等待调研 3秒覆冰检测系统平均温度CC）、温度（平）、湿度（%RH）、风速（m/s）、雨量（mm/h）、导线拉力（kg）、地线拉力（kg）、导线倾角（° ）、地线倾角（"）、导线覆冰厚度（mm）、地线覆冰厚度（mm） 12个检测点 5-15 分钟变氏器绝缘油在线监测氢气、一氧化碳、一氧化碳、甲烷、乙烯、乙块、乙烷、总炷、总可燃气体 350个检测点 11 变压器中性点直流分量监测系统变压器中性点宜流电流 347个检测点 3秒雷电定位系统电流、地点（经纬度） 18个检测点秒（3）某市实时数据分布部门业务系统实时数据数据量频率院质 |&勘电能质量监测系统频率、谐波电流、谐波电压等 180个采集点秒计量中心计量自动化系统冻结电量，实时电量，功率数据，电流数据，电压数据，报警数据四分线损统计数据主网3000个表计, 配网专变用户 266418表计，配网公变用户 192853表计，低压用户3221538 15分钟部门业务系统实时数据数据量频率系统运行部（调度） SCADA/EMS 电压，电流，开关位置，电网拓扑结构遥测：超过3万遥信：超过6万 1~3 秒 DMS 10kv出线到用户表计的电压、电流、开关位置等信息 1万个监测点遥测2.3万遥信2万多 15分钟计量中心计量自动化系统冻结电量，实时电量，功率数据，电流数据，电压数据，报警数据，四分线损统计数据专变1万多公变1万多小区集抄20多万 m钟 1、什么是大数据4 1.1、Volume （体积）4 1.2、Variety （多样）4 1.3、Velocity （效率）5 1.4、Veracity （价值）52、大数据关键技术5 2.1、大数据采集技术6 2.2、大数据预处理技术6 2.3、大数据存储及管理技术7 2.4、大数据分析及挖掘技术7 2.5、大数据展现与应用技术83、数据处理与分析8 3.1、传统方式9 3.2、Hadoop大数据新方法10 3.3、大规模并行分析数据库11 3.4、大数据方法的互补12 3.5、大数据使用案例134、展望电力大数据时代14 4.1、电力大数据价值分析14 4.2、电力大数据应用前景15 4.3、电力大数据发展与挑战165、迈向电力大数据时代16 5.1、电力大数据关健技术16 5.2、电力大数据发展策略176、电力大数据实践17 6.1、实时海量数据是坚强智能电网的重要资产17 6.2、对实时数据的接入、存储与处理、监测与智能分析18 6.3、电网实时数据调研现状18 6.4、大数据服务IT创新、提高生产效率207、大数据技术实现20 6.4、大数据服务IT创新、提高生产效率需求 •随者公司信息化水平的不断提高，主机、网络没备、应用软件数量不断增多，业务资源访问、操作量不断增加，急需建立一套统一的日志集中管理和审计系统，能够收集来 H企业和组织计算环境中各种设备和应用的安全日志，并进行存储、监控、分析、报警、响应和报告。) 目标 •基于HADOOP分布式存储和计算平台的开发及系统部署 •全面的日志采集及归一化处理功能开发及实施 •多维关联分析功能开发及实施价值 • IT服务创新，提高服务水平和生产效率 •大数据新技术的引入创新，团队大数据技术的使用和掌握 •探索大数据新模式，为深入挖掘数据价值铺垫 7、大数据技术实现 7.1、物理架构图府询客户港府询客户港 72、数据处理向大数据处理的过渡数据处理向大数据处理的过渡大数据技术固然诱人，但入企业的过程仍然需要适合企业的生长环！境，需要与企业已有的生态系统的方！方面面共同生存.因此，大数据之于' 企业而盲,在考虑业务需求的同时，对于数据安全、系统高可用性和容灾大数据技术固然诱人，但入企业的过程仍然需要适合企业的生长环！境，需要与企业已有的生态系统的方！方面面共同生存.因此，大数据之于' 企业而盲,在考虑业务需求的同时，对于数据安全、系统高可用性和容灾政械求酬常更要. Haaoop 流计算从发展检丹和支撑的数据扩展规模上看，传统培 MPP技术是数Jg处理向大数据处理的过渡性技术. 不笼有效的陵鲸醵求。大数据解决方案提供了释放应用灵活性所需要的底层平台和数据加工能力：流计算平台可以捕捉数据流、佛选内容并调用复杂的分布式事件计算，从而在最短的时间内把数据关联、分类晚换为有价值的信息. ＞用普通PC服务8S集群构建的分布式流计算平台,实现高性鼬高可靠性、高弹性; ＞易用性（便捷开发与灵活定制以及自动化运维）和即时就绪能力；＞可视化（流计百的可视化实时性往往与实肘性相关，决定了购术与传统的B【的可视化硝）通过WEB页面和网络就能进行HADOOP相关街件的部曾监控、配置和操作的自动化管理平台.提 !供了是能够实现如多种主流Linux操作系统的网络分 !发安装，基于Hadoop集群的快速部署、管理和监 !控，以及分布式的数据就绪及处理等等的组件.为 •企业中大敷据圈力及顼目的快速就络握供简单有效；的高性价比解决方黑 7.3、大数据核心技术一Hadoop Hadoop是基于Google有关大邮的i仑文实现的开源项目，最初的框架由Doug Cutting在2005年提出，目前是由Apache维护的开源项目。从初创到现压，Hadoop体系任7年中开发完成了一系列蜜要的子项目. 已经形成了一涵盖数据存储、管理和分析功统的较为完整的大数据生态系统，成为大数据存潴与处理领［或地位最重要、应用最广泛的开源框架. 核心组件 EcosystemPiG Row) PiG Row) »WE <SQL bJitch) CHUKWA (Ditphyng. MonoonrgL09M SOOOP MapReduce ・Hadoop的分布式并行处理枢架 -实现对HDFS上海域数据的批量分析 MAP REDUCE (Q schedjtng Raw poces&itvg. HBAS£ (Rea g Qe - Structured HD€8 ledoop 二0tnbu!ed F妃 Sya>E ・Hadoop的一个分布式文件系统 •高容Ml性，部署在低摩商业硬件 HDFS Hadoop是运行在大昂通用计算单位上提供海吊数据存储与并行计算的平台框架 □基于x86集群水平可扩展 □基于MapReduce99井行计算能力 O设计规模:PB农的敬.数+台计算节点阿用最广注的大数据柩架 facebook —1-、/ E，淘宝网 n! 昱%亚斓 g 5 === = amazoncr 3心皿 Microsoft Appk 8、Hadoop介绍与案例分析 8.1、Hadoop 介绍 Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由雅虎的Doug Cutting创建，Hadoop的灵感来自于 MapReduce , MapReduce是谷歌在2000年代初期开发的用于网页索引的用户定义函数。它被设计用来处理分布在多个并行节点的PB 级和EB级数据。 Hadoop集群运行在廉价的商用硬件上，这样硬件扩展就不存在资金压力。Hadoop现在是Apache软件联盟（The Apache Software Foundation）的一个项目，数百名贡献者不断改进其核心技术。基本概念：与将海量数据限定在一台机器运行的方式不同，Hadoop将大数据分成多个部分，这样每个部分都可以被同时处理和分析。 8.2、Hadoop核心技术 Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和 MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。 8.2.1、HDFS HDFS （Hadoop Distributed File System, Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有若超大数据集（large data set）的应用程序。 HDFS的设计特点：（1）、大数据文件，非常适合上T级别的大文件或者一堆大数据文件的存储，如果文件只有几个G甚至更小就没啥意思了。（2）、文件分块存储，HDFS会将一个完整的大文件平均分块存储到不同计算器上，它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多得都。（3）、流式数据访问，一次写入多次读写，这种模式跟传统文件不同，它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。（4）、廉价硬件，HDFS可以应用在普通PC机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。 (5) 、硬件故障，HDFS认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件。 HDFS关键元素： Hadoop 使用主/从(Master/Slave)架构，主要角色有 NameNode, Da(aNode> Secondary NameNode, JobTracker, TaskTracker 组成。 NameNode节点作为Master服务器，有三部分功能。第一：处理来自客户端的文件访问。第二：管理文件系统的命名空间操作，如'打开’关闭，、’重命名'等。第三：负责数据块到数据节点之间的映射。从这个意义上说，它扮演中心服务器的角色。 DataNode节点作为Slave服务器，同样有三部分功能。第一：管理挂载在节点上的存储设备。第二：响应客户端的读写请求。第三：从内部看，每个文件被分成一个或多个数据块, 被存放到一组DataNode,在Namenode的统一调度下进行数据块的创建、删除和复制。 (1) NameNode NameNode是HDFS的守护程序，是Hadoop中的主服务器，它管理文件系统名称空间和对集群中存储的文件的访问 (2) DataNode 集群中每个从服务器都运行一个DataNode后台程序，后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时，由NameNode告诉客户端去哪个DataNode进行具体的读写操作。 (3) Block 将一个文件进行分块，通常是64M (4) Secondary NameNode Secondary NameNode是一个用来监控HDFS状态的辅助后台程序，如果NameNode发生问题，可以使用Secondary NameNode作为备用的NameNode0 (5) JobTracker JobTracker后台程序用来连接应用程序与Hadoop,用户应用提交到集群后，由JobTracker 决定哪个文件处理哪个task执行，一旦某个task失败，JobTracker会自动开启这个task。 (6) TaskTracker TaskTrackcr负责存储数据的DataNodc相结合，位于从节点，负责各自的task。 emp Component Model / 在Hadoop的系统中，会有一台Master,主要负责NameNode的匚作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave, 每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。 8.2.2、MapReduce MapReduce 介绍： M叩Reduce是一种编程模型，用于大规模数据集的并行运算。MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下，将自己的程序运行在分布式系统上。 MapReduce的命名规则由两个术语组成，分别是Map（映射）与Reduce（化简），是它们的主要思想，都是从函数式编程语言里借来的。当前的软件实现是指定••个Map （映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce （化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。 MapReduce处理过程：（1）I叩ut输入从文件中读取原始数据原始数据 vlnputKey, Input Value〉（2）Map映射将原始数据映射成用于Reduce的数据 vlnpulKey, InpulValue> List«MapKey, MapValue» （3）Reduce 合并将相同Key值的中间数据合并成最终数据 <MapKey, List<M叩Value>> <OutputKey, OutputValue> （4）Output 输出将最终处理结果输出到文件 <OutputKcy, OutputValuc> 结果文件上述就是MapReduce大致处理过程，在Map前还可能会对输入的数据有Split（分割）的过程，保证任务并行效率，在Map之后还会有Shuffle（混合）的过程，对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。 (l> foil (I)fork .. fl) f<vk Input files Intermediate files (on local disks) Output files user Program Reduce phase MapReduce简单案例1：通俗说MapReduce是•套从海量-源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是 MapReduce 做的事了。下面以一个计算海量数据最大值为例：一个银行有上亿储户，银行希望找到存储金额最高的金额是多少，按照传统的计算方式，我们会这样： Java代码: Long moneys(l ... Long max = OL; fbr(int i=0;i<moneys.length;i++){ if(inoneyslij>max){ max = moneys[ij; } I 如果计算的数组长度少的话，这样实现是不会有问题的，还是面对海量数据的时候就会有问题。 MapReduce会这样做：首先数字是分布存储在不同块中的，以某几个块为一个Map,计算出M叩中最大的值，然后将每个M叩中的最大值做Reduce操作，Reduce再取最大值给用户。 Map 1000 Map 50 985 216 500 222 MapReduce的基本原理就是：将大的数据分析分成小块逐个分析，最后再将提取出来的数据汇总分析，最终获得我们想要的内容。当然怎么分块分析，怎么做Reduce操作非常复杂，Hadoop已经提供了数据分析的实现，我们只需要编写简单的需求命令即可达成我们想要的数据。 MapReduce简单案例2：（1）从理论部分来进行讲解MapReduce下面是一个关于一个程序员是如何给妻子讲解什么是MapReduce. 我问妻子：“你真的想要弄懂什么是MapReduce? ”她很坚定的回答说“是的"。因此我问道：我：你是如何准备洋葱辣椒酱的？（以下并非准确食谱，请勿在家尝试）妻子：我会取•个洋葱，把它切碎，然后拌入盐和水，最后放进混合研磨机里研磨.这样就能得到洋葱辣椒酱了。妻子：但这和MapReduce有什么关系？我：你等一下。让我来编一个完整的情节，这样你肯定可以在15分钟内弄® MapReduce 我：现在，假设你想用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱。你会怎么做呢？妻子：我会取薄荷叶一撮，洋葱一个，番茄一个，辣椒一根，大蒜一根，切碎后加入适量的盐和水，再放入混合研磨机里研磨，这样你就可以得到一瓶混合辣椒酱了。我：没错，让我们把MapReduce的概念应用到食谱上。Map和Reduce其实是两种操作，我来给你详细讲解下。 Map（映射）：把洋葱、番茄、辣椒和大蒜切碎，是各自作用在这些物体上的一个Map操作. 所以你给Map-个洋葱，Map就会把洋葱切碎.同样的，你把辣椒，大蒜和番茄一一地拿给Map,你也会得到各种碎块。所以，当你在切像洋葱这样的蔬菜时，你执行就是一个 Map操作。Map操作适用于每•种蔬菜，它会相应地生产出•种或多种碎块，在我们的例子中生产的是蔬菜块.在Map操作中可能会出现有个洋葱坏掉了的情况，你只要把坏洋葱丢了就行了。所以，如果出现坏洋葱了，Map操作就会过滤掉坏洋葱而不会生产出任何的坏洋葱块. Reduce （化简）：在这一阶段，你将各种蔬菜碎都放入研磨机里进行研磨，你就可以得到一瓶辣椒酱J'。这意味要制成一瓶辣椒酱，你得研磨所有的原料。因此，研磨机通常将map 操作的蔬菜碎聚集在了一起。妻子：所以，这就是MapReduce? 我：你可以说是，也可以说不是。其实这只是MapRcduce的一部分，MapReduce的强大在于分布式计算. 妻子：分布式计算？那是什么？请给我解释下吧. 我：没问题。我：假设你参加了一个辣椒酱比赛并且你的食谱赢得了最佳辣椒酱奖。得奖之后，辣椒酱食谱大受欢迎，于是你想要开始出售自制品牌的辣椒酱。假设你每天需要生产10000瓶辣椒酱，你会怎么办呢？妻子：我会找一个能为我大量提供原料的供应商。我：是的..就是那样的。那你能否独自完成制作呢？也就是说，独自将原料都切碎？仅仅一部研

展开阅读全文