资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,Hadoop,架构介绍,1,2025/3/28 周五,背景:云时代的变革,2,2025/3/28 周五,应用的挑战,海量数据,3,2025/3/28 周五,应用的挑战,成本,4,2025/3/28 周五,应用的挑战,变化的业务需求,5,2025/3/28 周五,分布式解决方案?,6,2025/3/28 周五,变革,分布式编程已成为必备的技能,编程的对象:单机,vs,集群?,全新的系统栈,存储,调度,计算,7,2025/3/28 周五,目标,结束本次讲座时,你可以,熟悉分布式系统、,Hadoop,的背景知识,理解,MapReduce,编程模型,使用,Hadoop,8,2025/3/28 周五,Aganda,简介,MapReduce,编程模型,Hadoop,Hive,9,2025/3/28 周五,简介,大规模计算面临的挑战,数据量,成本,变化,通用性,互联网应用的特性,分析型业务为主,异构环境,10,2025/3/28 周五,简介,MapReduce,:一种通用解决方案,11,2025/3/28 周五,简介,Hadoop,:山寨,MapReduce,中的强者,衍生项目,12,2025/3/28 周五,简介,业界动态:加快部署!,淘宝应用现状,云梯,13,2025/3/28 周五,简介,总结,14,2025/3/28 周五,MapReduce,编程模型,A game,15,2025/3/28 周五,MapReduce,编程模型,MapReduce,语言学,Map,:映射,空间变换,Reduce,:汇总,规约,16,2025/3/28 周五,MapReduce,编程模型,中间数据结构:,对,map(in_key,in_value)-list(out_key,intermediate_value),reduce(out_key,list(intermediate_value)-list(out_value),设计,MapReduce,算法的核心概念,17,2025/3/28 周五,MapReduce,编程模型,并行能力,子任务间并行,18,2025/3/28 周五,MapReduce,编程模型,并行能力,Map,、,Reduce,任务间并行,19,2025/3/28 周五,MapReduce,编程模型,并行能力,作业间并行,20,2025/3/28 周五,MapReduce,编程模型,范例练习,web,点击日志统计:,PV/UV,词频统计,海量数据排序,表,Join,思考题:,MapReduce,的数据偏斜问题,21,2025/3/28 周五,MapReduce,编程模型,总结,22,2025/3/28 周五,Hadoop,开源分布式系统实现,子项目(模块),core,mapreduce,hdfs,hive,avro,23,2025/3/28 周五,Hadoop,背景,Google,发表有关,MapReduce,论文,Doug Cutting,以及,Nutch,的,MapReduce,实现,24,2025/3/28 周五,Hadoop,背景,Yahoo,使用,Hadoop,Hadoop,成为,Apache TLP,淘宝?,25,2025/3/28 周五,Hadoop HDFS,分布式文件系统,设计原则,硬件错误是常态而不是异常,流式数据访问,大规模数据集,简单的一致性模型,“移动计算比移动数据更划算”,异构软硬件平台间的可移植性,26,2025/3/28 周五,Hadoop HDFS,HDFS,特性,大容量,高容错性,高吞吐量,HDFS,数据模型,包,块,文件,27,2025/3/28 周五,Hadoop HDFS,28,2025/3/28 周五,Hadoop HDFS,练习,1,:使用,Hadoop HDFS,习题,1,:基本操作,上传文件到,HDFS,查看,/,设置文件的备份数,删除文件、文件夹,习题,2,:查看文件,查看文件状态,查看文件内容,习题,3,:使用,Java API,读取文件内容,29,2025/3/28 周五,Hadoop mapreduce,分布式计算框架,语言支持,Java,C+(through pipes),script languages(through streaming),30,2025/3/28 周五,Hadoop mapreduce,接口,mapper,reducer,combiner,partitioner,31,2025/3/28 周五,Hadoop mapreduce,调度模型,tasks,jobs,groups,32,2025/3/28 周五,Hadoop mapreduce,练习,2,:,maprduce,习题,1,:基本操作,运行示例代码,wordcount,查看任务结果,杀死任务,习题,2,:查看任务状态,命令行查看,web,页面查看,33,2025/3/28 周五,Hadoop mapreduce,练习,2,:,maprduce,习题,3,:阅读理解,wordcount,代码,习题,4,:编写,MapReduce,逻辑:分布式,Grep,习题,5,:编写,MapReduce,逻辑:,Join,34,2025/3/28 周五,Hive,MapReduce,的高级语言(类,SQL,)支持,Facebook,支持的开源软件,谁用谁知道,35,2025/3/28 周五,Hive,Hive,结构,36,2025/3/28 周五,Hive,Hive,语句一览,DDL,CREATE/DROP/ALTER TABLE,CREATE/DROP TEMPORARY FUNCTION,SHOW/DESCRIBE,DML,LOAD,INSERT,Query,JOIN,SORT/DISTRIBUTE/CLUSTER/GROUP BY,TRANSFORM,37,2025/3/28 周五,Hive,自定义逻辑,UDF,TRANSFORM,38,2025/3/28 周五,Hive,练习,3,:使用,Hive,习题,1,:建表,习题,2,:导入数据,习题,3,:查询,39,2025/3/28 周五,快要结束了,Q/A,40,2025/3/28 周五,Some advanced topics,41,2025/3/28 周五,Hadoop,HDFS,HDFS,不是,随机读写?,无限的存储空间?,标准,API,?,42,2025/3/28 周五,
展开阅读全文