收藏 分销(赏)

Hadoop单节点和集群安装课件整本书电子教案全套教学教程.pptx

上传人:w****g 文档编号:10251485 上传时间:2025-04-30 格式:PPTX 页数:389 大小:6.53MB
下载 相关 举报
Hadoop单节点和集群安装课件整本书电子教案全套教学教程.pptx_第1页
第1页 / 共389页
Hadoop单节点和集群安装课件整本书电子教案全套教学教程.pptx_第2页
第2页 / 共389页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有:南京第五十五所计算开发有限公司,#,Hadoop,单节点,和集群安装,01,任务,Hadoop,系统架构,02,任务,Hadoop,单节点和集群安装,单元,1.4,Hadoop,单节点和集群安装,03,任务,Hadoop,简介,1,Hadoop,简介,1,Hadoop,简介,Hadoop,作为开源的云计算基础架构,由,Apache,基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。它实现了一个分布式文件系统(,Hadoop Distrubuted File System,,,HDFS,),,HDFS,具有高容错性的特点,并且设计用来部署在价格低廉的硬件上,为海量的数据提供了存储。它实现了,MapReduce,计算模式,为海量数据计算提供了支持。其下的,HBase,是一个基于列存储的,NoSQL,数据库,适合于非结构化数据的存储。,Hive,是,Hadoop,下的一个数据仓库,支持类似于,SQL,语句,操作起来非常简便。,2,Hadoop,系统架构,2,Hadoop,系统架构,Hadoop,核心,Hadoop,的核心是两个主要层次,即处理,/,计算层(,MapReduce,)和存储层(,Hadoop,分布式文件系统)。,2,Hadoop,系统架构,MapReduce,是一种并行编程模型,用于编写,Google,设计的分布式应用程序,以便以可靠,容错的方式在大型集群(数千个节点)的商用硬件上高效处理大量数据(多,TB,数据集)。,MapReduce,程序在,Hadoop,上运行,,Hadoop,是一个,Apache,开源框架。,2,Hadoop,系统架构,Hadoop,分布式文件系统(,HDFS,)基于,Google,文件系统(,GFS,),提供分布式文件系统,旨在在商用硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异很大。它具有高度容错性,旨在部署在低成本硬件上。它提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。,3,Hadoop,单节点和集群安装,3,Hadoop,单节点和集群安装,Hadoop,单节点安装,(,1,)下载,hadoop,压缩文件并上传解压到,centos,系统中去(这是下载的是,hadoop-2.7.5.tar.gz,)。,#cd/usr -,切换到,usr,目录下,#mkdir hadoop -,创建,hadoop,空目录,#tar-azxvf/root/hadoop-2.7.5.tar.gz-C/usr/hadoop -,解压到刚刚创建,hadoop,目录中去,3,Hadoop,单节点和集群安装,Hadoop,单节点安装,(,2,)配置相关信息,修改,hadoop-env.sh,文件,给其,jdk,的配置,,hadoop,依赖,jdk,。,#vim /usr/hadoop/hadoop-2.7.5/etc/hadoop/hadoop-env.sh -,编辑该文件,#export JAVA_HOME=$JAVA_HOME -,加入,jdk,环境变量 按,Esc,在按:,wq,即可修改保存退出,3,Hadoop,单节点和集群安装,Hadoop,单节点安装,(,3,)修改,core-site.xml,文件,(,4,)修改,hdfs-site.xml,文件,(,5,)修改,marped-site.xml,文件,(,6,)格式化,hadoop,的,HDFS,文件系统,在,hadoop,文件中输入,#bin/Hadoop NameNode format,(,7,)如果没有异常显示,及说明格式化成功,就可以启动,hadoop,了,启动,hadoop,:,#sbin/start-all.sh,(,8,)测试是否安装成功,输入:,#jps,3,Hadoop,单节点和集群安装,Hadoop,集群安装,通常,集群里的一台机器被指定为,NameNode,,另一台不同的机器被指定为,JobTracker,。这些机器是,masters,。余下的机器即作为,DataNode,也作为,TaskTracker,。这些机器是,slaves,。,Hadoop,集群具体来说包含两个集群:,HDFS,集群和,YARN,集群,两者逻辑上分离,但物理上常在一起。,3,Hadoop,单节点和集群安装,Hadoop,集群安装,本集群搭建案例,以,3,节点为例进行搭建,角色分配如下:,hdp-node-01 NameNode SecondaryNameNode ResourceManager,hdp-node-02 DataNode NodeManager,hdp-node-03 DataNode NodeManager,3,Hadoop,单节点和集群安装,Hadoop,集群安装,服务器准备,本案例使用虚拟机服务器来搭建,Hadoop,集群,所用软件及版本:,(,1,),Vmware 12.0,(,2,),Centos 6.6 64bit,3,Hadoop,单节点和集群安装,Hadoop,集群安装,网络环境准备,(,1,)采用,NAT,方式联网;,(,2,)网关地址:,192.168.33.1,;,(,3,),3,个服务器节点,IP,地址:,192.168.33.101,、,192.168.33.102,、,192.168.33.103,;,(,4,)子网掩码:,255.255.255.0,3,Hadoop,单节点和集群安装,Hadoop,集群安装,服务器系统设置,(,1,)添加,Hadoop,用户,(,2,)为,Hadoop,用户分配,sudoer,权限,(,3,)同步时间,(,4,)设置主机名:,A,:,hdp-node-01,B,:,hdp-node-02,C,:,hdp-node-03,3,Hadoop,单节点和集群安装,Hadoop,集群安装,服务器系统设置,(,1,)添加,Hadoop,用户,(,2,)为,Hadoop,用户分配,sudoer,权限,(,3,)同步时间,(,4,)设置主机名:,A,:,hdp-node-01,、,B,:,hdp-node-02,、,C,:,hdp-node-03,配置内网域名映射:,(,A,),192.168.33.101 hdp-node-01,、(,B,),192.168.33.102 hdp-node-02,、,(,C,),192.168.33.103 hdp-node-03,(,6,)配置,ssh,免密登陆,(,7,)配置防火墙,3,Hadoop,单节点和集群安装,Hadoop,集群安装,JDK,环境安装,(,1,)上传,jdk,安装包,(,2,)规划安装目录,/home/hadoop/apps/jdk_1.8.0,(,3,)解压安装包,(,4,)配置环境变量,/etc/profile,3,Hadoop,单节点和集群安装,Hadoop,集群安装,Hadoop,安装部署,(,1,)上传,HADOOP,安装包,(,2,)规划安装目录,/home/hadoop/apps/hadoop-2.6.5,(,3,)解压安装包,tar zxvf hadoop-2.6.5 C apps/,(,4,)修改配置文件,$HADOOP_HOME/etc/hadoop/,3,Hadoop,单节点和集群安装,Hadoop,集群安装,集群启动,(,1,)初始化,HDFS,bin/hadoop namenode -format,(,2,)启动,HDFS,sbin/start-dfs.sh,(,3,)启动,YARN,sbin/start-yarn.sh,(,4,)查看集群状态,jps,Thank,YOU!,Java,安装,01,任务,Java,与,Hadoop,的关系,02,任务,Java,安装,单元,1.3,Java,安装与环境变量的配置,03,任务,Java,简介,1,Java,简介,1,Java,简介,Java,历史,Java,的历史要追溯到,1991,年,当时美国,Sun Microsystems,公司的,Patrick Naughton,及其伙伴,James Gosling,带领的工程师小组想要设计一种小型的计算机语言,主要应用对象是像有线电转换盒这类的消费设备。由于这些消费设备的处理能力和内存都很有限,所以语言必须非常小且能够生成非常紧凑的代码。另外,由于不同的设备生厂商会选择不同的中央处理器(,CPU,),因此这种语言的关键是不能与任何特定的体系结构捆绑在一起。这个项目被命名为,Green,。,1,Java,简介,Java,语言特点,1.,简单性,Java,中没有指针、结构和类型定义等概念,没有,#include,和,#define,等预处理器,也没有多重继承的机制。,2,Java,简介,Java,语言特点,2.,面向对象性,Java,是一个纯粹的面向对象的语言,强调的是面向对象的特性,能够为软件工程技术提供很强的支持。,Java,语言的设计集中于对象及其接口,它提供了简单的类机制及动态的接口模型。与其他面向对象的语言一样,,Java,具备继承、封装及多态性这些通常的特性,更提供了一些类的原型,程序员可以通过继承机制,实现代码的复用。,2,Java,简介,Java,语言特点,3.,分布式与安全性,Java,语言包括一个支持,HTTP,和,FTP,等基于,TCP/IP,协议的子库,它提供一个,J,包,通过它可以完成各种层次上的网络连接。因此,Java,语言编写的应用程序可以凭借,URL,打开并访问网络上的对象,其访问方式与访问本地文件系统几乎完全相同。,Java,语言的另一个,Socket,类提供了可靠流式网络的连接,使程序设计者可以非常方便地创建分布式应用程序。,Java,程序在语言定义阶段、字节码检查阶段及程序执行阶段进行的三级代码安全检查机制,对参数类型匹配、对象访问权限,内存回收、,Java,小应用程序的正确使用等都进行了严格的检查和控制,可以有效地防止非法代码入侵,阻止对内存的越权访问,能够避免病毒的侵害。,2,Java,简介,Java,语言特点,4.,与平台无关性,Java,程序编译后生成二进制代码,即字节码(,bytecode,)。字节码就是虚拟机的机器指令,与平台无关。字节码有统一的格式,不依赖于具体的硬件环境。在任何安装,Java,运行时环境的系统上,都可以执行这些代码。,2,Java,简介,Java,语言特点,5.,解释和编译特性,Java,开发环境在,Java,源程序编译后生成一种称为字节代码(,bytecode,)的中间代码,字节代码非常类似于机器指令代码,但并不是二进制的机器指令代码,且字节代码不专对一种特定的机器,所以,Java,程序不需重新编译便可在众多不同的计算机上执行,只要该机器上预先安装有,Java,语言运行系统,这是其编译特性。,Java,程序编译后产生字节代码,其运行要借助于,Java,解释器,,Java,解释器直接对,Java,字节代码进行解释执行。,2,Java,简介,Java,语言特点,6.,多线程,多线程机制使应用程序能够并行执行,通过使用多线程,程序设计者可以分别用不同的线程完成特定的行为,而不需要采用全局的事件循环机制,这样就很容易实现网络上的实时交互行为和实时控制性能。,2,Java,与,Hadoop,的关系,2,Java,与,Hadoop,的关系,Hadoop,使用,Java,开发的,它运行时需要有一个,Java,环境,因此在安装运行,Hadoop,之前需要安装,JDK,。,JDK,是,Java,开发工具箱(,Java Development Kit,)的缩写。自从,Java,推出以来,,JDK,已经成为使用最广泛的,Java SDK,(,Software development kit,)。,JDK,是整个,Java,的核心,包括,Java,运行环境(,Java Runtime Envirnment,)一些,Java,工具和,Java,基础的类库(,rt.jar,)。不论什么,Java,应用服务器实质都是内置了某个版本的,JDK,。因此掌握,JDK,是运行,Java,应用的基础。最主流的,JDK,是,Sun,公司(现在已经被,Oracle,收购)发布的,JDK,,除了,Sun,之外,还有许多公司组织都开发了自己的,JDK,。,3,Java,安装与环境变量的配置,3,Java,安装与环境变量的配置,Java,安装与环境变量配置,第一步:检查系统是否有已经安装好的,jdk,。具体操作如下:,rpm-qa|grep jdk#,查看已安装的,jdk,如果系统已经安装,jdk,,则需要先卸载对应的,jdk,,命令如下:,rpm-e nodeps jdk-1.7.0_25-fcs.x86_64#,卸载对应的,jdk,3,Java,安装与环境变量的配置,Java,安装与环境变量配置,第二步:下载,JDK,访问官方网站,install jdk-8u211-Linux-x64.rpm,按照提示,按回车键,即可完成安装。,3,Java,安装与环境变量的配置,Java,安装与环境变量配置,第四步:配置,Java,环境,vim/etc/profile,在文件的最末尾加上如下信息:,export JAVA_HOME=/usr/java/jdk1.8.0_40,export PATH=$JAVA_HOME/bin:$PATH,export CLASSPATH=.:$JAVA_HOM/lib/dt.jar:$JAVA_HOME/lib/tools.jar,3,Java,安装与环境变量的配置,Java,安装与环境变量配置,第五步:使环境变量生效,输入以下命令,使环境变量生效:,source/etc/profile,第六步:测试,Java,是否安装成功,输入以下命令,测试,Java,是否安装成功:,java-version,Thank,YOU!,Linux,基础操作命令,01,任务,Linux,用户和用户组管理,02,任务,Linux,基础操作命令,单元,1.2,了解,Linux Shell,03,任务,Linux,文件和目录管理,Linux,基本命令练习,04,任务,1,Linux,文件和目录管理,1,Linux,文件和目录管理,Linux,文件层次结构,Linux,文件和目录组织树状图,在,Linux,操作系统中,所有的文件和目录都被组织成以一个根节点“,/”,开始的倒置的树状结构。,1,Linux,文件和目录管理,Linux,目录管理,在,Linux,系统中,一切都是文件,既然是文件,就必须要有文件名。同其他系统相比,,Linux,操作系统对文件或目录命名的要求相对比较轻松。,Linux,系统中,文件和目录的命名规则如下:,1.,除了字符“,/”,之外,所有的字符都可以使用,但是要注意,在目录名或文件名中,使用某些特殊字符并不是明智之举。,2.,目录名或文件名的长度不能超过,255,个字符。,3.,目录名或文件名是区分大小写的。如,pig,、,PIG,、,Pig,和,PIg,,是互不相同的目录名或文件名,但使用字符大小写来区分不同的文件或目录,也是不明智的。,4.,与,Windows,操作系统不同,文件的扩展名对,Linux,操作系统没有特殊的含义,换句话说,,Linux,系统并不以文件的扩展名开分区文件类型。,1,Linux,文件和目录管理,Linux,路径,在,Linux,系统中,文件是存放在目录中的,而目录又可以存放在其他的目录中,因此,用户(或程序)可以借助文件名和目录名,从文件树中的任何地方开始,搜寻并定位所需的目录或文件。,说明目录或文件名位置的方法有两种,分别使用绝对路径和相对路径。绝对路径指的是从根目录(,/,)开始写起的文件或目录名称,而相对路径则指的是相对于当前路径的写法。,简而言之,绝对路径必须以一个正斜线(,/,),也就是根目录开始,到查找对象(目录或文件)所必须经过的每个目录的名字,它是文件位置的完整路标,因此,在任何情况下都可以使用绝对路径找到所需的文件。,2,Linux,用户和用户组管理,2,Linux,用户和用户组管理,Linux,用户和用户组,1.CentOS,用户,在,CentOS,中 账户有两种类型分别是:,(,1,)系统账户:用于守护程序或者其他软件。,(,2,)交互式账户:通常分配给用户以访问系统资源。,两种用户类型之间的主要区别是:,(,1,)守护进程使用系统账户来访问文件和目录。这些通常不会通过,shell,或物理控制台登录进行交互式登录。,(,2,)最终用户使用交互式账户从,shell,或物理控制台登录访问计算资源。,2,Linux,用户和用户组管理,Linux,用户和用户组,2.,用户组,用户组是具有相同特征用户的逻辑集合。简单的理解,有时我们需要让多个用户具有相同的权限,比如查看、修改某一个文件的权限,一种方法是分别对多个用户进行文件访问授权,如果有,10,个用户的话,就需要授权,10,次,那如果有,100,、,1000,甚至更多的用户呢?显然,这种方法不太合理。最好的方式是建立一个组,让这个组具有查看、修改此文件的权限,然后将所有需要访问此文件的用户放入这个组中。那么,所有用户就具有了和组一样的权限,这就是用户组。,3,了解,Linux Shell,3,了解,Linux Shell,什么是,Shell,脚本,我们平时所说的,Shell,可以理解为,Linux,系统提供给用户的使用界面。,Shell,为用户提供了输入命令和参数并可得到命令执行结果的环境。当一个用户登录,Linux,之后,系统初始化程序,init,就根据,/etc/passwd,文件中的设定,为每个用户运行一个被称为,Shell,(外壳)的程序。确切地说,,Shell,是一个命令行解释器,它为用户提供了一个向,Linux,内核发送请求以便运行程序的界面系统级程序,用户可以用,Shell,来启动、挂起、停止甚至编写一些程序。,3,了解,Linux Shell,什么是,Shell,脚本,第一行:“,#,!,/bin/bash”,,这句话的作用是标称我以下写的脚本使用的是,Bash,语法,只要写的是基于,Bash,的,Shell,脚本都应该这样开头。,第二行:注释,在,Linux,中,以“,#”,开头的一般都是注释,除了“,#,!,/bin/bash”,这行外,其他行只要以,#,开头的都是注释。,第三行:程序的主体,既然,echo,命令可以直接打印,,那么将这句话放入,Shell,脚本中也是可以正确执行的,因为,Linux,的命令是可以直接在脚本中执行的。,4,Linux,基本命令练习,4,Linux,基本命令练习,命令的基本格式,rootsimple02#,命令,选项,参数,命令格式中的,代表可选项,也就是有些命令可以不写选项或参数,也能执行,4,Linux,基本命令练习,Linux,基础操作命令,(,1,),cd,命令,rootsimple02#cd,相对路径或绝对路径,cd,命令,是,Change Directory,的缩写,用来切换工作目录。,4,Linux,基本命令练习,Linux,基础操作命令,(,2,),pwd,命令,rootsimple02#pwd,pwd,命令,是,Print Working Directory,(打印工作目录)的缩写,功能是显示用户当前所处的工作目录。,4,Linux,基本命令练习,Linux,基础操作命令,(,3,),ls,命令,rootsimple02#,选项,目录名称,ls,命令,,list,的缩写,是最常见的目录操作命令,其主要功能是显示当前目录下的内容。,4,Linux,基本命令练习,Linux,基础操作命令,(,4,),mkdir,命令,rootsimple02#mkdir-mp,目录名,mkdir,命令,是,make directories,的缩写,用于创建新目录,此命令所有用户都可以使用。,4,Linux,基本命令练习,Linux,基础操作命令,(,5,),rmdir,命令,rootsimple02#rmdir-p,目录名,和,mkdir,命令(创建空目录)恰好相反,,rmdir,(,remove empty directories,的缩写)命令用于删除空目录。,4,Linux,基本命令练习,Linux,基础操作命令,(,6,),touch,命令,rootsimple02#,选项,文件名,既然知道了如何在,Linux,系统中创建目录,接下来你可能会想在这些目录中创建一些文件,可以使用,touch,命令。,4,Linux,基本命令练习,Linux,基础操作命令,(,7,),ln,命令,rootsimple02#ln,选项,源文件 目标文件,ln,命令用于给文件创建链接,根据,Linux,系统存储文件的特点,链接的方式分为两种,分别是:软连接和硬连接。,4,Linux,基本命令练习,Linux,基础操作命令,(,8,),cp,命令,rootsimple02#cp,选项,源文件 目标文件,cp,命令,主要用来复制文件和目录,同时借助某些选项,还可以实现复制整个目录,以及比对两文件的新旧而予以升级等功能。,4,Linux,基本命令练习,Linux,基础操作命令,(,9,),rm,命令,rootsimple02#rm,选项,文件或目录,rm,是强大的删除命令,它可以永久性地删除文件系统中指定的文件或目录。在使用,rm,命令删除文件或目录时,系统不会产生任何提示信息。,4,Linux,基本命令练习,Linux,基础操作命令,(,10,),mv,命令,rootsimple02#mv,选项,源文件 目标文件,mv,命令(,move,的缩写),既可以在不同的目录之间移动文件或目录,也可以对文件和目录进行重命名。,Thank,YOU!,安装,Linux,虚拟环境,01,任务,开源协议介绍,02,任务,安装,Linux,虚拟环境,单元,1,安装,Linux,操作系统,03,任务,Linux,系统介绍,1,Linux,系统介绍,1,Linux,系统介绍,什么是操作系统,操作系统(,Operating System,Os,)是软件的一部分,它是硬件基础上的第一层软件,是硬件和其它软件沟通的桥梁(或者说接口、中间人、中介等)。,操作系统会控制其他程序运行,管理系统资源,提供最基本的计算功能,如管理及配置内存、决定系统资源供需的优先次序等,同时还提供一些基本的服务程序。,1,Linux,系统介绍,什么是操作系统,计算机组成图,1,Linux,系统介绍,Linux,和,UNIX,的关系,(,1,),UNIX,系统大多是与硬件配套的,也就是说,大多数,UNIX,系统如,AIX,、,HP-UX,等是无法安装在,x86,服务器和个人计算机上的,而,Linux,则可以运行在多种硬件平台上;,(,2,),UNIX,是商业软件,而,Linux,是开源软件,是免费、公开源代码的。,1,Linux,系统介绍,Linux,和,UNIX,的关系,Linux,受广大用户喜爱的主要原因是:,(,1,)它属于开源软件,用户不用支付可费用就可以获得它和它的源代码,并且可以根据自己的需要对它进行必要的修改,无偿使用,无约束地继续传播;,(,2,)它具有,UNIX,的全部功能,任何使用,UNIX,操作系统或想要学习,UNIX,操作系统的人都可以从,Linux,中获益。,1,Linux,系统介绍,Linux,介绍,Linux,特点:,(,1,)兼容大量软件:,Linux,系统上有着大量的可用软件,且绝大多数是免费的,比如声名赫赫的,Apache,、,Samba,、,PHP,、,MySQL,等,构建成本低廉,是,Linux,被众多企业青睐的原因之一。当然,这和,Linux,出色的性能是分不开的,否则,节约成本就没有任何意义。,(,2,)良好的可移植性:,Linux,系统有良好的可移植性,它几乎支持所有的,CPU,平台,这使得它便于裁剪和定制。我们可以把,Linux,放在,U,盘、光盘等存储介质中,也可以在嵌入式领域广泛应用。,1,Linux,系统介绍,Linux,介绍,(,3,)优良的安全性和稳定性:,Linux,开放源代码,将所有代码放在网上,全世界的程序员都看得到,有什么缺陷和漏洞,很快就会被发现,从而成就了它的安全性和稳定性。,(,4,)支持所有的网络协议:前面在,UNIX,发展史中已经介绍了,,UNIX,系统是与,C,语言、,TCP/IP,协议一同发展起来的,而,Linux,是,UNIX,的一种,,C,语言又衍生出了现今主流的语言,PHP,、,Java,、,C+,等,而哪一个网络协议与,TCP/IP,无关呢?所以,,Linux,对网络协议和开发语言的支持很好。,2,开源协议介绍,2,开源协议介绍,开源软件,Linux,是一款开源软件,我们可以随意浏览和修改它的源代码,学习,Linux,,不得不谈到开源精神。,Linux,本身就是开源精神的受益者,它几乎是全球最大的开源软件。简单来说,开源软件就是把软件程序与源代码文件一起打包提供给用户,用户既可以不受限制地使用该软件的全部功能,也可以根据自己的需求修改源代码,甚至编制成衍生产品再次发布出去。,用户具有使用自由、修改自由、重新发布自由和创建衍生品自由,这正好符合了黑客和极客对自由的追求,因此开源软件在国内外都有着很高的人气,大家聚集在开源社区,共同推动开源软件的进步。,2,开源协议介绍,开源协议,(,1,),Apache,许可证版本(,Apache License Version,)协议。,Apache,和,BSD,类似,都适用于商业软件。,Apache,协议在为开发人员提供版权及专利许可的同时,允许用户拥有修改代码及再发布的自由。,现在热门的,Hadoop,、,Apache HTTP Server,、,MongoDB,等项目都是基于该许可协议研发的,程序开发人员在开发遵循该协议的软件时,要严格遵守下面的四个条件:,该软件及其衍生品必须继续使用,Apache,许可协议。,如果修改了程序源代码,需要在文档中进行声明。,若软件是基于他人的源代码编写而成的,则需要保留原始代码的协议、商标、专利声明及其他原作者声明的内容信息。,如果再发布的软件中有声明文件,则需在此文件中标注,Apache,许可协议及其他许可协议。,2,开源协议介绍,开源协议,(,2,),GNU GPL,(,GNU General Public License,,,GNU,通用公共许可证),只要软件中包含了遵循,GPL,协议的产品或代码,该软件就必须也遵循,GPL,许可协议,也就是必须开源免费,不能闭源收费,因此这个协议并不适合商用软件。遵循,GPL,协议的开源软件数量极其庞大,包括,Linux,系统在内的大多数的开源软件都是基于这个协议的。,2,开源协议介绍,开源协议,(,3,),BSD,(,Berkeley Software Distribution,,伯克利软件发布版)协议,BSD,协议基本上允许用户“为所欲为”,用户可以使用、修改和重新发布遵循该许可的软件,并且可以将软件作为商业软件发布和销售,前提是需要满足下面三个条件:,如果再发布的软件中包含源代码,则源代码必须继续遵循,BSD,许可协议。,如果再发布的软件中只有二进制程序,则需要在相关文档或版权文件中声明原始代码遵循了,BSD,协议。,不允许用原始软件的名字、作者名字或机构名称进行市场推广。,3,安装,Linux,操作系统,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,VMware,主界面图,(,1,)启动,VMware,,进入主界面。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,设置向导界面,(,2,)点击“创建新的虚拟机”,进入虚拟机设置向导界面,这里建议初学者选择“典型(推荐)”。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,安装操作系统,(,3,)点击“下一步”,进入“安装操作系统”界面,若初学者已提前准备好,Linux,系统的映像文件(,.iso,文件),此处可选择“安装程序光盘映像文件”,并通过“浏览”按钮找到要安装,Linux,系统的,iso,文件;否则选择“稍后安装操作系统”。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,选择操作系统,(,4,)点击“下一步”,进入“选择客户机操作系统”,选择“,Linux”,,并在“版本”下拉列表框中选择要安装的对应的,Linux,版本,这里选择“,CentOS 6”,。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,命名虚拟机,(,5,)继续“下一步”,进入“命名虚拟机”界面,给虚拟机起一个名字(如“,CentOS 64,位”),然后单击“浏览”按钮,选择虚拟机系统安装文件的保存位置。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,指定磁盘容量界面,(,6,)单击,下一步,按钮,进入,指定磁盘容量,界面。默认虚拟硬盘大小为,20GB,(虚拟硬盘会以文件形式存放在虚拟机系统安装目录中)。虚拟硬盘的空间可以根据需要调整大小,但不用担心其占用的空间,因为实际占用的空间还是以安装的系统大小而非此处划分的硬盘大小为依据的。此“指定磁盘容量”界面保持默认设置即可。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,准备创建虚拟机,(,7,)接下来进入“已准备好创建虚拟机”界面,确认虚拟机设置,不需改动则单击,完成,按钮,开始创建虚拟机。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,定制硬件,(,8,)这里,我们可以略做调整,单击,自定义硬件,按钮进入硬件调整界面。为了让虚拟机中的系统运行速度快一点,我们可以选择,内存,调整虚拟机内存大小,但是建议虚拟机内存不要超过宿主机内存的一半。,CentOS6.x,最少需要,628MB,及以上内存分配,否则会开启简易安装过程。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,光盘配置,(,9,)选择“新,CD/DVD(IDE)”,可以选择光驱配置。如果选择“使用物理驱动器”,则虚拟机会使用宿主机的物理光驱;如果选择“使用,ISO,映像文件”,则可以直接加载,ISO,映像文件,单击“浏览”按钮找到,ISO,映像文件位置即可。,3,安装,Linux,操作系统,VMware,安装,Linux,系统步骤:,网络适配器配置,(,10,)选择,网络适配器,将进入,VMware,新手设置中最难以理解的部分,设置网络类型。此设置较复杂,不过网络适配器配置在虚拟机系统安装完成后还可以再行修改。,Thank,YOU!,HDFS,读写过程,01,任务,HDFS,设计原则,02,任务,HDFS,读写过程,单元,2.1,HDFS,核心概念,03,任务,HDFS,文件系统简介,HDFS,的,HA,方案,04,任务,HDFS,的命令行接口,05,任务,HDFS,常用操作命令,06,任务,1,HDFS,文件系统简介,1,HDFS,文件系统简介,HDFS,总的设计思想是分而治之,即将大文件和大批量文件分布式存放在大量独立的服务器上,以便采取分而治之的方式对海量数据进行运算分析。,HDFS,是一个主,/,从体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行,CRUD,(,Create,、,Read,、,Update,和,Delete,)操作。但由于分布式存储的性质,,HDFS,集群拥有一个,NameNode,和一些,DataNode,。,NameNode,管理文件系统的元数据,,DataNode,存储实际的数据。,HDFS,主要针对“一次写入,多次读取”的应用场景,不适合实时交互性很强的应用场景,也不适合存储大量小文件。,1,HDFS,文件系统简介,HDFS,的功能:,(,1,)它适用于分布式存储和处理。,(,2,),Hadoop,提供了一个与,HDFS,交互的命令接口。,(,3,),namenode,和,datanode,的内置服务器可以帮助用户轻松检查集群的状态。,(,4,)流式访问文件系统数据。,(,5,),HDFS,提供文件权限和身份验证。,2,HDFS,设计原则,2,HDFS,设计原则,简单来说,,HDFS,的设计原则是,可以运行在普通机器上,以流式数据方式存储文件,一次写入、多次查询,具体有以下几点。,(,1,)可构建在廉价机器上:,HDFS,的设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用性。,(,2,)高容错性:由于,HDFS,需要建立在普通计算机上,所以结点故障是正常的事情。,HDFS,将数据自动保存多个副本,副本丢失后,自动恢复,从而实现数据的高容错性。,2,HDFS,设计原则,(,3,)适合批处理:,HDFS,适合一次写入、多次查询(读取)的情况。在数据集生成后,需要长时间在此数据集上进行各种分析。每次分析都将涉及该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。,(,4,)适合存储大文件:这里说的大文件包含两种意思:一是值文件大小超过,100MB,及达到,GB,甚至,TB,、,PB,级的文件,;,二是百万规模以上的文件数量。,3,HDFS,核心概念,3,HDFS,核心概念,1.Namenode,2.Namenode,容错机制,3.Datanode,介绍,4.Secondary NameNode,介绍,5.JobTracker,介绍,6.TaskTracker,介绍,4,HDFS,的,HA,方案,4,HDFS,的,HA,方案,主要是从使用者的角度出发,提高元数据的可靠性,减少,NameNode,服务恢复时间,措施主要是给元数据做备份,另外,HDFS,自身就有多种机制来确保元数据的可靠性,减少,NameNode,服务恢复时间的措施有两种思路:,(,1,)基于,NameNode,重启恢复模式,对,NameNode,自身启动过程进行分析,优化加载过程,减少启动时间。,(,2,)启动一个,NameNode,热备节点,当主节点不能正常提供服务,切换为热节点,切换时间成为恢复时间。,4,HDFS,的,HA,方案,(,1,),Hadoop,元数据备份,利用,Hadoop,自身元数据备份机制,,NameNode,可以将元数据保存到
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服