你正在下载：《

windows下非submit-方式运行spark-on-yarn(CDH集群).doc

》 [预览]

格式：DOC ，页数：20 ，大小：1.49MB ,
资源ID：4744241 下载积分：5 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/4744241.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（windows下非submit-方式运行spark-on-yarn(CDH集群).doc）为本站上传会员【二***】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

windows下非submit-方式运行spark-on-yarn(CDH集群).doc

1、word完整版)windows下非submit 方式运行spark on yarn(CDH集群) windows 下运行spark on yarn （非submit方式) 本地环境本地操作系统： windows 10. 1709 教育版本地hadoop版本:hadoop-2。6。5 本地winutils版本:hadoop2。6.4-2。6。7 本地spark版本： spark—2.2.0—bin-hadoop2.6 本地scala版本：scala-2。11。11 本地java版本：jdk-1.8。0_151 本地IDEA版本：idea 2017。01 远端环境

2、集群操作系统： ubuntu-14。04-server版集群hadoop版本: cloudera—cdh—5.13.0 集群spark 版本: SPARK2-2。2。0.cloudera1—1.cdh5.12.0。p0。142354 集群scala版本: cloudera cdh 5。13 自带spark1。6 (scala运行环境scala-2.9。2) spark2.2默认是用scala—2.11.8编译集群java版本:jdk-1。8。0_151 资源下载地址 hadoop—2。6。5 http://mirrors.tuna.tsinghua。 spark—2.

3、2。0 http：//mirrors.tuna.tsinghua。edu。cn/apache/spark/spark-2.2。0/spark—2.2。0—bin-hadoop2。6.tgz scala—2.11.11 https：//downloads。 winutils https：//github。com/steveloughran/winutils java spark2-csd http://archive.cloudera。com/spark2/csd/SPARK2_ON_YARN—2。2。0。cloudera1.jar 安装步骤 cdh5.13安装

4、该安装步骤不是本文重点，详细方法见文档ubuntu 14.04 搭建cloudera CDH。docx idea 安装该安装步骤自行百度即可 cdh中安装spark 2。2.0 由于cdh集成的spark依然是spark1。6,需要在集群中添加csd，然后安装spark 2 1. 将csd文件下载并放到cloudera manager 节点的 /opt/cloudera/csd/目录下此处需要将SPARK2_ON_YARN-2.2。0。cloudera1.jar 的用户的组修改为cloudera—scm：cloudera-scm 2。重启 cloudera-scm

5、—server 服务 service cloudera-scm—server restart 在cloudera manager 的主机->parcel下可找到spark2 分配激活,并在集群中添加服务即可配置系统环境变量安装好scala和java后，分别配置JAVA_HOME和SCALA_HOME 同样,下载好hadoop和spark后配置SPARK_HOME和HADOOP_HOME。并在path变量中添加％JAVA_HOME%\bin %SCALA_HOME％\bin %HADOOP_HOME％\bin %SPARK_HOME％\bin 此外需要将wi

6、nutils工具bin目录下的文件全部拷贝到％HADOOP_HOME％\bin中去（重复的文件忽略) 配置IDEA和MAVEN 配置maven的源,将maven的源修改为aliyun 我们看到,IDEA内建的meven是3.3.9 它默认使用的配置文件是在windows的当前用户的。m2目录下,我们修改setting.xml 在mirrors节添加mirror IDEA配置支持scala File-〉Settings—>Plugins->搜索scala 安装即可，重启idea生效新建scala工程

7、在pom。xml中修改scala的版本，并enable auto import 删除 junit 〈artifactId>junit 〈/dependency> 〈dependency> org.specsspecs〈/artifactId〉〈version>1.2

8、5〈/version〉〈scope>test＄｛scala。version}〈/scalaVersion〉〈args〉〈/configuration〉删除测试类在工程的src/main/路径下创建resources目录 File—〉Project

9、Structure 1。添加scala类库设置resources目录为资源目录将cdh5.13 的5个配置文件拷贝放进resources目录拷贝 core-site.xml,hdfs—site.xml,mapred-site。xml,yarn—site。xml到resources目录拷贝 hive—site.xml 到resources目录 (若使用hbase，同理）添加cloudera cdh maven支持〈repository〉

10、l〉https：//repository。cloudera。com/artifactory/cloudera-repos/ 在〈properties>节中添加如下〈properties〉 2。11.11 〈spark.version>2。2。0.cloudera1 〈hadoop.version〉2.6.0—cdh5。13.0〈/hadoop。version〉〈hbase.version>1。2。0—c

11、dh5.13.0 在〈dependencies>节中添加spark，hbase，cdh hadoop的依赖〈groupId〉org.apache.spark〈/groupId〉

12、spark〈/groupId〉〈artifactId>spark—core_2.11〈/artifactId〉 ${spark。version}〈/version〉〈/dependency> 〈version>$｛spark.version｝〈/version〉〈dependency〉〈groupI

13、d>org。apache。spark 〈artifactId〉spark-streaming_2.11〈/artifactId〉〈version>${spark。version｝〈/version> 〈/dependency> 〈artifactId>spark—mllib_2.11

14、ndency〉〈groupId>org。apache.spark spark—hive_2.11〈/artifactId> 〈version〉＄｛spark。version｝〈/version> 〈dependency> 〈version>＄{hbase.version｝

15、〈/dependency> 〈!-—cdh hadoop--> org.apache.hadoop 〈artifactId>hadoop-common〈/artifactId>

16、rsion〉＄{hadoop。version} 〈/dependency> org.apache.hadoop〈/groupId> ＄{hadoop.version} 此后会自动下载jar包，时间较长,耐性等待新建一个scala配置对象ConfigObj import org。apache.spark。SparkConf

17、 /*＊ * ConfigObj ＊ * @author longhao ＊＠date 2017/11/9 ＊ Email: longhao1@email。szu。edu。cn */ object ConfigObj { var sparkConf = new SparkConf() if (System。getProperty(”os。name”).startsWith（"win”) ｜｜ System.getProperty(”os。name”）.startsWith（”Win")) { sparkConf。s

18、etJars（List("E:\\java_workspace\\sparkdemo\\out\\artifacts\\sparkdemo_jar\\sparkdemo。jar”）) } sparkConf.set（"spark.yarn.jars"， ”local:/opt/cloudera/parcels/SPARK2/lib/spark2/jars/*"） .set（"spark.eventLog。enabled”， "true"） .set(”spark.eventLog。dir”, ”hdfs://hdfs—production/user/spar

19、k/spark2ApplicationHistory”) .set("spark.yarn。historyServer.address"， "http://Medusa001：18089”) 。set（"spark。executor.instances”， ”3") .set("spark.yarn.am.memory”， "1g”） .set（”spark。yarn.executor。memoryOverhead", ”2g”) .setMaster(”yarn") ｝ ConfigObj中配置 spark。yarn。jars 避免

20、每次运行都会将％SPARK_HOME％\jars下的jar包上传到集群。spark.eventLog.enabled 和spark.eventLog。dir以及spark.yarn。historyServer.address 配置后可以在集群history server中存储本地的job历史信息.这里的配置参考集群的/opt/cloudera/parcels/SPARK2/lib/spark2/conf下的spark-defaults.conf 如图: 新建测试代码 SparkPi import org。apache。spark.sql。SparkSession

21、 import scala.math.random /** ＊ SparkPi * ＊ @author longhao ＊ @date 2017/11/9 ＊ Email: longhao1＠ */ object SparkPi ｛ def main（args： Array［String]） { val spark = SparkSession 。builder .appName（"Spark Pi”) 。config(conf = ConfigObj。sparkConf）

22、。getOrCreate（） val slices = if (args.length 〉 0） args（0).toInt else 2 val n = math.min（100000L ＊ slices， Int。MaxValue)。toInt // avoid overflow val count = spark.sparkContext。parallelize（1 until n, slices)。map ｛ i => val x = random * 2 — 1 val y = random ＊ 2 - 1

23、 if （x ＊ x + y ＊ y <= 1） 1 else 0 }.reduce(_ + _） println（”Pi is roughly " + 4.0 * count / (n - 1）） spark。stop(）｝｝此时直接运行会报错与下面文件有关 /etc/hadoop/conf.cloudera.yarn/topology。py 修改core—site.xml文件找到net.topology.script.file。name屏蔽掉它的值结果如下；集群中的历史记录环境变量中也可以看到windows的路径