1、一、Spark相关依赖软件的下载(Spark 2.4.5、Scala 2.12、Java 8)更多版本介绍: http://spark.apache.org/docs/latest/
2、1、下载Spark官网下载: http://spark.apache.org/downloads.html
3、在“Choose a Spark release”下拉框可以选择最近的其他版本,在“Choose a package type”下拉框可以选择集成Hadoop,之后单击“Download Spark”后面的链接进入下载页面
4、选择下载镜像
5、2、下载Scala官网下载: https://www.scala-lang.org/download/找到‘previous releases’可以选择其他版本
6、我们选择Scala 2.12.11进入下载页面,在网页底端找到“Other resources”,因为这里以Ubuntu系统为例,选择tgz的压缩包类型,点击下载即可。游客也可以根据自己的情况来进行选择。
7、下载java 8进入JDK下载页面,下载Linux 64版本的文件下载,选择压缩包类型tar.gz
8、二、Spark环境的配置 (安装SSH、SSH免密码登录、修改访问权限、修改profile文件、修改Spark配置文件)
9、1、安装SSH,配置免密码登录参考我之前分享的经验:https://jingyan.baidu.com/article/8275fc86d5014607a03cf6b7.html
10、2、修改访问权限把上面下载的文件上传到Ubuntu使用解压tar命令tar -zxvf jdk1.8***tar -zxvf spark-2.4.5-***tar -zxvf Scala-2.***按照自己下载的版本,自行补全,或者用“tab”键补全
11、这里我把这些软件都放在/opt目录中sudo cp - R jdk1.8**** /optsudo cp - Rspark-2.4.5-*** /optsudo cp - RScala-2.*** /opt
12、修改/opt文件夹权限sudo chmod - R 777 /opt
13、3、环境配置java环境配置(自行补全jdk版本)export JAVA_HOME = /opt/jdk1.8.** export CLASS_PATH = /opt/jdk1.8.**/libexport PATH = $ PATH:$ JAVA_HOME/bin
14、Scala环境配置export SCALA_HOME = /opt/Scala-2.12.***export PATH = $ PATH:$ SCALA_HOME/bin
15、Spark环境配置export SPARK_HOME = /opt/spark-2.4.5***export PATH = $ PATH:$ SPARK_HOME/bin
16、配置完成后进行环境生效重启系统,或者执行source命令
17、4、修改Spark配置文件(1)复制摸板文件进入配置文件夹cd /opt/spark-2.3.5幻腾寂埒-****/conf #我已经把spark-2.4.5****重命名为spark,各位看需求自行操作,这里我就不演示cp spark-env.sh.template spark-env.sh cp log4j.properties.template log4j.propertiescp slaves.template slaves
18、(修改spark-env设置主节点和从节点的配置)export JAVA_HOME = /opt/jdk1.8.** #添加java位置export SCALA_HOME = /opt/Scala-2.12.*** #Scala位置export SPARK_MASTER_IP = SparkMaster #主节点地址exportSPARK_WORKER_MEMORY = 4g #节点内存大小exportSPARK_WORKER_CORES = 2 #核数exportSPARK_WORKER_INSTANCES = 1 #节点实例数
19、(修改slaves设置从节点地址)添加节点主机名称,默认为localhost看自己具体情况