大数据处理学习笔记2.2 搭建Spark开发环境

创始人

2025-05-31 05:28:44

文章目录

零、本节学习目标
一、准备工作
二、Spark的部署模式
- （一）Standalone模式
- （二）Mesos模式
- （三）Yarn模式
三、搭建Spark单机版环境
- （一）前提是安装配置好了JDK
- （二）下载、安装与配置Spark
- - 1、下载Spark安装包
  - 2、将Spark安装包上传到虚拟机
  - 3、将Spark安装包解压到指定目录
  - 4、配置Spark环境变量
- （三）使用Spark单机版环境
- - 1、使用SparkPi来计算Pi的值
  - 2、使用Scala版本Spark-Shell
  - 3、使用Python版本Spark-Shell
  - 4、初识弹性分布式数据集RDD
  - - 例1、创建一个RDD
    - 例2、调用转化操作filter()
    - 例3、调用行动操作first()
四、搭建Spark Standalone集群
- （一）Spark Standalone架构
- - 1、client提交方式
  - 2、cluster提交方式
- （二）Spark集群拓扑
- - 1、集群拓扑
  - 2、集群角色分配
- （三）前提条件：安装配置了分布式Hadoop环境
- （四）在master虚拟机上安装配置Spark
- - 1、将spark安装包上传到master虚拟机
  - 2、将spark安装包解压到指定目录
  - 3、配置spark环境变量
  - 4、编辑spark环境配置文件
  - 5、创建slaves文件，添加从节点
- （五）在slave1虚拟机上安装配置Spark
- - 1、把master虚拟机上安装的spark分发给slave1虚拟机
  - 2、将master虚拟机上环境变量配置文件分发到slave1虚拟机
  - 3、在slave1虚拟机上让spark环境配置文件生效
- （六）在slave2虚拟机上安装配置Spark
- - 1、把master虚拟机上安装的spark分发给slave2虚拟机
  - 2、将master虚拟机上环境变量配置文件分发到slave2虚拟机
  - 3、在slave2虚拟机上让spark环境配置文件生效
- （七）启动Spark Standalone集群
- - 1、启动hadoop的dfs服务
  - 2、启动Spark集群
- （八）访问Spark的WebUI
- （九）启动Scala版Spark Shell
- （十）提交Spark应用程序
- - 1、提交语法格式
  - 2、spark-submit常用参数
  - 3、案例演示 - 提交Spark自带的圆周率计算程序
  - - （1）Standalone模式，采用client提交方式
    - （2）Standalone模式，采用cluster提交方式
- （十一）停止Spark集群服务

零、本节学习目标

Spark开发环境需要准备什么
了解Spark的三种部署方式
搭建Spark Standalone集群
搭建Spark on Yarn集群
搭建Spark HA集群

一、准备工作

由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。
安装Spark集群前，需要安装Hadoop环境

软件	版本
Linux系统	CentOS7.9版本
Hadoop	3.3.4版本
JDK	1.8版本 (jdk8u231)
Spark	3.3.2版本

二、Spark的部署模式

（一）Standalone模式

Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。

（二）Mesos模式

Mesos模式被称为Spark on Mesos模式。Mesos是一款资源调度管理系统，为Spark提供服务，由于Spark与Mesos存在密切的关系，因此在设计Spark框架时充分考虑到对Mesos的集成。

（三）Yarn模式

Yarn模式被称为Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务。由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以提高资源利用率。

三、搭建Spark单机版环境

（一）前提是安装配置好了JDK

查看JDK版本

（二）下载、安装与配置Spark

1、下载Spark安装包

官网下载页面：https://spark.apache.org/downloads.html
下载链接：https://www.apache.org/dyn/closer.lua/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
下载到本地

2、将Spark安装包上传到虚拟机

将Spark安装包上传到ied虚拟机/opt目录

3、将Spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local
查看解压之后的spark目录

4、配置Spark环境变量

执行vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出，执行命令：source /etc/profile，让环境配置生效

（三）使用Spark单机版环境

1、使用SparkPi来计算Pi的值

执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）
查看计算结果：Pi is roughly 3.1412357061785308

2、使用Scala版本Spark-Shell

执行spark-shell命令，启动Scala版的Spark-Shell
注意：Spark 3.3.2使用的Scala版本其实是2.12.15
利用print函数输出了一条信息
计算1 + 2 + 3 + …… + 100
输出字符直角三角形
打印九九表
执行:quit命令，退出Spark Shell交互式环境

3、使用Python版本Spark-Shell

执行pyspark命令启动Python版的Spark-Shell
执行命令：yum -y install python3
执行命令：pyspark
输出一条信息，进行加法运算，然后退出交互式环境

4、初识弹性分布式数据集RDD

Spark 中的RDD (Resilient Distributed Dataset) 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序里分发驱动器程序中的对象集合（比如list 和set）。
在/home目录下创建test.txt文件

例1、创建一个RDD

在pyspark命令行，执行命令：lines = sc.textFile('test.txt')
创建出来后，RDD 支持两种类型的操作：转化操作（transformation）和行动操作（action）。转化操作会由一个RDD 生成一个新的RDD。另一方面，行动操作会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如HDFS）中。

例2、调用转化操作filter()

执行命令：sparkLines = lines.filter(lambda line: 'spark' in line)

例3、调用行动操作first()

执行命令：sparkLines.first()
转化操作和行动操作的区别在于Spark 计算RDD 的方式不同。虽然你可以在任何时候定义新的RDD，但Spark 只会惰性计算这些RDD。它们只有第一次在一个行动操作中用到时，才会真正计算。这种策略刚开始看起来可能会显得有些奇怪，不过在大数据领域是很有道理的。比如，看看例2 和例3，我们以一个文本文件定义了数据，然后把其中包含spark的行筛选出来。如果Spark 在我们运行lines = sc.textFile(...) 时就把文件中所有的行都读取并存储起来，就会消耗很多存储空间，而我们马上就要筛选掉其中的很多数据。相反，一旦Spark 了解了完整的转化操作链之后，它就可以只计算求结果时真正需要的数据。事实上，在行动操作first() 中，Spark 只需要扫描文件直到找到第一个匹配的行为止，而不需要读取整个文件。
如果要显示全部包含spark的行，执行命令：sparkLines.collect()
同样的任务，在Scala的Spark Shell里完成

四、搭建Spark Standalone集群

（一）Spark Standalone架构

Spark Standalone模式为经典的Master/Slave（主/从）架构，资源调度是Spark自己实现的。在Standalone模式中，根据应用程序提交的方式不同，Driver（主控进程）在集群中的位置也有所不同。应用程序的提交方式主要有两种：client和cluster，默认是client。可以在向Spark集群提交应用程序时使用--deploy-mode参数指定提交方式。

1、client提交方式

当提交方式为client时，运行架构如下图所示
集群的主节点称为Master节点，在集群启动时会在主节点启动一个名为Master的守护进程，类似YARN集群的ResourceManager；从节点称为Worker节点，在集群启动时会在各个从节点上启动一个名为Worker的守护进程，类似YARN集群的NodeManager。
Spark在执行应用程序的过程中会启动Driver和Executor两种JVM进程。
Driver为主控进程，负责执行应用程序的main()方法，创建SparkContext对象（负责与Spark集群进行交互），提交Spark作业，并将作业转化为Task（一个作业由多个Task任务组成），然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。在上图的架构中，Spark会在客户端启动一个名为SparkSubmit的进程，Driver程序则运行于该进程。
Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。每个应用程序都有各自独立的一个或多个Executor进程。在Spark Standalone模式和Spark on YARN模式中，Executor进程的名称为CoarseGrainedExecutorBackend，类似运行MapReduce程序所产生的YarnChild进程，并且同时与Worker、Driver都有通信。

2、cluster提交方式

当提交方式为cluster时，运行架构如下图所示
Standalone cluster提交方式提交应用程序后，客户端仍然会产生一个名为SparkSubmit的进程，但是该进程会在应用程序提交给集群之后就立即退出。当应用程序运行时，Master会在集群中选择一个Worker进程启动一个名为DriverWrapper的子进程，该子进程即为Driver进程，所起的作用相当于YARN集群的ApplicationMaster角色，类似MapReduce程序运行时所产生的MRAppMaster进程。

（二）Spark集群拓扑

1、集群拓扑

一个主节点，两个从节点

2、集群角色分配

Spark Standalone模式的集群搭建需要在集群的每个节点都安装Spark，集群角色分配如下表所示。

节点	角色
master	Master
slave1	Worker
slave2	Worker

（三）前提条件：安装配置了分布式Hadoop环境

启动hadoop集群
访问Hadoop Web界面

（四）在master虚拟机上安装配置Spark

1、将spark安装包上传到master虚拟机

进入/opt目录，查看上传的spark安装包

2、将spark安装包解压到指定目录

执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local

3、配置spark环境变量

执行命令：vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出后，执行命令：source /etc/profile，让配置生效
查看spark安装目录（bin、sbin和conf三个目录很重要）

4、编辑spark环境配置文件

进入spark配置目录后，执行命令：cp spark-env.sh.template spark-env.sh与vim spark-env.sh
添加三行语句

export JAVA_HOME=/usr/local/jdk1.8.0_231
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

JAVA_HOME：指定JAVA_HOME的路径。若集群中每个节点在/etc/profile文件中都配置了JAVA_HOME，则该选项可以省略，Spark集群启动时会自动读取。为了防止出错，建议此处将该选项配置上。
SPARK_MASTER_HOST：指定集群主节点（master）的主机名，此处为master。
SPARK_MASTER_PORT：指定Master节点的访问端口，默认为7077。
存盘退出，执行命令：source spark-env.sh，让配置生效

5、创建slaves文件，添加从节点

执行命令：vim slaves，添加两个从节点主机名

（五）在slave1虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave1虚拟机

执行命令：scp -r $SPARK_HOME root@slave1:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave1:/etc/profile
在slave1虚拟机上，执行命令：source /etc/profile，让环境配置生效

3、在slave1虚拟机上让spark环境配置文件生效

在slave1虚拟机上，进入spark配置目录，执行命令：source spark-env.sh

（六）在slave2虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave2虚拟机

执行命令：scp -r $SPARK_HOME root@slave2:$SPARK_HOME

2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

在master虚拟机上，执行命令：scp /etc/profile root@slave2:/etc/profile
在slave2虚拟机上，执行命令：source /etc/profile，让环境配置生效

3、在slave2虚拟机上让spark环境配置文件生效

在slave2虚拟机上，进入spark配置目录，执行命令：source spark-env.sh

（七）启动Spark Standalone集群

Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。启动Spark Standalone集群，不需要启动YARN服务，因为Spark会使用自带的资源调度框架。

1、启动hadoop的dfs服务

在master虚拟机上执行命令：start-dfs.sh

2、启动Spark集群

执行命令：start-all.sh
查看start-all.sh的源码启动Master与Worker的命令

# Start Master
"${SPARK_HOME}/sbin"/start-master.sh
# Start Worker
s"${SPARK_HOME}/sbin"/start-slaves.sh

可以看到，当执行start-all.sh命令时，会分别执行start-master.sh命令启动Master，执行start-slaves.sh命令启动Worker。
注意，若spark-evn.sh中配置了SPARK_MASTER_HOST属性，则必须在该属性指定的主机上启动Spark集群，否则会启动不成功；若没有配置SPARK_MASTER_HOST属性，则可以在任意节点上启动Spark集群，当前执行启动命令的节点即为Master节点。
启动完毕后，分别在各节点执行jps命令，查看启动的进程。若在master节点存在Master进程，slave1节点存在Worker进程，slave2节点存在Worker进程，则说明集群启动成功。
查看master节点进程
查看slave1节点进程
查看slave2节点进程

（八）访问Spark的WebUI

在浏览器里访问http://master:8080

（九）启动Scala版Spark Shell

执行命令：spark-shell --master spark://master:7077
在/opt目录里执行命令：vim test.txt
在HDFS上创建park目录，将test.txt上传到HDFS的/park目录
在其它虚拟机上也可以查看到该文件
读取HDFS上的文件，创建RDD，执行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")
收集rdd的数据，执行命令：rdd.collect
进行词频统计，按单词个数降序排列，执行命令：val wordcount = rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false)与wordcount.collect.foreach(println)

（十）提交Spark应用程序

1、提交语法格式

Spark提供了一个客户端应用程序提交工具spark-submit，使用该工具可以将编写好的Spark应用程序提交到Spark集群。
spark-submit的使用格式如下：$ bin/spark-submit [options] [app options]
options表示传递给spark-submit的控制参数；
app jar表示提交的程序JAR包（或Python脚本文件）所在位置；
app options表示jar程序需要传递的参数，例如main()方法中需要传递的参数。

2、spark-submit常用参数

除了–master参数外，spark-submit还提供了一些控制资源使用和运行时环境的参数。

3、案例演示 - 提交Spark自带的圆周率计算程序

（1）Standalone模式，采用client提交方式

执行下述命令，将Spark自带的求圆周率的程序提交到集群

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://master:7077 \
./examples/jars/spark-examples_2.11-2.1.1.jar

查看运行结果
上述命令中的–master参数指定了Master节点的连接地址。该参数根据不同的Spark集群模式，其取值也有所不同，常用取值如下表所示。

取值	描述
spark://host:port	Standalone模式下的Master节点的连接地址，默认端口为7077
yarn	连接到YARN集群。若YARN中没有指定ResourceManager的启动地址，则需要在ResourceManager所在的节点上进行应用程序的提交，否则将因找不到ResourceManager而提交失败
local	运行本地模式，使用1个CPU核心
local [N]	运行本地模式，使用N个CPU核心。例如，local[2]表示使用两个CPU核心运行程序
local[*]	运行本地模式，尽可能使用最多的CPU核心

若不添加–master参数，则默认使用本地模式local[*]运行。

（2）Standalone模式，采用cluster提交方式

在Standalone模式下，将Spark自带的圆周率计算程序提交到集群，并且设置Driver进程使用内存为512MB，每个Executor进程使用内存为1GB，每个Executor进程所使用的CPU核心数为2，提交方式为cluster（Driver进程运行在集群的工作节点中），执行命令如下：

bin/spark-submit \
--master spark://master:7077 \
--deploy-mode cluster \
--class org.apache.spark.examples.SparkPi \
--driver-memory 512m \
--executor-memory 1g \
--executor-cores 2 \
./examples/jars/spark-examples_2.11-2.1.1.jar

运行会有警告信息
在Spark WebUI界面上查看运行结果，访问http://master:8080
单击圈红的Worder超链接
单击stdout超链接

（十一）停止Spark集群服务

在master节点执行命令：stop-all.sh

上一篇：今日资讯.山西大唐麻将到底是不是挂.辅助神器下载!

下一篇：一分钟了解「永盈棋牌」万能辅助挂

大数据处理学习笔记2.2 搭建Spark开发环境

文章目录

零、本节学习目标

一、准备工作

二、Spark的部署模式

（一）Standalone模式

（二）Mesos模式

（三）Yarn模式

三、搭建Spark单机版环境

（一）前提是安装配置好了JDK

（二）下载、安装与配置Spark

1、下载Spark安装包

2、将Spark安装包上传到虚拟机

3、将Spark安装包解压到指定目录

4、配置Spark环境变量

（三）使用Spark单机版环境

1、使用SparkPi来计算Pi的值

2、使用Scala版本Spark-Shell

3、使用Python版本Spark-Shell

4、初识弹性分布式数据集RDD

例1、创建一个RDD

例2、调用转化操作filter()

例3、调用行动操作first()

四、搭建Spark Standalone集群

（一）Spark Standalone架构

1、client提交方式

2、cluster提交方式

（二）Spark集群拓扑

1、集群拓扑

2、集群角色分配

（三）前提条件：安装配置了分布式Hadoop环境

（四）在master虚拟机上安装配置Spark

1、将spark安装包上传到master虚拟机

2、将spark安装包解压到指定目录

3、配置spark环境变量

4、编辑spark环境配置文件

5、创建slaves文件，添加从节点

（五）在slave1虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave1虚拟机

2、将master虚拟机上环境变量配置文件分发到slave1虚拟机

3、在slave1虚拟机上让spark环境配置文件生效

（六）在slave2虚拟机上安装配置Spark

1、把master虚拟机上安装的spark分发给slave2虚拟机

2、将master虚拟机上环境变量配置文件分发到slave2虚拟机

3、在slave2虚拟机上让spark环境配置文件生效

（七）启动Spark Standalone集群

1、启动hadoop的dfs服务

2、启动Spark集群

（八）访问Spark的WebUI

（九）启动Scala版Spark Shell

（十）提交Spark应用程序

1、提交语法格式

2、spark-submit常用参数

3、案例演示 - 提交Spark自带的圆周率计算程序

（1）Standalone模式，采用client提交方式

（2）Standalone模式，采用cluster提交方式

（十一）停止Spark集群服务

相关内容

热门资讯