# RDD创建

在Spark中创建RDD的创建方式可以分为四种

### 1. 从集合（内存）中创建RDD

从集合中创建 RDD，Spark 主要提供了两个方法：parallelize 和 makeRDD

```scala
val sparkConf =
new SparkConf().setMaster("local[*]").setAppName("spark")
val sparkContext = new SparkContext(sparkConf)
val rdd1 = sparkContext.parallelize(
  List(1,2,3,4)
)
val rdd2 = sparkContext.makeRDD(
  List(1,2,3,4)
)
rdd1.collect().foreach(println)
rdd2.collect().foreach(println)
sparkContext.stop()
```



从底层代码实现来讲，makeRDD 方法其实就是 parallelize 方法

```scala
def makeRDD[T: ClassTag](
 seq: Seq[T],
 numSlices: Int = defaultParallelism): RDD[T] = withScope {
 parallelize(seq, numSlices)
}
```

### 2. 从外部存储（文件）创建 RDD

由外部存储系统的数据集创建 RDD 包括：本地的文件系统，所有 Hadoop 支持的数据集， 比如 HDFS、HBase 等。

```scala
val sparkConf =
 new SparkConf().setMaster("local[*]").setAppName("spark")
val sparkContext = new SparkContext(sparkConf)
val fileRDD: RDD[String] = sparkContext.textFile("input")
fileRDD.collect().foreach(println)
sparkContext.stop()
```

### 3. 从其他 RDD 创建

主要是通过一个 RDD 运算完后，再产生新的 RDD。

### 4. 直接创建 RDD（new）

使用 new 的方式直接构造 RDD，一般由 Spark 框架自身使用。

# RDD并行度与分区

默认情况下，Spark 可以将一个作业切分多个任务后，发送给 Executor 节点并行计算，而能 够并行计算的任务数量我们称之为并行度。这个数量可以在构建 RDD 时指定。记住，这里 的并行执行的任务数量，并不是指的切分任务的数量，不要混淆了。

```scala
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")
val sparkContext = new SparkContext(sparkConf)
val dataRDD: RDD[Int] = sparkContext.makeRDD(List(1,2,3,4), 4)
val fileRDD: RDD[String] = sparkContext.textFile("input", 2)
fileRDD.collect().foreach(println)
sparkContext.stop()
```

- 读取内存数据时，数据可以按照并行度的设定进行数据的分区操作，数据分区规则的 Spark 核心源码如下：

```scala
def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = {
 (0 until numSlices).iterator.map { i =>
 val start = ((i * length) / numSlices).toInt
 val end = (((i + 1) * length) / numSlices).toInt
 (start, end)
 }
}
```

- 读取文件数据时，数据是按照 Hadoop 文件读取的规则进行切片分区，而切片规则和数 据读取的规则有些差异，具体 Spark 核心源码如下

```scala
public InputSplit[] getSplits(JobConf job, int numSplits)
 throws IOException {
 long totalSize = 0; // compute total size
 for (FileStatus file: files) { // check we have valid files
 if (file.isDirectory()) {
 throw new IOException("Not a file: "+ file.getPath());
 }
 totalSize += file.getLen();
 }
 long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
 long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
 FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

 ...

 for (FileStatus file: files) {

 ...

 if (isSplitable(fs, path)) {
 long blockSize = file.getBlockSize();
 long splitSize = computeSplitSize(goalSize, minSize, blockSize);
 ...
 }
 protected long computeSplitSize(long goalSize, long minSize,
 long blockSize) {
 return Math.max(minSize, Math.min(goalSize, blockSize));
 }
```

# RDD转换算子/RDD行动算子

转换算子：

| 名称 | 类型 | 函数签名 | 函数说明 | 示例 |
| --- | --- | --- | --- | --- |
| map | Value类型 | def map[U: ClassTag](f: T => U): RDD[U] | 将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。 | val dataRDD: RDD[Int] = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD1: RDD[Int] = dataRDD.map(
 num => {
 num * 2
 }
)
val dataRDD2: RDD[String] = dataRDD1.map(
 num => {
 "" + num
 }
) |
| mapPartitions | Value类型 | def mapPartitions[U: ClassTag](    f: Iterator[T] => Iterator[U],    preservesPartitioning: Boolean = false): RDD[U] | 将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据。 | val dataRDD1: RDD[Int] = dataRDD.mapPartitions(
 datas => {
 datas.filter(_==2)
 }
) |
| mapPartitionsWithIndex | Value类型 | def mapPartitionsWithIndex[U: ClassTag](
    f: (Int, Iterator[T]) => Iterator[U],
    preservesPartitioning: Boolean = false): RDD[U] | 将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据，在处理时同时可以获取当前分区索引。 | val dataRDD1 = dataRDD.mapPartitionsWithIndex(
 (index, datas) => {
 datas.map(index, _)
 }
) |
| flatMap | Value类型 | def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] | 将处理的数据进行扁平化后再进行映射处理，所以算子也称之为扁平映射 | val dataRDD = sparkContext.makeRDD(List(
 List(1,2),List(3,4)
),1)
val dataRDD1 = dataRDD.flatMap(
 list => list
) |
| glom | Value类型 | def glom(): RDD[Array[T]] | 将同一个分区的数据直接转换为相同类型的内存数组进行处理，分区不变 | val dataRDD = sparkContext.makeRDD(List(
 1,2,3,4
),1)
val dataRDD1:RDD[Array[Int]] = dataRDD.glom() |
| groupBy | Value类型 | def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] | 将数据根据指定的规则进行分组, 分区默认不变，但是数据会被打乱重新组合，我们将这样的操作称之为 shuffle。极限情况下，数据可能被分在同一个分区中一个组的数据在一个分区中，但是并不是说一个分区中只有一个组 | val dataRDD = sparkContext.makeRDD(List(1,2,3,4),1)
val dataRDD1 = dataRDD.groupBy(
 _%2
) |
| filter | Value类型 | def filter(f: T => Boolean): RDD[T] | 将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃.
当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出现数据倾斜。 | val dataRDD = sparkContext.makeRDD(List(
 1,2,3,4
),1)
val dataRDD1 = dataRDD.filter(_%2 == 0) |
| sample | Value类型 | def sample(    withReplacement: Boolean,    fraction: Double,    seed: Long = Utils.random.nextLong): RDD[T] | 根据指定的规则从数据集中抽取数据 | val dataRDD = sparkContext.makeRDD(List( 1,2,3,4 ),1)// 抽取数据不放回（伯努利算法）// 伯努利算法：又叫 0、1 分布。例如扔硬币，要么正面，要么反面。// 具体实现：根据种子和随机算法算出一个数和第二个参数设置几率比较，小于第二个参数要，大于不 要// 第一个参数：抽取的数据是否放回，false：不放回// 第二个参数：抽取的几率，范围在[0,1]之间,0：全不取；1：全取；// 第三个参数：随机数种子 val dataRDD1 = dataRDD.sample(false, 0.5)// 抽取数据放回（泊松算法）// 第一个参数：抽取的数据是否放回，true：放回；false：不放回// 第二个参数：重复数据的几率，范围大于等于 0.表示每一个元素被期望抽取到的次数// 第三个参数：随机数种子val dataRDD2 = dataRDD.sample(true, 2) |
| distinct | Value类型 | def distinct()(implicit ord: Ordering[T] = null): RDD[T]def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] | 将数据集中重复的数据去重 | val dataRDD = sparkContext.makeRDD(List(
 1,2,3,4,1,2
),1)
val dataRDD1 = dataRDD.distinct()
val dataRDD2 = dataRDD.distinct(2) |
| coalesce | Value类型 | def coalesce(numPartitions: Int, shuffle: Boolean = false,
    partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
    (implicit ord: Ordering[T] = null)
    : RDD[T] | 根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本 | val dataRDD = sparkContext.makeRDD(List( 1,2,3,4,1,2),2)val dataRDD1 = dataRDD.repartition(4) |
| sortBy | Value类型 | def sortBy[K](    f: (T) => K,    ascending: Boolean = true,    numPartitions: Int = this.partitions.length)    (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] | 该操作用于排序数据。在排序之前，可以将数据通过 f 函数进行处理，之后按照 f 函数处理的结果进行排序，默认为升序排列。排序后新产生的 RDD 的分区数与原 RDD 的分区数一致。中间存在 shuffle 的过程 | val dataRDD = sparkContext.makeRDD(List( 1,2,3,4,1,2),2)val dataRDD1 = dataRDD.sortBy(num=>num, false, 4) |
| intersection | 双Value类型 | def intersection(other: RDD[T]): RDD[T] | 对源 RDD 和参数 RDD 求交集后返回一个新的 RDD | val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))
val dataRDD = dataRDD1.intersection(dataRDD2) |
| union | 双Value类型 | def union(other: RDD[T]): RDD[T] | 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD | val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))val dataRDD = dataRDD1.union(dataRDD2) |
| subtract | 双Value类型 | def subtract(other: RDD[T]): RDD[T] | 以一个 RDD 元素为主，去除两个 RDD 中重复元素，将其他元素保留下来。求差集 | val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))val dataRDD = dataRDD1.subtract(dataRDD2) |
| zip | 双Value类型 | def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)] | 将两个 RDD 中的元素，以键值对的形式进行合并。其中，键值对中的 Key 为第 1 个 RDD中的元素，Value 为第 2 个 RDD 中的相同位置的元素。 | val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4))val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6))val dataRDD = dataRDD1.zip(dataRDD2) |
| partitionBy | Key-Value类型 | def partitionBy(partitioner: Partitioner): RDD[(K, V)] | 将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner | val rdd: RDD[(Int, String)] =sc.makeRDD(Array((1,"aaa"),(2,"bbb"),(3,"ccc")),3)import org.apache.spark.HashPartitionerval rdd2: RDD[(Int, String)] =rdd.partitionBy(new HashPartitioner(2)) |
| reduceByKey | Key-Value类型 | def reduceByKey(func: (V, V) => V): RDD[(K, V)]def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] | 可以将数据按照相同的 Key 对 Value 进行聚合 | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val dataRDD2 = dataRDD1.reduceByKey(_+_)val dataRDD3 = dataRDD1.reduceByKey(_+_, 2) |
| groupByKey | Key-Value类型 | def groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] | 将数据源的数据根据 key 对 value 进行分组 | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val dataRDD2 = dataRDD1.groupByKey()val dataRDD3 = dataRDD1.groupByKey(2)val dataRDD4 = dataRDD1.groupByKey(new HashPartitioner(2)) |
| aggregateByKey | Key-Value类型 | def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,    combOp: (U, U) => U): RDD[(K, U)] | 将数据根据不同的规则进行分区内计算和分区间计算 | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val dataRDD2 = dataRDD1.aggregateByKey(0)(_+_,_+_) |
| foldByKey | Key-Value类型 | def foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)] | 当分区内计算规则和分区间计算规则相同时，aggregateByKey 就可以简化为 foldByKey | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val dataRDD2 = dataRDD1.foldByKey(0)(_+_) |
| combineByKey | Key-Value类型 | def combineByKey[C](    createCombiner: V => C,    mergeValue: (C, V) => C,    mergeCombiners: (C, C) => C): RDD[(K, C)] | 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数（aggregation function）。类似于aggregate()，combineByKey()允许用户返回值的类型与输入不一致。 | val list: List[(String, Int)] = List(("a", 88), ("b", 95), ("a", 91), ("b", 93),("a", 95), ("b", 98))val input: RDD[(String, Int)] = sc.makeRDD(list, 2)val combineRdd: RDD[(String, (Int, Int))] = input.combineByKey( (_, 1), (acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1), (acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2)) |
| sortByKey | Key-Value类型 | def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)    : RDD[(K, V)] | 在一个(K,V)的 RDD 上调用，K 必须实现 Ordered 接口(特质)，返回一个按照 key 进行排序的 | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(true)val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(false) |
| join | Key-Value类型 | def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] | 在类型为(K,V)和(K,W)的 RDD 上调用，返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD | val rdd: RDD[(Int, String)] = sc.makeRDD(Array((1, "a"), (2, "b"), (3, "c")))val rdd1: RDD[(Int, Int)] = sc.makeRDD(Array((1, 4), (2, 5), (3, 6)))rdd.join(rdd1).collect().foreach(println) |
| leftOuterJoin | Key-Value类型 | def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] | 类似于 SQL 语句的左外连接 | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val dataRDD2 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))val rdd: RDD[(String, (Int, Option[Int]))] = dataRDD1.leftOuterJoin(dataRDD2) |
| cogroup | Key-Value类型 | def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] | 在类型为(K,V)和(K,W)的 RDD 上调用，返回一个(K,(Iterable | val dataRDD1 = sparkContext.makeRDD(List(("a",1),("a",2),("c",3)))val dataRDD2 = sparkContext.makeRDD(List(("a",1),("c",2),("c",3)))val value: RDD[(String, (Iterable[Int], Iterable[Int]))] =dataRDD1.cogroup(dataRDD2) |

行动算子：

| 名称 | 函数签名 | 函数说明 | 示例 |
| --- | --- | --- | --- |
| reduce | def reduce(f: (T, T) => T): T | 聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 聚合数据val reduceResult: Int = rdd.reduce(_+_) |
| collect | def collect(): Array[T] | 在驱动程序中，以数组 Array 的形式返回数据集的所有元素 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 收集数据到 Driverrdd.collect().foreach(println) |
| count | def count(): Long | 返回 RDD 中元素的个数 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数val countResult: Long = rdd.count() |
| first | def first(): T | 返回 RDD 中的第一个元素 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数val firstResult: Int = rdd.first()println(firstResult) |
| take | def take(num: Int): Array[T] | 返回一个由 RDD 的前 n 个元素组成的数组 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 返回 RDD 中元素的个数val takeResult: Array[Int] = rdd.take(2)println(takeResult.mkString(",")) |
| takeOrdered | def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T] | 返回该 RDD 排序后的前 n 个元素组成的数组 | val rdd: RDD[Int] = sc.makeRDD(List(1,3,2,4))// 返回 RDD 中元素的个数val result: Array[Int] = rdd.takeOrdered(2) |
| aggregate | def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U | 分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合 | val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 8)// 将该 RDD 所有元素相加得到结果//val result: Int = rdd.aggregate(0)(_ + _, _ + _)val result: Int = rdd.aggregate(10)(_ + _, _ + _) |
| fold | def fold(zeroValue: T)(op: (T, T) => T): T | 折叠操作，aggregate 的简化版操作 | val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4))val foldResult: Int = rdd.fold(0)(_+_) |
| countByKey | def countByKey(): Map[K, Long] | 统计每种 key 的个数 | val rdd: RDD[(Int, String)] = sc.makeRDD(List((1, "a"), (1, "a"), (1, "a"), (2,"b"), (3, "c"), (3, "c")))// 统计每种 key 的个数val result: collection.Map[Int, Long] = rdd.countByKey() |
| save 相关算子 | def saveAsTextFile(path: String): Unitdef saveAsObjectFile(path: String): Unitdef saveAsSequenceFile(    path: String,    codec: Option[Class[_ <: CompressionCodec]] = None): Unit | 将数据保存到不同格式的文件中 | // 保存成 Text 文件rdd.saveAsTextFile("output")// 序列化成对象保存到文件rdd.saveAsObjectFile("output1")// 保存成 Sequencefile 文件rdd.map((_,1)).saveAsSequenceFile("output2") |
| foreach | def foreach(f: T => Unit): Unit = withScope {    val cleanF = sc.clean(f)    sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))} | 分布式遍历 RDD 中的每一个元素，调用指定函数 | val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4))// 收集后打印rdd.map(num=>num).collect().foreach(println)println("****************")// 分布式打印rdd.foreach(println) |

SparkCore基础编程

![](https://cdn.dewartsang.cn/27094fccbe8e3e94af852415d1295fe7.clipboard-2025-09-20.webp)

1. Client 向 ResourceManager 提交 YARN Application。
2. ResourceManger 初始化 (Start) Container。在 NodeManger 的协助下启动 (launch) Container。若首次启动，Container 包含 ApplicationMaster。
3. ApplicationMaster 计算资源够不够？如果够，则运行任务。
4. 如果资源不够，ApplicationMaster 向 ResourceManager 申请资源。
5. ApplicationMaster 拿到资源后，开始启动 Container。在 NodeManger 的协助下启动 Container，Application 运行。

YARN中应用运行的机制

## HDFS的读流程

![](https://cdn.dewartsang.cn/29612dd472f8d3f69afd5dfb33add612.clipboard-2025-09-20.webp)

1. 客户端调用 DistributeFileSystem 对象的 open() 方法打开要读取的文件。
2. DistributeFileSystem 向 NameNode 发起 RPC 调用，得到文件的数据块信息，返回数据节点列表。对于每个数据块，NameNode 返回该数据块的 DataNode 地址。
3. DistributeFileSystem 返回一个 FSDataInputStrem 对象给客户端，客户端调用 FSDataInputStrem 对象的 read() 方法开始读取数据。
4. 通过对数据流反复调用 read() 方法，把数据从数据节点传输到客户端。
5. 当一个数据块的数据读取完毕时，DFSInputStrem 对象关闭与此数据节点的连接，连接文件的下一个数据块的最近数据节点。
6. 当文件的数据读取完时，客户端调用 DistributeFileSystem 对象的 close() 方法关闭文件输入流对象。



## HDFS的写流程

![](https://cdn.dewartsang.cn/79ea6f33470e12d46bf83ecdc3fe8beb.clipboard-2025-09-20.webp)

1. 客户端调用 DistributeFileSystem 对象的 create() 方法创建一个文件输出流对象。
2. DistributeFileSystem 向 NameNode 发起 RPC 调用，NameNode 检查该文件是否以及存在，以及客户端是否有权限新建文件。
3. DistributeFileSystem 返回一个 FSDataOutputStrem 对象给客户端，客户端调用 FSDataOutputStrem 对象的 write() 方法写入数据，数据先被写入到缓冲区，再被切分成一个个数据包。
4. 每个数据包被发送到由 NameNode 分配的一组数据节点的一个节点上，在这组数据节点组成的管道上依次传输数据包。
5. 管道上的数据节点按方向顺序返回确认信息，最终由管道上的第一个数据节点将整条管道的确认信息返回给客户端。
6. 客户端完成写入，调用 close() 方法关闭文件输出流对象。
7. 通知 NameNode 文件写入成功。

HDFS的读写流程

## 准备

### 安装包准备

Ambari2.7.5、HDP3.1.5、libtirpc-devel：

链接: https://pan.baidu.com/s/1J1H4gUnEt204nNBOzlGLIg?pwd=1024

提取码: 1024

jdk1.8：

链接: https://pan.baidu.com/s/1ac5iuH4gVyopn3LuC5QWyQ?pwd=1024

提取码: 1024

pssh-2.3.1：

链接: https://pan.baidu.com/s/11erMCZsYVjJSvyM1f_6Oiw?pwd=1024

提取码: 1024

maven-3.8.3：

链接: https://pan.baidu.com/s/17aeb2PY6Ie24QdOhv8c42w?pwd=1024

提取码: 1024

centos7操作系统：

链接: https://pan.baidu.com/s/1A7tE0P10n0ebC1zVu4sOiQ?pwd=1024

提取码: 1024



### 服务器配置

centos7环境
hadoop21 5g+32g
hadoop22 4g+32g
hadoop23 4g+32g

### 安装passh工具

```bash
tar -zxf /opt/pssh-2.3.1.tar.gz
mv /opt/pssh-2.3.1 /opt/pssh
cd pssh
python setup.py build
python setup.py install

# 验证安装
pssh --version

# 创建nodes文档，添加需要批处理的服务器节点，为了以后使用方便，在根目录下创建,文件名可随意，方便使用原则
cat >> /node.list << EOF
root@192.168.14.21
root@192.168.14.22
root@192.168.14.23
EOF

# 使用实例
pssh -h /node.list -i 'date'
```

### 配置主机名及ssh免密

- 修改主机名

`hostnamectl set-hostname hadoop21`

分别将3台服务器hostname分别设置为hadoop21、hadoop22、hadoop23

- 修改hosts文件

```bash
cat >> /etc/hosts << EOF
192.168.14.21    hadoop21
192.168.14.22    hadoop22
192.168.14.23    hadoop23
EOF
```

- 配置ssh免密

分别在三台服务器上执行

```bash
ssh-keygen -t rsa    # 一直回车即可

# 将ssh私钥拷贝到其他节点上
ssh-copy-id hadoop21
ssh-copy-id hadoop22
ssh-copy-id hadoop23
```

- 将hosts分发到其他服务器

`pscp -h /node.list /etc/hosts /etc/hosts`

### 关闭防火墙及selinux

```bash
# 关闭防火墙
pssh -h /node.list -i 'systemctl stop firewalld'

# 关闭防火墙开机自启
pssh -h /node.list -i 'systemctl disable firewalld'

# 查看防火墙状态
pssh -h /node.list -i 'systemctl status firewalld'

# 临时关闭selinux
pssh -h /node.list -i 'setenforce 0'

# 永久关闭selinux
pssh -h /node.list -i "sed -ri 's/(^SELINUX=).*/\1disbaled/g' /etc/selinux/config"
```

### 设置swap

```bash
pssh -h /node.list -i 'echo vm.swappiness = 1 >> /etc/sysctl.conf'
pssh -h /node.list -i 'sysctl vm.swappiness=1'
pssh -h /node.list -i 'sysctl -p'
```

### 关闭透明大页面

由于透明超大页面已知会导致意外的节点重新启动并导致RAC出现性能问题，因此Oracle强烈建议禁用

```bash
pssh -h /node.list -i "echo never > /sys/kernel/mm/transparent_hugepage/defrag "
pssh -h /node.list -i "echo never > /sys/kernel/mm/transparent_hugepage/enabled"

# 设置开机关闭
cat >> /etc/rc.d/rc.local << EOF
if test -f /sys/kernel/mm/transparent_hugepage/enabled;then
  echo never > /sys/kernel/mm/transparent_hugepage/enabled
fi
if test -f /sys/kernel/mm/transparent_hugepage/defrag;then
  echo never > /sys/kernel/mm/transparent_hugepage/defrag
fi
EOF

# 将rc.loacal分发到其他节点
pscp -h /node.list /etc/rc.d/rc.local /etc/rc.d/rc.local
pssh -h /node.list -i "chmod +x /etc/rc.d/rc.local"
```

### 安装http服务

安装apache的httpd服务主要用于搭建OS、Ambari和hdp的yum源。在集群服务器中选择一台服务器来安装httpd服务，命令如下：

```bash
yum install -y httpd
systemctl start httpd
systemctl enable httpd
systemctl status httpd
```

浏览器访问http://hadoop21能出现以下结果即成功：

![](https://cdn.dewartsang.cn/6a978e1dc0c9d51b57c9182605701e5a.clipboard-2025-09-20.webp)

### 配置操作系统本地repo

1.将centos7系统镜像上传到/media目录

```bash
ls /media/
CentOS-7-x86_64-Minimal-2003.iso
```

2.挂载操作系统iso文件

```bash
cd /media
mkdir iso
mount -o loop CentOS-7-x86_64-Minimal-2003.iso /media/iso
```

查看是否挂载成功

```bash
[root@hadoop21 ~]# df -h
文件系统                 容量  已用  可用 已用% 挂载点
devtmpfs                 5.8G     0  5.8G    0% /dev
tmpfs                    5.8G     0  5.8G    0% /dev/shm
tmpfs                    5.8G  8.5M  5.8G    1% /run
tmpfs                    5.8G     0  5.8G    0% /sys/fs/cgroup
/dev/mapper/centos-root   30G   14G   16G   47% /
/dev/sda1               1014M  150M  865M   15% /boot
tmpfs                    1.2G     0  1.2G    0% /run/user/0
/dev/loop0               1.1G  1.1G     0  100% /media/iso
```

3.在/var/www/html目录下创建iso目录，并将/media/iso目录文件复制到/var/www/html/iso目录下

```bash
mkdir /var/www/html/iso
cp -r /media/iso/* /var/www/html/iso/
```

4.在浏览器输入http://hadoop21/iso即可看到iso目录下文件

![Untitled](https://cdn.dewartsang.cn/40a65645affd1d253d1b03eb2db6749f.clipboard-2025-09-20.webp)

5.添加配置文件/etc/yum.repos.d/redhat7.6.repo，配置操作系统yum源

```bash
cat >> /etc/yum.repos.d/redhat7.6.repo << EOF
[redhat_os_repo]
name=redhat7.6_repo
baseurl=http://hadoop21/iso/
enabled=true
gpgcheck=false
EOF

# 同步到其他节点
pscp -h /node.list /etc/yum.repos.d/redhat7.6.repo /etc/yum.repos.d/redhat7.6.repo
```

6.查看yum源是否配置成功

```bash
pssh -h /node.list -i 'yum clean all'
pssh -h /node.list -i 'yum repolist'
```

以下结果则表示成功：

![](https://cdn.dewartsang.cn/3688fab86c6e3a82e378149f1cfa105f.clipboard-2025-09-20.webp)

### 安装jdk

1.将上传的jdk压缩解压，重命名

```bash
tar -zxf jdk-8u202-linux-x64.tar.gz
mv jdk1.8.0_202 jdk
```

2.将jdk文件分发到其他节点

```bash
pscp -r -h /node.list /opt/jdk /opt/
```

3.配置java环境变量

```bash
cat >> /etc/profile.d/myenv.sh << EOF
# JAVA
export JAVA_HOME=/opt/jdk
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JRE_HOME=$JAVA_HOME/jre
EOF
```

4. 将环境变量脚本分发到其他节点

```bash
pscp -h /node.list /etc/profile.d/myenv.sh /etc/profile.d/myenv.sh
pssh -h /node.list -i 'source /etc/profile'
```

5. 验证环境变量是否生效

```bash
pssh -h /node.list -i 'java -version'
```

![](https://cdn.dewartsang.cn/07a20ae4326c2e0d1e631038de24c9ec.clipboard-2025-09-20.webp)

### 安装maven

1.将上传的maven压缩解压，重命名

```bash
tar -zxf apache-maven-3.8.3-bin.tar.gz
mv apache-maven-3.8.3 maven
```

2.配置环境变量，并使其生效

```bash
cat >> /etc/profile.d/myenv.sh << EOF
# maven
export PATH=$PATH:/opt/maven/bin
EOF
source /etc/profile
```

3.验证

![](https://cdn.dewartsang.cn/d298bfc4db2621e0c11b82d1c30f1fe2.clipboard-2025-09-20.webp)

## 安装Ambari&HDP

### **配置Ambari、HDP、libtirpc-devel本地源**

1.将上传的ambari、hdp解压

```bash
tar -zxvf  ambari-2.7.5.0-centos7.tar.gz -C /var/www/html/
tar -zxvf  HDP-3.1.5.0-centos7-rpm.tar.gz -C /var/www/html/
tar -zxvf  HDP-GPL-3.1.5.0-centos7-gpl.tar.gz -C /var/www/html/
tar -zxvf  HDP-UTILS-1.1.0.22-centos7.tar.gz -C /var/www/html/
```

2.查看

![](https://cdn.dewartsang.cn/c539f08c9c2bfd1d2733e565ec21a295.clipboard-2025-09-20.webp)

3.设置用户组、用户及授权

```bash
cd /var/www/html/
chown -R root.root HDP*
chmod -R 755 HDP*
```

![](https://cdn.dewartsang.cn/5567b7338713a89d487c4bcc43c80b19.clipboard-2025-09-20.webp)

4.创建libtirpc-devel本地源

```bash
mkdir /var/www/html/libtirpc
cd /var/www/html/libtirpc
mv /opt/libtirpc* ./
```

5.安装createrepo

```bash
yum install -y createrepo
createrepo .
```

6.制作本地源

- 配置ambari.repo

```bash
cat >> /etc/yum.repos.d/ambari.repo << EOF
[Ambari-2.7.5.0]
name=Ambari-2.7.5.0
baseurl=http://hadoop21/ambari/centos7/2.7.5.0-72/
gpgcheck=0
enabled=1
priority=1
EOF
```

- 配置HDP、HDP-UTILS和HDP-GPL

```bash
cat >> /etc/yum.repos.d/HDP.repo << EOF
[HDP-3.1.5.0]
name=HDP Version - HDP-3.1.5.0
baseurl=http://hadoop21/HDP/centos7/3.1.5.0-152/
gpgcheck=0
enabled=1
priority=1

[HDP-UTILS-1.1.0.22]
name=HDP-UTILS Version - HDP-UTILS-1.1.0.22
baseurl=http://hadoop21/HDP-UTILS/centos7/1.1.0.22/
gpgcheck=0
enabled=1
priority=1

[HDP-GPL-3.1.5.0]
name=HDP-GPL Version - HDP-GPL-3.1.5.0
baseurl=http://hadoop21/HDP-GPL/centos7/3.1.5.0-152
gpgcheck=0
enabled=1
priority=1
EOF
```

- 配置libtirpc.repo

```bash
cat >> /etc/yum.repos.d/libtirpc.repo << EOF
[libtirpc_repo]
name=libtirpc-0.2.4-0.16
baseurl=http://hadoop21/libtirpc/
gpgcheck=0
enabled=1
priority=1
EOF
```

- 分发到其他节点

```bash
 pscp -h /node.list /etc/yum.repos.d/* /etc/yum.repos.d/
```

- 查看源是否配置成功

```bash
pssh -h /node.list -i 'yum clean all'
pssh -h /node.list -i 'yum repolist'
```

### 安装mariadb

1.查看当前mysql和mariadb的包

```bash
rpm -qa | grep -i mysql
rpm -qa | grep -i mariadb
```

2.卸载旧版本

```bash
rpm -qa | grep -i mysql | xargs rpm -e --nodeps
rpm -qa | grep -i mariadb | xargs rpm -e --nodeps
```

3.安装MariaDB服务器

```bash
yum install mariadb-server -y
```

4.启动并设置开机自启

```bash
systemctl enable mariadb
systemctl start mariadb
```

5.初始化

```bash
/usr/bin/mysql_secure_installation
```

```bash
NOTE: RUNNING ALL PARTS OF THIS SCRIPT IS RECOMMENDED FOR ALL MariaDB
      SERVERS IN PRODUCTION USE!  PLEASE READ EACH STEP CAREFULLY!

In order to log into MariaDB to secure it, we'll need the current
password for the root user.  If you've just installed MariaDB, and
you haven't set the root password yet, the password will be blank,
so you should just press enter here.

Enter current password for root (enter for none): 
OK, successfully used password, moving on...

Setting the root password ensures that nobody can log into the MariaDB
root user without the proper authorisation.

Set root password? [Y/n] Y
New password: 123456
Re-enter new password: 123456
Password updated successfully!
Reloading privilege tables..
 ... Success!

By default, a MariaDB installation has an anonymous user, allowing anyone
to log into MariaDB without having to have a user account created for
them.  This is intended only for testing, and to make the installation
go a bit smoother.  You should remove them before moving into a
production environment.

Remove anonymous users? [Y/n] Y
 ... Success!

Normally, root should only be allowed to connect from 'localhost'.  This
ensures that someone cannot guess at the root password from the network.

Disallow root login remotely? [Y/n] Y
 ... Success!

By default, MariaDB comes with a database named 'test' that anyone can
access.  This is also intended only for testing, and should be removed
before moving into a production environment.

Remove test database and access to it? [Y/n] Y
 - Dropping test database...
 ... Success!
 - Removing privileges on test database...
 ... Success!

Reloading the privilege tables will ensure that all changes made so far
will take effect immediately.

Reload privilege tables now? [Y/n] Y
 ... Success!

Cleaning up...

All done!  If you've completed all of the above steps, your MariaDB
installation should now be secure.

Thanks for using MariaDB!
```

6.为MariaD安装MySQL JDBC驱动程序

```bash
tar -zxvf mysql-connector-java-5.1.40.tar.gz
cd mysql-connector-java-5.1.40
mkdir /usr/share/java/
mv mysql-connector-java-5.1.40-bin.jar /usr/share/java/mysql-connector-java.jar
```

### 安装和配置ambari-server

1.安装ambari-server

```bash
yum install -y ambari-server
```

2.复制MySQL JDBC驱动到/var/lib/ambari-server/resources

```bash
cp /usr/share/java/mysql-connector-java.jar /var/lib/ambari-server/resources/
```

3.配置/etc/ambari-server/conf/ambari.properties，添加如下行

```bash
cat >> /etc/ambari-server/conf/ambari.properties << EOF
server.jdbc.driver.path=/usr/share/java/mysql-connector-java.jar
EOF
```

4.执行

```bash
ambari-server setup --jdbc-db=mysql --jdbc-driver=/usr/share/java/mysql-connector-java.jar
```

5.初始化ambari-server

```bash
ambari-server setup
```

```bash
Using python  /usr/bin/python
Setup ambari-server
Checking SELinux...
SELinux status is 'enabled'
SELinux mode is 'permissive'
WARNING: SELinux is set to 'permissive' mode and temporarily disabled.
OK to continue [y/n] (y)? Y
Customize user account for ambari-server daemon [y/n] (n)? Y
Enter user account for ambari-server daemon (root):
Adjusting ambari-server permissions and ownership...
Checking firewall status...
Checking JDK...
[1] Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 8
[2] Custom JDK
==============================================================================
Enter choice (1): 2
WARNING: JDK must be installed on all hosts and JAVA_HOME must be valid on all hosts.
WARNING: JCE Policy files are required for configuring Kerberos security. If you plan to use Kerberos,please make sure JCE Unlimited Strength Jurisdiction Policy Files are valid on all hosts.
Path to JAVA_HOME: /opt/jdk
Validating JDK on Ambari Server...done.
Check JDK version for Ambari Server...
JDK version found: 8
Minimum JDK version is 8 for Ambari. Skipping to setup different JDK for Ambari Server.
Checking GPL software agreement...
GPL License for LZO: https://www.gnu.org/licenses/old-licenses/gpl-2.0.en.html
Enable Ambari Server to download and install GPL Licensed LZO packages [y/n] (n)? y
Completing setup...
Configuring database...
Enter advanced database configuration [y/n] (n)? y
Configuring database...
==============================================================================
Choose one of the following options:
[1] - PostgreSQL (Embedded)
[2] - Oracle
[3] - MySQL / MariaDB
[4] - PostgreSQL
[5] - Microsoft SQL Server (Tech Preview)
[6] - SQL Anywhere
[7] - BDB
==============================================================================
Enter choice (1): 3
Hostname (localhost): hadoop21
Port (3306): 3306
Database name (ambari): ambari
Username (ambari): ambari
Enter Database Password (bigdata): 123456
Re-enter password: 123456
Configuring ambari database...
Configuring remote database connection properties...
WARNING: Before starting Ambari Server, you must run the following DDL directly from the database shell to create the schema: /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql
Proceed with configuring remote database connection properties [y/n] (y)? y
Extracting system views...
ambari-admin-2.7.5.0.72.jar
....
Ambari repo file doesn't contain latest json url, skipping repoinfos modification
Adjusting ambari-server permissions and ownership...
Ambari Server 'setup' completed successfully.
```

6.登录MariaDB创建ambari安装所需要的库

```bash
mysql -uroot -p123456
CREATE DATABASE ambari; 
use ambari; 
CREATE USER 'ambari'@'%' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'ambari'@'%'; 
CREATE USER 'ambari'@'localhost' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'ambari'@'localhost'; 
CREATE USER 'ambari'@'hadoop101' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'ambari'@'hadoop101'; 

source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql 
show tables; 
use mysql; 
select host,user from user where user='ambari'; 
CREATE DATABASE hive; 
use hive; 
CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%'; 
CREATE USER 'hive'@'localhost' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost'; 
CREATE USER 'hive'@'hadoop101' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'hive'@'hadoop101'; 

CREATE DATABASE oozie; 
use oozie; 
CREATE USER 'oozie'@'%' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'oozie'@'%'; 
CREATE USER 'oozie'@'localhost' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'oozie'@'localhost'; 
CREATE USER 'oozie'@'hadoop101' IDENTIFIED BY '123456'; 
GRANT ALL PRIVILEGES ON *.* TO 'oozie'@'hadoop101'; 
FLUSH PRIVILEGES;
```

### 启动ambari服务

```bash
ambari-server start
```

```bash
Using python  /usr/bin/python
Starting ambari-server
Ambari Server running with administrator privileges.
Organizing resource files at /var/lib/ambari-server/resources...
Ambari database consistency check started...
Server PID at: /var/run/ambari-server/ambari-server.pid
Server out at: /var/log/ambari-server/ambari-server.out
Server log at: /var/log/ambari-server/ambari-server.log
Waiting for server start.........................
Server started listening on 8080

DB configs consistency check: no errors and warnings were found.
Ambari Server 'start' completed successfully.
```

### 所有节点安装ambari-agent

```bash
pssh -h /node.list -i 'yum -y install ambari-agent'
pssh -h /node.list -i 'systemctl start ambari-agent'
pssh -h /node.list -i 'systemctl enable ambari-agent'
```

### 所有节点安装libtirpc-devel

```bash
pssh -h /node.list -i 'yum -y install libtirpc-devel'
```

## 部署集群

1.登录界面：http://hadoop21:8080

默认管理员账户登录，账户：admin	密码：admin

![](https://cdn.dewartsang.cn/6002a8751885e0dd66e9c0ee1e00025e.clipboard-2025-09-20.webp)

2.选择版本，配置yum源

1) 选择Launch Install Wizard

![](https://cdn.dewartsang.cn/47bd28e48bc2993dab77b9652b78d729.clipboard-2025-09-20.webp)

2）配置集群名称

![](https://cdn.dewartsang.cn/9b53119d490e8bb3f1050c18bbd6a03e.clipboard-2025-09-20.webp)

3）选择版本并修改本地源地址

选HDP-3.1(Default Version Definition);

选Use Local Repository;

选redhat7:

HDP-3.1：http://hadoop21/HDP/centos7/3.1.5.0-152/

HDP-3.1-GPL：http://hadoop21/HDP-GPL/centos7/3.1.5.0-152/

HDP-UTILS-1.1.0.22：http://hadoop21/HDP-UTILS/centos7/1.1.0.22/

![](https://cdn.dewartsang.cn/af220b1fa2ae9ed9b3bffb56a3cf0a61.clipboard-2025-09-20.webp)

3.配置节点和密钥

下载主节点的/root/.ssh/id_rsa，并上传！点击下一步，进入确认主机界面
也可直接cat /root/.ssh/id_rsa 粘贴即可

![](https://cdn.dewartsang.cn/38f376887936304c838d0d9ddc16773f.clipboard-2025-09-20.webp)

密钥验证成功：

![](https://cdn.dewartsang.cn/f526d0087f74f902928baa9385c65577.clipboard-2025-09-20.webp)

4.勾选需要安装的服务

![](https://cdn.dewartsang.cn/f8fbd3d145f6514f8c98839c2d013b57.clipboard-2025-09-20.webp)

5.按照默认配置

6.分配服务slaves

![](https://cdn.dewartsang.cn/be8720f5a971658b2526fa4f869e206b.clipboard-2025-09-20.webp)

7.设置相关服务的密码(其他配置默认)

Grafana admin:123456
Activity Explorer’s admin:123456

![](https://cdn.dewartsang.cn/272e95151f8624840206d6f88c05ff3a.clipboard-2025-09-20.webp)

8.编辑配置，默认即可

9.等待安装测试

![](https://cdn.dewartsang.cn/06dfded9dffb5926affe1004d6fe0c5d.clipboard-2025-09-20.webp)

10.安装成功

![](https://cdn.dewartsang.cn/34ed1bec47707dae13d3b21893fb7073.clipboard-2025-09-20.webp)

Ambari部署Hadoop集群

## **YARN架构概述**

它由Container、ResourceManger、NodeManager、ApplicationMaster几个主要部分组成。

![](https://cdn.dewartsang.cn/00b5252a41dae1c8614e8912ad3095cd.clipboard-2025-09-20.webp)

1. Container(容器)

    YARN中的资源包括内存、CPU、磁盘输入/输出等。Contianer是YARN中的资源抽象，它封装了某个节点上的多维资源。YARN会为每个任务分配Container。



1. ResourceManager(资源管理器)

    ResourceManager负责整个系统的资源分配和管理，是一个全局的资源管理器，主要由两个组件构成：调度器（Scheduler）和应用程序管理器（ApplicationManager）。调度器根据资源情况为应用程序分配封装在Container中的资源。应用程序管理器负责管理整个系统中的所有应用程序。

1. NodeManager(节点管理器)

    NodeManager是每个节点上的资源和任务管理器。它定时向ResourceManager汇报本节点上的资源使用情况和各个Container的运行状态，接受并处理来自ApplicationManager的Container启动/停止等请求。

1. ApplicationMaster(主应用)

    ApplicationMaster是一个详细的框架库，它结合从ResourceManger获得的资源与NodeManager协同工作，来运行和监控任务

    用户提交的每一个应用程序均包含一个ApplicationMaster。其主要功能包括以下三点：

    (1) 与ResourceManager调度器协商以获取抽象资源（Contianer）。

    (2) 负责应用的监控，跟踪应用执行状态，重启失败任务等。

    (3) 与NodeManager协同工作完成任务的执行和监控。

### YARN中应用运行的机制

YARN中应用运行的机制如图

![Untitled](https://prod-files-secure.s3.us-west-2.amazonaws.com/ec8d2bab-9795-4987-a076-4155a2073a47/ca1932b7-15ce-4997-988f-3838cdb243c9/Untitled.png)

1. Client向ResourceManager提交YARN Application。
2. ResouceManager初始化（Start）Container。
3. 在NodeManager的协助下启动启动（launch）Container。若是首次启动，Container里面包含ApplicationMaster。
4. ApplicationMaster计算资源够不够？如果够，则自己处理。
5. 如果资源不够，ApplicationMaster向ResouceManager申请资源。
6. ApplicationMaster拿到资源后，开始启动Container。
7. 在NodeManager的协助下，启动Container，Application运行。

### YARN中任务进度的监控

ApplicationMaster将收集的进度和状态进行统计，汇聚成作业视图。客户端可以从ApplicationMaster获取状态，从而获取集群的进度情况

![Untitled](https://prod-files-secure.s3.us-west-2.amazonaws.com/ec8d2bab-9795-4987-a076-4155a2073a47/a2e1210b-c432-446a-8bca-b77e42121041/Untitled.png)