Spark 文件 IO 分析

1. Spark 简介

Spark 是一种是基于内存计算的大数据并行计算框架，主要分为 Driver、Worker 两个组件，可通过 yarn，mesos、k8s 进行调度。其主要架构如下：

其中：

Spark 将数据抽象为RDD(弹性数据集)，并根据数据的依赖关系将RDD计算过程划分为一个个stage，RDD随着计算在各个stage中随着计算，在计算过程中需要处理大量数据，其涉及的 IO 主要包括以下几个：

Spark 2 个 Stage间需要对所有中间数据进行重排，这个过程称为Shuffle。Shuffle 过程需要操作大量的数据，无法全部在内存中完成，因此数据需要进行存储到磁盘中。Shuffle过程分为Shuffle Write 和 Shuffle Read两个阶段。

Shuffle Write将上一个 stage 的输出数据写入磁盘中，并且把数据位置元信息上报到 driver 的中， Shuffle Read在下一个 stage 开始，根据数据位置元信息，拉取对应的数据作为该stage的输入。

shuffle write 由上一个 stage 的 ShuffleMapTask 执行，基本过程是将上一个 stage 的数据重新按下一个 stage 的 Reduce 任务重新分区，便于下一个 stage 处理。

spark 中 shuffle write 有 3 种具体的实现，基本流程如下：

shuffleMapTask 将数据(records)写入根据 key 做到内存缓冲区中（每个 partition 对应一个 bucket 缓存区），如果开启了 spill，则检查是否需要 spill。
若需要 spill，将集合中的数据根据 partitionId 和 key（若需要）分区和顺序溢写到一个临时的磁盘文件，并释放内存新建一个 map 放数据，每次溢写都是写一个新的临时文件。
写完后，需要将所有的临时文件进行合并(merge)，此时需要将所有的临时文件读取出来，并合并写入最终磁盘文件中，并根据索引文件记录分区映射关系；
最后 executor 将文件地址封装到 MapStatus，通过 MapOutputTrackerWorker 发送给 Driver 的 MapOutputTrackerMaste；
在 SortShuffleWriter 中，文件合并前，需要先使用 externalsort 对数据进行排序，此时可能会触发 spill 生成很多的临时小文件。

shuffle write 默认有三种实现：

BypassMergeSortShuffleWriter：通过hash将map先按partition输出到不同的临时文件中，最后按分区合并到一个data文件中，并生成一个index文件记录每个分区在data文件中的位置；
SortShuffleWriter：先在内存中对数据进行排序(堆排，中间可能spill许多临时文件)，；
UnsafeShuffleWriter：SortShuffleWriter 的改进，使用序列化后的数组进行排序

shuffle read 是在下一个 stage 的开始之前的 ResultTask 中执行，主要作用是获取前一个 stage 各个节点的对应分区的数据数据，以供 reduce 处理。

Shuffle Read 主要分为 fetch 和 aggreation 两个步骤：

shuffle read 开始后，通过 BlockTransferService 从 Driver 获取 ShuffleMapTask 上报的 write mapOut 生成的文件，
根据文件是否在同一个节点分别调用 getRemoteValues 和 getLocalValue 拉取对应分区的 FileSegment；
拉取的数据放着内存缓冲区中，根据spark.shuffle.spill参数判断是否需要 spill 到磁盘。缓冲区大小由spark.reducer.maxMbInFlight（默认：5MB）设置。