当前位置：首页 > news >正文

Spark底层逻辑

news 来源：原创 2024/9/22 9:27:43

Apache Spark 的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark 提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是 Spark 的底层逻辑的详细介绍：

1. 核心概念

Spark 的底层基于几个核心概念来实现分布式计算，包括：

RDD（Resilient Distributed Dataset，弹性分布式数据集）：
RDD 是 Spark 最基础的数据抽象，它是一个只读的、分布式的数据集合，能够在多个节点上并行计算。RDD 是 Spark 弹性计算和容错的核心。RDD 支持惰性求值，即在调用动作（action）之前，不会实际执行计算。RDD 的两个重要属性是：
- Lineage（血统）：RDD 的血统记录了它是如何从其他 RDD 转换而来的，Spark 利用这种血统信息可以在节点失效时重新计算丢失的数据，确保容错。
- Partition（分区）：RDD 被分割成多个分区（partition），每个分区可以独立计算。分区是 Spark 实现并行计算的基础。
DAG（Directed Acyclic Graph，有向无环图）：
Spark 会根据用户定义的转换操作构建一个任务的 DAG 图。DAG 表示了 RDD 之间的依赖关系，并决定了数据处理的执行顺序。在实际运行时，Spark 会对 DAG 进行优化，将多个操作合并为一个阶段（stage）执行，从而减少数据传输开销和任务开销。
惰性求值（Lazy Evaluation）：
RDD 的转换操作（如 map、filter）不会立即执行，而是记录下这些操作并生成一张执行计划的 DAG 图。只有当遇到行动操作（action，如 count、collect）时，Spark 才会真正触发计算，并按照 DAG 计划来执行。

2. Spark 核心组件

Spark 的核心架构主要由以下几个组件组成：

Driver（驱动程序）：Driver 是 Spark 应用的入口，负责执行用户编写的主程序（main program）。Driver 程序会将 RDD 转换的逻辑构建成任务的 DAG，并将这些任务发送到 Executor 执行。它还负责监控任务的执行，并处理返回的结果。
Executor（执行器）：Executor 是分布式集群中的工作节点，实际负责执行任务。每个 Spark 应用程序有自己的 Executor，它们负责执行具体的计算任务和保存 RDD 的数据分区。
Cluster Manager（集群管理器）：集群管理器负责资源调度，它可以是 Spark 自带的 Standalone 模式，也可以是第三方的调度系统，如 YARN 或 Mesos。集群管理器分配资源，启动 Executor，并为 Spark 提供必要的集群环境。

3. 任务执行流程

Spark 的任务执行流程可以分为几个关键步骤：

Step 1: 定义 RDD 和操作
用户通过编写 Spark 代码定义 RDD 和相应的转换操作（transformation，如 map、filter）以及行动操作（action，如 collect、save）。这些操作会生成一个 DAG，但不会立即执行。
Step 2: DAG 构建与优化
当用户调用行动操作时，Spark 会根据用户定义的转换操作生成一张有向无环图（DAG），这张图展示了 RDD 之间的依赖关系。随后，Spark 会对 DAG 进行优化，比如合并多个窄依赖的操作，从而减少中间数据的存储和计算开销。
Step 3: 任务划分（Job 和 Stage）
DAG 被划分为多个 Stage，每个 Stage 包含一系列窄依赖的操作。每个 Stage 可以进一步划分为多个 Task，每个 Task 对应 RDD 的一个分区。Spark 会根据分区将任务分发给集群中的 Executor 并行执行。
Step 4: Task 调度与执行
Cluster Manager 为 Spark 应用分配资源，启动 Executor。Driver 会将每个 Stage 中的 Task 分配到不同的 Executor 节点上去执行。每个 Executor 处理一个分区的数据，并将结果返回给 Driver。
Step 5: 数据重分区和宽依赖处理
如果某些操作需要跨分区的数据（比如 shuffle 操作），则 Spark 会进行数据重分区。这通常会涉及到网络 IO 操作，导致性能开销较大。宽依赖操作（如 reduceByKey）会在 Task 之间进行 shuffle 数据交换，而窄依赖操作则仅在本地节点计算。
Step 6: 结果返回
当所有 Task 都执行完毕后，Executor 将结果返回给 Driver。对于行动操作，Driver 会收集所有 Executor 的计算结果，最终将结果输出或保存。