Please enable JavaScript.
Coggle requires JavaScript to display documents.
Spark (核心概念 (RDD 是不可变的, lazy级别的,粗粒度的数据集合,包含了一个或者多个数据分片,即partition
…
Spark
核心概念
-
-
-
-
-
(4)DAG
DAG生成和功能
(1) spark中,DAG生成的流程关键在于【回溯】, 在程序提交以后,高层调度器(DAGScheduler)将所有的RDD看成一个stage,然后对此stage进行从后往前的回溯,遇到shuffle就断开,遇到窄依赖,则归并到同一个stage中。等到所有的步骤回溯完成,就生成了一个DAG图。
(2)spark stage 根据RDD途中的shuffle的边界来创建,如果RDD的操作是窄依赖,如map, filter ,在每个stages中将一些列tasks组合成流水线执行。但是如果是宽依赖,shuffle依赖需要多个stages(上一个stage进行map输出到文件,下一个stage读取数据文件),每个stage依赖于其他的stage,其中进行多个算子操作。算子操作在各种类型的RDDS的RDD.compute()中实际执行。
-
(4)数据本地化 DAGScheduler基于RDDs的数据本地性,缓存位置,或者shuffle数据 在stage中运行每一个任务的task。
清理: 当依赖与他们运行的作业完成时,所有数据将被清理,防止在长时间运行的应用程序中内存泄漏。