为什么Spark级只有一个功能而不是在Map阶段进行如此多的转换

lztngnrs  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(397)

我搞不懂为什么一个舞台只有一个功能。在下面的代码中,map stage应该包含两个map函数,而不是一个;

  1. def main(args: Array[String]): Unit = {
  2. val conf = new SparkConf().setAppName("test").setMaster("local[2]")
  3. val sc = new SparkContext(conf)
  4. val data = Array("Runoob", "Baidu", "Google")
  5. val distData = sc.parallelize(data).map(x => (x, 1))
  6. .map(x => x._2 + 1)
  7. .collect()
  8. distData.length
  9. }

stage是一组独立的任务,所有任务都计算需要作为spark作业的一部分运行的相同函数,其中所有任务都具有相同的shuffle依赖项。调度程序运行的每一个dag任务在发生洗牌的边界处被分为多个阶段,然后dagscheduler按拓扑顺序运行这些阶段。
此url中的阶段含义;在此处输入链接说明

rqcrx0a6

rqcrx0a61#

连续的 map 操作通常可以合并到单个 map 操作。据推测,斯帕克意识到

  1. x => (x, 1)

  1. x => x._2 + 1

相当于

  1. x => (x, 1) => 1 + 1

x => 2 ,这是一个单一的函数。这就是为什么你在spark阶段只看到一个函数。

相关问题