在主spark作业中启动多个spark作业

wwwo4jvm  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(371)

可以在一个主spark作业中生成多个spark作业吗?我的主spark作业的驱动程序在yarn cluster上启动,会做一些预处理,在此基础上,它需要在yarn cluster上启动multilple spark作业。不确定这是不是正确的模式。
主spark作业将启动其他spark作业,类似于在spark驱动程序中调用multiple spark submit。新作业的这些派生线程将是完全不同的组件,因此不能使用spark操作来实现。

请分享你的想法。

为了更好的理解,下面是我的示例代码。。

  1. Object Mainsparkjob {
  2. main(...){
  3. val sc=new SparkContext(..)
  4. Fetch from hive..using hivecontext
  5. Fetch from hbase
  6. //spawning multiple Futures..
  7. Val future1=Future{
  8. Val sparkjob= SparkLauncher(...).launch; spark.waitFor
  9. }
  10. Similarly, future2 to futureN.
  11. future1.onComplete{...}
  12. }
  13. }//end of main spark job
pod7payv

pod7payv1#

使用像oozie这样的工作流管理工具来协调作业中的这种依赖关系。
oozie有spark action,她将action,give action,java action,distcp,email,所有的东西都可以在那里找到。
所以我们可以用oozie在工作之间建立一个良好的体面

相关问题