gcloud控制台指示作业正在运行,而hadoop应用程序管理器则表示作业已完成

ffscu2ro  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(287)

我提交给spark cluster的工作还没有完成。我看到它是永远悬而未决,但日志说,即使Spark码头连接器被关闭:

17/05/23 11:53:39 INFO org.spark_project.jetty.server.ServerConnector: Stopped ServerConnector@4f67e3df{HTTP/1.1}{0.0.0.0:4041}

我在yarn上运行最新的clouddataprocv1.1(spark2.0.2)。我通过gcloud api提交spark作业:

gcloud dataproc jobs submit spark --project stage --cluster datasys-stg \
--async --jar hdfs:///apps/jdbc-job/jdbc-job.jar --labels name=jdbc-job -- --dbType=test

同样的Spark圆周率是正确完成的:

gcloud dataproc jobs submit spark --project stage --cluster datasys-stg --async \
 --class org.apache.spark.examples.SparkPi --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 100

在访问hadoop应用程序管理器界面时,我看到它已完成,并获得了成功的结果:

谷歌云控制台和作业列表显示,它在被杀死之前仍在运行(参见作业在被杀死之前运行20小时,而hadoop说它运行了19秒):

有什么我可以监视的,看看是什么阻止gcloud完成这项工作?

wbgh16ku

wbgh16ku1#

我找不到任何可以监视我的应用程序未完成的内容,但我已找到实际问题并修复了它。原来我在应用程序中放弃了线程—我连接了rabbitmq,这似乎创建了一些线程,阻止了应用程序最终被gcloud停止。

相关问题