我提交给spark cluster的工作还没有完成。我看到它是永远悬而未决,但日志说,即使Spark码头连接器被关闭:
17/05/23 11:53:39 INFO org.spark_project.jetty.server.ServerConnector: Stopped ServerConnector@4f67e3df{HTTP/1.1}{0.0.0.0:4041}
我在yarn上运行最新的clouddataprocv1.1(spark2.0.2)。我通过gcloud api提交spark作业:
gcloud dataproc jobs submit spark --project stage --cluster datasys-stg \
--async --jar hdfs:///apps/jdbc-job/jdbc-job.jar --labels name=jdbc-job -- --dbType=test
同样的Spark圆周率是正确完成的:
gcloud dataproc jobs submit spark --project stage --cluster datasys-stg --async \
--class org.apache.spark.examples.SparkPi --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 100
在访问hadoop应用程序管理器界面时,我看到它已完成,并获得了成功的结果:
谷歌云控制台和作业列表显示,它在被杀死之前仍在运行(参见作业在被杀死之前运行20小时,而hadoop说它运行了19秒):
有什么我可以监视的,看看是什么阻止gcloud完成这项工作?
1条答案
按热度按时间wbgh16ku1#
我找不到任何可以监视我的应用程序未完成的内容,但我已找到实际问题并修复了它。原来我在应用程序中放弃了线程—我连接了rabbitmq,这似乎创建了一些线程,阻止了应用程序最终被gcloud停止。