spark worker中的一个不工作

q35jwt9p 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(378)

我使用带有2个工作进程的独立集群。使用spark kafka cassandra hdfs流

val stream = kafkaUtils.createDirectStream...
stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...)
stream.map(_.value).foreachRDD(rdd => {saving to HDFS})

我发送给Kafka大约40000消息/秒的第一件事是savetocassandra工作缓慢，因为如果我评论 stream.saveToCassandra 它工作得又好又快。在spark驱动程序ui中，我看到5mb的输出大约需要20秒。我试着调整spark cassandra选项，但也需要最少14秒。
第二个是我提到的，我的一个工人什么也不做，我看到这样的情况：

10:05:33 INFO remove RDD#

等等。
但如果我阻止另一个工人，它就会开始工作。
我不使用spark submit，只是 startSpark extends App { 以及孔代码，然后从

scala -cp "spark libs:kafka:startSpark.jar" startSpark

我使用的工人 ssc.sparkContext.addJars(pathToNeedableJars) 我怎样才能促进写Cassandra和如何让我的工人一起工作？

apache-kafka apache-spark-standalone spark-cassandra-connector spark-streaming

来源：https://stackoverflow.com/questions/44659641/one-of-spark-worker-is-not-working

1条答案

按热度按时间

rt4zxlrg1#

我真的读不好官方的sparkKafka集成指南，这个问题，我用我的主题1分区
Kafka分区与Spark分区的1:1对应关系

赞(0）回复(0）举报 2021-06-08

我来回答

spark worker中的一个不工作

1条答案

相关问题

热门标签

最新问答