我们在google云平台上使用的是bitnamikafka 0.8.2+spark 1.5.2。我们的spark流式处理作业(使用者)未接收发送到特定主题的所有消息。它接收50条消息中的1条(在作业流中添加日志并标识)。我们没有看到Kafka日志中有任何错误。无法从kafka层进一步调试。控制台使用者显示在控制台中接收到的输入主题。它还没有到达SparkKafka整合流。如何调试这个问题。另一个主题在相同的设置中工作正常。再次尝试使用spark 1.3.0,kafka 0.8.1.1,它也有同样的问题。所有这些工作在我们本地的实验室服务器上都很正常
1条答案
按热度按时间xjreopfe1#
实际的根本原因是-apache cassandra与spark cassandra连接器不兼容。尽管我们使用了一个对齐的连接器和apachecassandra版本,但是一些cassandra通信还是被卡住了。cassandra节点的cpu使用率大多数时候都在98%以上。将cassandra版本更改为datastax cassandra版本-并且。。。。它只是完美的工作!!!不需要更改代码。