kafkaconsumer的并发异常对于多线程访问不安全

jdg4fx2g 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(519)

我们从spark流媒体调用sparksql作业。我们得到了并发异常，kafka consumer是closed错误。以下是代码和异常详细信息：
Kafka消费代码

// Start reading messages from Kafka and get DStream
        final JavaInputDStream<ConsumerRecord<String, byte[]>> consumerStream = KafkaUtils.createDirectStream(
                getJavaStreamingContext(), LocationStrategies.PreferConsistent(),
                ConsumerStrategies.<String, byte[]>Subscribe(SparkServiceConfParams.AIR.CONSUME_TOPICS,
                        sparkServiceConf.getKafkaConsumeParams()));
        ThreadContext.put(Constants.CommonLiterals.LOGGER_UID_VAR, CommonUtils.loggerUniqueId());
    // Decode each binary message and generate JSON array
    JavaDStream<String> decodedStream = messagesStream.map(new Function<byte[], String>() {}

..

// publish generated json gzip to kafka 
    decodedStream.foreachRDD(new VoidFunction<JavaRDD<String>>() {
        private static final long serialVersionUID = 1L;
        @Override
        public void call(JavaRDD<String> jsonRdd4DF) throws Exception {
            //Dataset<Row> json = sparkSession.read().json(jsonRdd4DF);
            if(!jsonRdd4DF.isEmpty()) {
                //JavaRDD<String> jsonRddDF = getJavaSparkContext().parallelize(jsonRdd4DF.collect());
                Dataset<Row> json = sparkSession.read().json(jsonRdd4DF);   
                SparkAIRMainJsonProcessor airMainJsonProcessor = new SparkAIRMainJsonProcessor();
                    AIRDataSetBean processAIRData = airMainJsonProcessor.processAIRData(json, sparkSession);

错误详细信息

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

最后Kafka消费者关闭：

org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand$$anonfun$run$1$$anonfun$apply$mcV$sp$1.apply(InsertIntoHadoopFsRelationCommand.scala:143)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
    at org.apache.spark.scheduler.Task.run(Task.scala:86)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.IllegalStateException: 
This consumer has already been closed.

apache-kafka apache-spark spark-streaming

来源：https://stackoverflow.com/questions/45115905/concurrent-exception-for-kafkaconsumer-is-not-safe-for-multi-threaded-access

1条答案

按热度按时间

8wigbo561#

使用spark streaming的cache或persist选项可以解决此问题。在这个场景中，使用缓存rdd不会再次从kafka中读取，问题得到解决。它支持流的并发使用。但请明智地使用缓存选项。下面是代码：

JavaDStream<ConsumerRecord<String, byte[]>> cache = consumerStream.cache();

赞(0）回复(0）举报 2021-06-08

我来回答

kafkaconsumer的并发异常对于多线程访问不安全

1条答案

相关问题

热门标签

最新问答