如何将kafka gzip压缩的消息从一个主题读入spark流

uelo1irk  于 2021-06-07  发布在  Kafka
关注(0)|答案(2)|浏览(346)

我确实看到,我们需要在生产者方面进行更改,以使用gzip压缩,但我不知道如何在阅读消息时解压缩。请透出一些指示灯,说明从哪里开始。我有我的端到端流式处理未压缩的消息。
谢谢

ozxc1zmp

ozxc1zmp1#

看来减压是由消费者无缝照顾。你什么都不用做。您所要做的就是用“compression.codec”设置来配置producer。
请看一下这个链接

v6ylcynt

v6ylcynt2#

使用者负责处理压缩消息。然而,有一些事情要考虑。我收到这个警告:
2012年7月19日17:49:15警告tasksetmanager:在阶段0.0中丢失任务1.0(tid 1,10.0.2.15,executor 0):java.lang.assertionerror:Assert失败:即使在试图偏移1之后,也为spark-executor-1 public_test1 5获取了错误记录
我通过访问spark-streaming-kafka-0-10u2的2.4.0版本并设置:spark.streaming.kafka.allownonconsecutiveoffsets=true来解决这个问题
我的submit命令如下所示:
spark submit--class com.streamtest.main--masterspark://myparkhost:7077—包org.apache。spark:spark-streaming-kafka-0-10_2.11:2.4.0,org.apache。spark:spark-streaming_2.11:2.3.0,org.apache。spark:spark-core_2.11:2.3.0--conf spark.streaming.kafka.allownonconsecutiveoffsets=true/work/streamapp/build/libs/streamapp.jar
我希望这是有用的,以帮助任何人与我有同样的问题。

相关问题