如何将星星之火整合到Kafka的阵列中

mgdq6dx1 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(332)

目前，我有以下几个方面

+-------+--------------------+-----+
|    key|          created_at|count|
+-------+--------------------+-----+
|Bullish|[2017-08-06 08:00...|   12|
|Bearish|[2017-08-06 08:00...|    1|
+-------+--------------------+-----+

我使用以下方法将数据流传输到Kafka

df.selectExpr("CAST(key AS STRING) AS key", "to_json(struct(*)) AS value")
  .writeStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092").option("topic","chart3").option("checkpointLocation", "/tmp/checkpoints2")
  .outputMode("complete")
  .start()

这里的问题是，对于dataframe中的每一行，它都会逐一写入kafka。我的消费者会一个接一个地得到信息。
是否有任何方法可以将所有行合并到一个数组中并流式传输到kafka，这样我的消费者就可以一次性获得整个数据。
谢谢你的建议。

apache-kafka apache-spark spark-structured-streaming

来源：https://stackoverflow.com/questions/46099509/how-to-consolidate-the-spark-streaming-into-array-to-kafka