如何打印流Dataframe的数据源选项(例如startingoffset)？

thtygnil 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(287)

我通过一个变量传递startingoffset。怀疑他们可能没有正确的价值观。如何打印回以验证spark结构化流选项？

val df = sparkSession
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "topic1")
  .option("startingOffsets", "{"topic1":{"1":100,"0":120}}")
)
 .load()

apache-spark apache-spark-sql spark-structured-streaming

来源：https://stackoverflow.com/questions/66434004/how-to-print-out-datasource-options-e-g-startingoffsets-for-a-streaming-dataf

1条答案

按热度按时间

b1payxdu1#

您可以打印流式Dataframe的扩展计划： df.explain(true) .
这将打印出您的选项，如下所示：

[...]StreamingRelation DataSource(org.apache.spark.sql.SparkSession@149aa7b2,kafka,List(),None,List(),None,Map(startingOffsets -> {"test":{"0":120}}, failOnDataLoss -> false, subscribe -> test, kafka.bootstrap.servers -> localhost:9092),None), kafka,[...]

（请不要混淆，我使用了我的个人选项，这意味着它们偏离了您的设置。）

赞(0）回复(0）举报 2021-07-12

我来回答

如何打印流Dataframe的数据源选项(例如startingoffset)？

1条答案

相关问题

热门标签

最新问答