pyspark：delta表作为流源，怎么做？

cidc1ykv 于 2021-05-29 发布在 Spark

关注(0)|答案(2)|浏览(461)

我在delta表的readstream中遇到问题。
什么是预期的，参考以下链接https://docs.databricks.com/delta/delta-streaming.html#delta-表-as-a-stream-source ex：

spark.readStream.format("delta").table("events")  -- As expected, should work fine

在这个问题上，我尝试了以下方法：

df.write.format("delta").saveAsTable("deltatable")  -- Saved the Dataframe as a delta table

spark.readStream.format("delta").table("deltatable") -- Called readStream

错误：

Traceback (most recent call last):
File "<input>", line 1, in <module>
AttributeError: 'DataStreamReader' object has no attribute 'table'

注意：我正在localhost中运行它，使用pycharm ide，安装了pyspark的最新版本，spark版本=2.4.5，scala版本2.11.12

apache-spark pyspark databricks delta-lake

来源：https://stackoverflow.com/questions/62331522/pyspark-delta-table-as-stream-source-how-to-do-it

2条答案

按热度按时间

xxls0lw81#

现在试试delta lake 0.7.0版本，它提供了对向hive元存储注册表的支持。正如在一篇评论中提到的，大多数delta-lake示例都使用文件夹路径，因为在此之前没有集成metastore支持。
另外请注意，delta lake的开源版本最好遵循https://docs.delta.io/latest/index.html

赞(0）回复(0）举报 2021-05-29

tp5buhyn2#

这个 DataStreamReader.table 以及 DataStreamWriter.table 方法还不在apachespark中。目前您需要使用databricks笔记本才能调用它们。

赞(0）回复(0）举报 2021-05-29