我在delta表的readstream中遇到问题。
什么是预期的,参考以下链接https://docs.databricks.com/delta/delta-streaming.html#delta-表-as-a-stream-source ex:
spark.readStream.format("delta").table("events") -- As expected, should work fine
在这个问题上,我尝试了以下方法:
df.write.format("delta").saveAsTable("deltatable") -- Saved the Dataframe as a delta table
spark.readStream.format("delta").table("deltatable") -- Called readStream
错误:
Traceback (most recent call last):
File "<input>", line 1, in <module>
AttributeError: 'DataStreamReader' object has no attribute 'table'
注意:我正在localhost中运行它,使用pycharm ide,安装了pyspark的最新版本,spark版本=2.4.5,scala版本2.11.12
2条答案
按热度按时间xxls0lw81#
现在试试delta lake 0.7.0版本,它提供了对向hive元存储注册表的支持。正如在一篇评论中提到的,大多数delta-lake示例都使用文件夹路径,因为在此之前没有集成metastore支持。
另外请注意,delta lake的开源版本最好遵循https://docs.delta.io/latest/index.html
tp5buhyn2#
这个
DataStreamReader.table
以及DataStreamWriter.table
方法还不在apachespark中。目前您需要使用databricks笔记本才能调用它们。