我正在寻找一种不用pyspark就能写回python中的delta表的方法。我知道有一个名为deltalake/delta-lake-reader的库,可以用来读取delta表并将其转换为pandas Dataframe 。
目标是写回打开的delta表
输入代码如下所示:
from deltalake import DeltaTable
dt = DeltaTable('path/file')
df = dt.to_pandas()
那么,有没有什么方法可以让这样的东西从pandas dataframe写回delta表:
df = pandadf.to_delta()
DeltaTable.write(df, 'path/file')
感谢您的帮助!
2条答案
按热度按时间ldxq2e6h1#
现在支持了!!!,请参见此示例
a64a0gku2#
@Mim是正确的。这只是提供了更多的信息。
目前,您可以使用delta-rs直接读写Delta Lake。
您可以通过
pip install deltalake
或conda install -c conda-forge delta-spark
安装。写S3
要删除
AWS_S3_ALLOW_UNSAFE_RENAME
并并发写入,需要设置DynamoDB lock。请按照this GitHub ticket了解有关如何正确设置的更多更新。