如何使用databricks将.rdata文件转换为azure数据湖中的parquet？

wfypjpf4 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(463)

所以我有几个大的.rdata文件是通过使用r编程语言生成的。我目前已经上传到azure数据湖使用azure存储资源管理器。但我必须将这些rdata文件转换为parquet格式，然后将它们重新插入到数据湖中。我该怎么做呢？我似乎找不到任何关于从rdata转换为Parquet地板的信息。

apache-spark databricks Azure r azure-data-lake

来源：https://stackoverflow.com/questions/66069394/how-to-convert-rdata-file-to-parquet-in-azure-data-lake-using-databricks

1条答案

按热度按时间

vof42yt11#

如果可以使用python，那么可以加载一些库，比如pyreadr rdata 文件作为Dataframe。然后，您可以使用pandas写入parquet或转换为pysparkDataframe。像这样：

import pyreadr

result = pyreadr.read_r('input.rdata')

print(result.keys())  # check the object name
df = result["object"]  # extract the pandas data frame for object name

sdf = spark.createDataFrame(df)

sdf.write.parquet("output")

赞(0）回复(0）举报 2021-07-13

我来回答

如何使用databricks将.rdata文件转换为azure数据湖中的parquet？

1条答案

相关问题

热门标签

最新问答