所以我有几个大的.rdata文件是通过使用r编程语言生成的。我目前已经上传到azure数据湖使用azure存储资源管理器。但我必须将这些rdata文件转换为parquet格式,然后将它们重新插入到数据湖中。我该怎么做呢?我似乎找不到任何关于从rdata转换为Parquet地板的信息。
vof42yt11#
如果可以使用python,那么可以加载一些库,比如pyreadr rdata 文件作为Dataframe。然后,您可以使用pandas写入parquet或转换为pysparkDataframe。像这样:
rdata
import pyreadr result = pyreadr.read_r('input.rdata') print(result.keys()) # check the object name df = result["object"] # extract the pandas data frame for object name sdf = spark.createDataFrame(df) sdf.write.parquet("output")
1条答案
按热度按时间vof42yt11#
如果可以使用python,那么可以加载一些库,比如pyreadr
rdata
文件作为Dataframe。然后,您可以使用pandas写入parquet或转换为pysparkDataframe。像这样: