使用python将daskDataframe转换为sparkDataframe

alen0pnh  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(543)

我想把daskDataframe转换成sparkDataframe。
让我们考虑一下这个例子:

import dask.dataframe as dd
dask_df = dd.read_csv("file_name.csv")

# convert dask df to spark df

spark_df = spark_session.createDataFrame(dask_df)

但这是行不通的。有没有别的办法可以这样做。提前谢谢。

7y4bm7vi

7y4bm7vi1#

最好的选择是将Dataframe保存到文件中,例如,Parquet格式: dask_df.to_parquet(...) . 如果您的数据足够小,您可以将其完全加载到客户机中,并将生成的Dataframe提供给spark。
虽然可以将spark和dask worker放在同一个节点上,但是它们之间没有直接的通信,通过客户端传输大数据也不是一个好主意。

相关问题