我想把daskDataframe转换成sparkDataframe。让我们考虑一下这个例子:
import dask.dataframe as dd dask_df = dd.read_csv("file_name.csv") # convert dask df to spark df spark_df = spark_session.createDataFrame(dask_df)
但这是行不通的。有没有别的办法可以这样做。提前谢谢。
7y4bm7vi1#
最好的选择是将Dataframe保存到文件中,例如,Parquet格式: dask_df.to_parquet(...) . 如果您的数据足够小,您可以将其完全加载到客户机中,并将生成的Dataframe提供给spark。虽然可以将spark和dask worker放在同一个节点上,但是它们之间没有直接的通信,通过客户端传输大数据也不是一个好主意。
dask_df.to_parquet(...)
1条答案
按热度按时间7y4bm7vi1#
最好的选择是将Dataframe保存到文件中,例如,Parquet格式:
dask_df.to_parquet(...)
. 如果您的数据足够小,您可以将其完全加载到客户机中,并将生成的Dataframe提供给spark。虽然可以将spark和dask worker放在同一个节点上,但是它们之间没有直接的通信,通过客户端传输大数据也不是一个好主意。