pyspark方法topandas内部

qnzebej0  于 2021-05-18  发布在  Spark
关注(0)|答案(1)|浏览(879)

多棒啊 topandas 内部工作。我知道使用topandas方法可以将sparkDataframe转换为spark_df.topandas的pandasDataframe。
触发后方法 topandas ,是将所有数据拉入驱动程序并转换为pandasDataframe,还是转换发生在worker中,pandasDataframe将在本地创建到worker节点?

emeijp43

emeijp431#

不分发Dataframe。 toPandas() 将导致Dataframe行被收集到驱动程序,然后转换为一个Dataframe,如文档中所述:
托潘达斯()
收集所有行并返回pandas.dataframe。
因此,所有关于将数据收集到单个节点(本例中是驱动程序)的警告都适用于 toPandas 我也是。

相关问题