多棒啊 topandas 内部工作。我知道使用topandas方法可以将sparkDataframe转换为spark_df.topandas的pandasDataframe。触发后方法 topandas ,是将所有数据拉入驱动程序并转换为pandasDataframe,还是转换发生在worker中,pandasDataframe将在本地创建到worker节点?
topandas
emeijp431#
不分发Dataframe。 toPandas() 将导致Dataframe行被收集到驱动程序,然后转换为一个Dataframe,如文档中所述:托潘达斯()收集所有行并返回pandas.dataframe。因此,所有关于将数据收集到单个节点(本例中是驱动程序)的警告都适用于 toPandas 我也是。
toPandas()
toPandas
1条答案
按热度按时间emeijp431#
不分发Dataframe。
toPandas()
将导致Dataframe行被收集到驱动程序,然后转换为一个Dataframe,如文档中所述:托潘达斯()
收集所有行并返回pandas.dataframe。
因此,所有关于将数据收集到单个节点(本例中是驱动程序)的警告都适用于
toPandas
我也是。