apache arrow-并行处理的充分性

gzszwxb4 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(442)

我有一个巨大的数据集，正在使用apachespark进行数据处理。
使用apachearrow，我们可以将spark兼容的Dataframe转换为pandas兼容的Dataframe，并在其上运行操作。
通过转换Dataframe，它会达到spark中所看到的并行处理性能，还是会表现得像Pandas？

apache-spark pandas apache-arrow

来源：https://stackoverflow.com/questions/62707855/apache-arrow-adequacy-for-parallel-processing

1条答案

按热度按时间

nwsw7zdq1#

你可以在这里的文档中看到
注意，即使使用arrow，topandas（）也会将Dataframe中的所有记录收集到驱动程序，并且应该在数据的一小部分上完成
当数据移动到Dataframe时，数据将被发送到驱动程序。这意味着，如果有太多数据需要驱动程序处理，则可能会出现性能问题。因此，如果您决定使用pandas，请尝试在调用之前对数据进行分组 toPandas() 方法。
一旦转换成pandasDataframe，它就不会有同样的并行化，因为spark执行器不会处理那个场景。arrow的优点是能够直接从sparkDataframe移动到pandas，但是您必须考虑数据的大小
另一种可能是使用其他框架，如考拉。它有一些Pandas的“美”，但它融入了spark。

赞(0）回复(0）举报 2021-05-27

我来回答

apache arrow-并行处理的充分性

1条答案

相关问题

热门标签

最新问答