如何通过pyspark/hadoop等提高程序的速度？

iqih9akk 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(346)

我有一个大型矩阵的大目录，我正在对这些矩阵应用一些昂贵的操作。管道如下所示：

Directory -> extract matrices -> apply operations -> save in a .csv file

请注意，我将前面的“pipeline” Package 到一个函数中。到目前为止，使用python的多处理库，我能够在1周内应用上一个管道。然而，我很好奇是否有可能“并行化”在一个星火Map减少方式的前一个函数。因此，我的任务是否可以通过pysparks map reduce来增强？如何提高速度(我只有两台笔记本电脑），你们建议我用哪种方法来提高流水线的速度而不修改函数？。

hadoop mapreduce python pyspark bigdata

来源：https://stackoverflow.com/questions/43727826/how-to-increase-the-speed-of-a-procedure-via-pyspark-hadoop-etc

1条答案

按热度按时间

7ajki6be1#

我认为最简单的方法就是在更大的电脑上运行。spark和map reduce并不是为笔记本电脑设计的，而是为服务器设计的。你可以租用服务器（aws，google compute engine），在内存更大的服务器上运行你的管道（我建议至少32gb，最好是64gb或更高），cpu核更多（4个或更多）。在你实际租用服务器之前，你可以在免费层上模拟你的测试（aws和google都有免费层）。在那之后，你会向它扔更多的服务器。
https://aws.amazon.com/ec2/pricing/on-demand/ 以及https://cloud.google.com/compute/pricing 有定价细节，但你会惊讶于你能买到低于2美元/小时。

赞(0）回复(0）举报 2021-05-29

我来回答

如何通过pyspark/hadoop等提高程序的速度？

1条答案

相关问题

热门标签

最新问答