如何通过pyspark/hadoop等提高程序的速度?

iqih9akk  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(346)

我有一个大型矩阵的大目录,我正在对这些矩阵应用一些昂贵的操作。管道如下所示:

Directory -> extract matrices -> apply operations -> save in a .csv file

请注意,我将前面的“pipeline” Package 到一个函数中。到目前为止,使用python的多处理库,我能够在1周内应用上一个管道。然而,我很好奇是否有可能“并行化”在一个星火Map减少方式的前一个函数。因此,我的任务是否可以通过pysparks map reduce来增强?如何提高速度(我只有两台笔记本电脑),你们建议我用哪种方法来提高流水线的速度而不修改函数?。

7ajki6be

7ajki6be1#

我认为最简单的方法就是在更大的电脑上运行。spark和map reduce并不是为笔记本电脑设计的,而是为服务器设计的。你可以租用服务器(aws,google compute engine),在内存更大的服务器上运行你的管道(我建议至少32gb,最好是64gb或更高),cpu核更多(4个或更多)。在你实际租用服务器之前,你可以在免费层上模拟你的测试(aws和google都有免费层)。在那之后,你会向它扔更多的服务器。
https://aws.amazon.com/ec2/pricing/on-demand/ 以及https://cloud.google.com/compute/pricing 有定价细节,但你会惊讶于你能买到低于2美元/小时。

相关问题