我所拥有的
2个Parquet格式的hdfs数据集:
1.6t(Parquet地板解压后将是2.8t),31列,我假设没有数据倾斜,所有数据均匀分布在hdfs上
200g(Parquet地板解压后为360g),5列,无数据倾斜,数据分布均匀
我使用aws emr集群运行pyspark作业。
我需要做什么
因为实验并不便宜,所以我想在集群上运行pyspark作业之前,根据输入配置和我的假设来计算pyspark作业配置。
这里有一些细节。我需要通过一个id列连接数据集,用第二个数据集(200g)的数据(只有3列:string,string,struct<int,string,string>)丰富第一个数据集(1.6t)。
问题
如何确定pyspark作业需要请求的执行器、cpu内核、内存和[磁盘]的数量?
(有什么通用公式吗?)
暂无答案!
目前还没有任何答案,快来回答吧!