如何配置Pypark作业基于Parquet输入？

yebdmbv4 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(207)

我所拥有的
2个Parquet格式的hdfs数据集：
1.6t（Parquet地板解压后将是2.8t），31列，我假设没有数据倾斜，所有数据均匀分布在hdfs上
200g（Parquet地板解压后为360g），5列，无数据倾斜，数据分布均匀
我使用aws emr集群运行pyspark作业。
我需要做什么
因为实验并不便宜，所以我想在集群上运行pyspark作业之前，根据输入配置和我的假设来计算pyspark作业配置。
这里有一些细节。我需要通过一个id列连接数据集，用第二个数据集（200g）的数据（只有3列：string，string，struct<int，string，string>）丰富第一个数据集（1.6t）。
问题
如何确定pyspark作业需要请求的执行器、cpu内核、内存和[磁盘]的数量？
（有什么通用公式吗？）

apache-spark amazon-emr performance amazon-web-services

来源：https://stackoverflow.com/questions/66419595/how-to-configure-pyspark-job-based-on-parquet-input

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何配置Pypark作业基于Parquet输入？

暂无答案！

相关问题

热门标签

最新问答