我在aws glue中运行一个1mb数据的作业。完成需要2.5秒。pyspark框架被用于该工作。因此,在1gb的数据上,完成这项工作大约需要2.5*1000=2500秒。但当我在1gb数据上运行作业时,只花了20秒。这怎么可能?
jc3wubiy1#
默认情况下,glue job配置为使用10dpu运行,其中每个dpu有16gbram和4个vcore。因此,在您的情况下,即使您使用2个dpu运行作业,您仍然没有充分利用集群。执行时间并不像你计算的那样有效,而且还有很多额外的因素。
1条答案
按热度按时间jc3wubiy1#
默认情况下,glue job配置为使用10dpu运行,其中每个dpu有16gbram和4个vcore。因此,在您的情况下,即使您使用2个dpu运行作业,您仍然没有充分利用集群。
执行时间并不像你计算的那样有效,而且还有很多额外的因素。