我正在用一些spark作业进行实验,并试图比较emr和eks的性能。我使用的硬件是两个m5.2xlarge示例(8vcore,32gib内存)。原因是eks和emr通常共享硬件示例,因此比较性能更可靠。
我还分享了spark的配置:
--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g
(电子病历为spark 2.4.5,kubernetes为spark 3.0.0)
spark作业从s3读取一些json文件,并将parquet再次存储在s3上。我系统地在emr上从s3获得更快的写入和读取(在emr上大约快23%)。
这可能是因为对emr进行了特定于s3的优化吗?有什么办法可以让Kubernetes的表现更好呢?
暂无答案!
目前还没有任何答案,快来回答吧!