运行s3distcp时设置hdfs复制因子

f5emj3cl  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(380)

我使用s3distcp将内容从s3复制到amazonemrhdfs。对于某些工作,我的空间不足,希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人能在这个问题上帮忙吗?

nzrxty8p

nzrxty8p1#

您通常不希望逐个作业修改集群的复制因子。复制用于数据冗余(在发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。
默认情况下,amazon emr将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。
理论上你可以改变 dfs.replication 设置,但这可能不是解决当前问题的最佳方法。

相关问题