我使用s3distcp将内容从s3复制到amazonemrhdfs。对于某些工作,我的空间不足,希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人能在这个问题上帮忙吗?
nzrxty8p1#
您通常不希望逐个作业修改集群的复制因子。复制用于数据冗余(在发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。默认情况下,amazon emr将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。理论上你可以改变 dfs.replication 设置,但这可能不是解决当前问题的最佳方法。
dfs.replication
1条答案
按热度按时间nzrxty8p1#
您通常不希望逐个作业修改集群的复制因子。复制用于数据冗余(在发生故障时)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。
默认情况下,amazon emr将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+个核心节点的值设置为3。
理论上你可以改变
dfs.replication
设置,但这可能不是解决当前问题的最佳方法。