运行s3distcp时设置hdfs复制因子

f5emj3cl 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(379)

我使用s3distcp将内容从s3复制到amazonemrhdfs。对于某些工作，我的空间不足，希望通过减少复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人能在这个问题上帮忙吗？

hadoop mapreduce amazon-web-services emr

来源：https://stackoverflow.com/questions/33600891/set-hdfs-replication-factor-while-running-s3distcp

1条答案

按热度按时间

nzrxty8p1#

您通常不希望逐个作业修改集群的复制因子。复制用于数据冗余（在发生故障时）和提高性能（通过使数据更接近计算操作）。最好将集群保留为预定义的值。
默认情况下，amazon emr将1-3个核心节点的默认复制因子设置为1，将4-9个核心节点的值设置为2，将10+个核心节点的值设置为3。
理论上你可以改变 dfs.replication 设置，但这可能不是解决当前问题的最佳方法。

赞(0）回复(0）举报 2021-06-03

我来回答

运行s3distcp时设置hdfs复制因子

1条答案

相关问题

热门标签

最新问答