拆分和块之间的区别在于,块是存储在hdfs上的物理数据,而拆分是由inputformat(如textinputformat、fileinputformat等)计算/生成的数据。
我在许多地方读到,如果我们想减少Map任务的数量,建议增加分割大小而不是块大小。但是,有人能告诉我为什么会这样吗?
另外,在下面不同的场景中,改变拆分大小与dfs块大小会有什么后果(假设初始拆分大小和块大小为64mb)
增加分割大小并保持dfs块大小不变
这将减少map TAK的数量。
拆分大小不变,但dfs块大小增加
在这种情况下,Map任务的数量不会随着分割大小的保持而改变(我的理解正确吗?)
分割大小和dfs块大小都增加了
这将减少Map任务的数量。
我在不同情况下的上述理解是否正确?如果是这样,有谁能告诉我场景1和场景3之间的区别/后果是什么。
暂无答案!
目前还没有任何答案,快来回答吧!