bigdata—在hadoop中处理最后一块数据

hiz5n14c  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(331)

假设文件xyz的数据大小为68mb。所以块(默认块是64mb)将是a-64mb和b-4mb。在b块中,剩余的空间被另一个数据块占用。
因此,当对xyz数据文件进行处理时,将处理a和b块数据。由于b块也包含另一个文件的数据,hadoop如何知道在b块的情况下处理块的哪一部分?

yrdbyhpb

yrdbyhpb1#

如果你有文件( XYZ )68MB,假设块大小为 64MB 然后将数据分成两个块。a座将储存 64MB 然后block-b将存储 4MB 并且该块将被关闭(这里没有空间浪费),没有其他文件的数据将被放入block-b。
因此,在处理时,mapreduce确切地知道要为特定文件处理哪些块。当然,还有其他约束,比如输入分割,mapreduce在处理块以确定记录边界时会考虑这些约束。

相关问题