hdfs中大于块大小的文件

wixjitnu 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(435)

众所周知，编写一个大于hdfs块大小的文件不是最佳的，许多非常小的文件也是如此。
但是，在执行 repartition('myColumn) spark中的操作它将为每个项创建一个分区（假设为一天），其中包含所有记录（作为单个文件），这些记录的大小可能为几gb（假设为20gb），而hdfs块大小配置为256MB。
文件太大真的不好吗？当读回文件时（假设它是一个可拆分的文件，比如带有gzip或zlib压缩的parquet或orc），spark正在创建 >> 1 每个文件的任务，也就是说，这是否意味着我不需要担心指定 maxRecordsPerFile /文件大小大于hdfs块大小？

hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/51408273/files-larger-than-block-size-in-hdfs