我们有快速压缩生成的orc文件。我只是想了解orc文件转储日志,我知道默认情况下orc的条带大小是64mb。但是,我看到orc文件中的每个条带通常都有大约5-10mb的大小。我只想知道大小是用压缩格式表示,还是我的默认条带本身小于64mb?注意:我在后台使用最新的emr示例,文件在s3中。
8zzbczxx1#
条带大小表示缓冲区内存大小,分配给它将行存储更改为列存储,然后写入hdfs。因此,您在hdfs中看到的条带总是小于条带的大小(即64 mb)。
1条答案
按热度按时间8zzbczxx1#
条带大小表示缓冲区内存大小,分配给它将行存储更改为列存储,然后写入hdfs。因此,您在hdfs中看到的条带总是小于条带的大小(即64 mb)。