我用的是星火上的Hive。我在hadoop中压缩了日志文件。它们的平均大小是40MB,而块大小是128MB。我相信,如果我以某种方式连接日志文件,我将有更少的块,数据读取时间将减少。e、 我每小时都有日志文件(每天24个文件->24个块)。聚合后,我有一个文件(24小时)在6块。我已经使用配置单元运行了基准测试,并且注意到连接后的读取时间和查询执行时间增加了6倍。问题是:我对hadoop-hive-on-spark的看法有什么错?
envsm3lx1#
gzip文本文件不可拆分。您的原始数据已被多个Map程序读取。您的合并数据正在由单个Map器读取。
1条答案
按热度按时间envsm3lx1#
gzip文本文件不可拆分。
您的原始数据已被多个Map程序读取。
您的合并数据正在由单个Map器读取。