hive太慢了,我怎么能把小文件分组呢?

c6ubokkw  于 2021-05-31  发布在  Hadoop
关注(0)|答案(0)|浏览(201)

我需要在hadoop上保存kafka的流,我使用了hive。流式批处理每5分钟处理一次kafka的内容,并将其保存在一个配置单元表中,每次保存时生成一个小文件(70kb),从而降低读取速度。您可以将配置单元配置为每次写入时都将文件压缩到128mb大小?或者我需要执行手动hdfs命令吗?
我尝试如下设置配置单元,但问题没有解决:

SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=128000000;
SET hive.merge.smallfiles.avgsize=128000000;

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题