我需要在hadoop上保存kafka的流,我使用了hive。流式批处理每5分钟处理一次kafka的内容,并将其保存在一个配置单元表中,每次保存时生成一个小文件(70kb),从而降低读取速度。您可以将配置单元配置为每次写入时都将文件压缩到128mb大小?或者我需要执行手动hdfs命令吗?
我尝试如下设置配置单元,但问题没有解决:
SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=128000000;
SET hive.merge.smallfiles.avgsize=128000000;
暂无答案!
目前还没有任何答案,快来回答吧!