如何提高hive的速度

nwnhqdif  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(517)

我从twitter收集数据并将其存储在hdfs上。我想把这些tweet按照时间戳排序,但是这个查询需要很多时间。
1.5 gb的数据需要1分钟来排序,我认为这比预期的要多得多。
如何加快查询速度?
谢谢你的帮助。

pw136qt2

pw136qt21#

你不能指望从Hive里得到更快的东西。在我们的prod集群上,涉及批处理作业的mapreduce dag的查询的典型开销是20秒——这是一个精简而平均的jdbc连接;在hivecli中,还有20秒的时间来启动jvm和预热tez容器。
如果需要关系型dbms的响应时间,只需使用mysql。或者是一个分布式的东西,比如免费版本的memsql。

相关问题