我从twitter收集数据并将其存储在hdfs上。我想把这些tweet按照时间戳排序,但是这个查询需要很多时间。1.5 gb的数据需要1分钟来排序,我认为这比预期的要多得多。如何加快查询速度?谢谢你的帮助。
pw136qt21#
你不能指望从Hive里得到更快的东西。在我们的prod集群上,涉及批处理作业的mapreduce dag的查询的典型开销是20秒——这是一个精简而平均的jdbc连接;在hivecli中,还有20秒的时间来启动jvm和预热tez容器。如果需要关系型dbms的响应时间,只需使用mysql。或者是一个分布式的东西,比如免费版本的memsql。
1条答案
按热度按时间pw136qt21#
你不能指望从Hive里得到更快的东西。在我们的prod集群上,涉及批处理作业的mapreduce dag的查询的典型开销是20秒——这是一个精简而平均的jdbc连接;在hivecli中,还有20秒的时间来启动jvm和预热tez容器。
如果需要关系型dbms的响应时间,只需使用mysql。或者是一个分布式的东西,比如免费版本的memsql。