olap实时查询海量数据-选项

gcxthw6b  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(387)

我们有一个具有1800亿行和100多列的olap表,在hive中的容量接近8tb。大多数列都是维度,而且我们也很少有度量列。我们想建立一个实时系统来支持ad-hoc查询来运行 Jmeter 板应用程序,其中的查询应该在10秒内执行。
我们现在正在寻找构建这种实时临时查询系统的选项,我们正在检查可能的选项,实际上正在努力选择一个正确的系统。我们正在看
presto可以用来直接查询hdfs,但我们不确定它是否支持在如此大的卷上进行低延迟查询。
cassandra,根据查询构建预聚集视图。
Druid,构建预先聚集的视图,看起来很有趣,但似乎没有任何企业支持。
在这里,我们实际上正在努力从这些组件中做出选择,而且我们也不确定是否遗漏了任何其他可能适合此需求的相关工具。
我们正在寻找能够与hdfs紧密交互的工具/数据库,如果它的读取性能适合大容量,我们也可以考虑其他任何工具。
我恳请您的帮助,指导我有关组件的选择,也请建议我,如果我有看到任何其他工具。

prdp8dxp

prdp8dxp1#

嗨,你在这里看到的https://cwiki.apache.org/confluence/display/hive/druid+integration druid正与hive紧密集成,这将使它能够完全支持您的用例,其中一些数据可以从像druid这样的快速数据存储中查询,具有复杂连接的重量查询可以进入hive。还要注意的是,从上面列出的解决方案来看,只有Druid有一个健壮的(亚秒延迟)实时摄取firehose集成了kafka、storm、flink rabitmq,而且这个列表还在继续。。。从支持的Angular 来看,注意druid有一个非常活跃的开源社区,加上它被数百家公司使用,包括像yahoo netflix这样的大公司。。。。此外,至少有两家公司将提供企业支持,即hortonworks和imple。

相关问题