olap实时查询海量数据-选项

gcxthw6b 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(388)

我们有一个具有1800亿行和100多列的olap表，在hive中的容量接近8tb。大多数列都是维度，而且我们也很少有度量列。我们想建立一个实时系统来支持ad-hoc查询来运行 Jmeter 板应用程序，其中的查询应该在10秒内执行。
我们现在正在寻找构建这种实时临时查询系统的选项，我们正在检查可能的选项，实际上正在努力选择一个正确的系统。我们正在看
presto可以用来直接查询hdfs，但我们不确定它是否支持在如此大的卷上进行低延迟查询。
cassandra，根据查询构建预聚集视图。
Druid，构建预先聚集的视图，看起来很有趣，但似乎没有任何企业支持。
在这里，我们实际上正在努力从这些组件中做出选择，而且我们也不确定是否遗漏了任何其他可能适合此需求的相关工具。
我们正在寻找能够与hdfs紧密交互的工具/数据库，如果它的读取性能适合大容量，我们也可以考虑其他任何工具。
我恳请您的帮助，指导我有关组件的选择，也请建议我，如果我有看到任何其他工具。

hadoop cassandra presto nosql druid

来源：https://stackoverflow.com/questions/40517830/olap-realtime-querying-for-huge-volume-data-options

1条答案

按热度按时间

prdp8dxp1#

嗨，你在这里看到的https://cwiki.apache.org/confluence/display/hive/druid+integration druid正与hive紧密集成，这将使它能够完全支持您的用例，其中一些数据可以从像druid这样的快速数据存储中查询，具有复杂连接的重量查询可以进入hive。还要注意的是，从上面列出的解决方案来看，只有Druid有一个健壮的（亚秒延迟）实时摄取firehose集成了kafka、storm、flink rabitmq，而且这个列表还在继续。。。从支持的Angular 来看，注意druid有一个非常活跃的开源社区，加上它被数百家公司使用，包括像yahoo netflix这样的大公司。。。。此外，至少有两家公司将提供企业支持，即hortonworks和imple。

赞(0）回复(0）举报 2021-06-03

我来回答

olap实时查询海量数据-选项

1条答案

相关问题

热门标签

最新问答