hadoop—为静态时间序列数据选择存储层

wmomyfyw  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(329)

总的来说,我对大数据技术一窍不通。我正在实施一个实时分析基础设施,它将从我们的微服务后端的不同服务中接收大量/高速数据。摄取的数据(和数据流)将用于填充关键业务指标、bi查询和机器学习的 Jmeter 板。
所有的后端服务都将数据事件写入一个kafka集群,该集群现在已经就位。我开始研究spark原型,从kafka集群读取数据并对其进行丰富/处理。
现在我正在研究在何处存储静态数据。我知道像vertica和terradata这样的实时分析技术相当流行。但他们有大量的前期资本投资。
所以我努力坚持开源。经过一番研究,我决定对静态数据使用hdfs/impala,并在hadoop上运行sql进行实时bi查询。
然后我开始思考,如果不使用hdfs/impala,而是使用cassandra来存储静态数据更有意义。Cassandra可以扩展,读写速度很快。我也读过一些文献,其中有人提出了使用c*的很好的理由。
欢迎任何意见/反馈。

6ju8rftf

6ju8rftf1#

我们在cassandra中存储了数PB的过期时间序列数据,我们对此非常满意。在摄取管道中,我们能够每秒进行数百万次写入,并且读取速度很快(亚毫秒)以显示/bi。对于大型ml任务,可以在cassandra上运行spark进行分析。

相关问题