基于cassandra和hadoop的大数据lambda体系结构

qyyhg6bp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(456)

我正在为传感器数据和预测分析研究大数据解决方案。我对大数据还很陌生,并且读过关于lambda架构的书。我考虑过将cassandra数据库与hadoop结合使用。cassandra是一个高可用性和分区容限的数据库,hadoop hdfs是一个用于大型分析作业的文件系统。
如果我从物联网设备接收到数据,数据应该先保存在hadoop中,然后再保存到cassandra吗?lambda体系结构在批处理层使用hadoop,接收数据并将其发送到服务层到nosql数据库。
为什么在hadoop中数据应该放在第一位?如果hadoop包含原始数据,那么cassandra中会存储什么样的数据呢?
流层目前没有焦点。我只是想了解一下cassandra和hadoop的用法。
hadoop中的数据是用于大型分析的,而cassandra中应该有我hadoop工作的结果。
这是否意味着我可以将原始数据同时存储在这两个数据库中?我可以将我的原始数据存储在cassandra和hadoop中,如果不仅大型分析作业对我的应用程序有用?
例子

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (’1234ABCD’,’2013-04-03 07:02:00′,’73F’);

如果这是我的插页,我在一分钟内就有成千上万的插页。我想用hadoop做一些大的工作?
但我也需要我的应用程序的每一个数据行没有分析。Cassandra也在储存?

zpf6vheq

zpf6vheq1#

在延迟和吞吐量之间进行权衡。hadoop应该提供高吞吐量,但是延迟相当高。因此hadoop被用于lambda体系结构中的批处理。但是,当您想将预先计算的数据(或汇总的数据)传递到另一个层(如可视化层)时,可能会有这样的要求,这些预先计算的数据基本上存储在cassandra或hbase中,以降低延迟。

brqmpdu1

brqmpdu12#

当您从物联网设备接收数据时,您需要尽快保存这些数据。这正是Cassandra所擅长的。
由于数据量很大,在实际情况中,您不希望进行实时数据处理,而是希望进行批处理(例如,每夜)。
现在轮到hadoop了。
因此,您必须从cassandra中提取数据,然后放入hadoop的文件系统(hdfs),然后进行一些处理(通过hive或spark)。
您也可以考虑使用cassandra spark direct streaming作业,但我建议先从cassandra复制数据,因为这样可以将此数据用作沙盒(调试作业、测试新算法等),而不会对cassandra群集性能产生任何影响。

uqcuzwp8

uqcuzwp83#

你可以在这里阅读Cassandra和大数据。
免责声明:我是这篇文章的作者。

相关问题