基于cassandra和hadoop的大数据lambda体系结构

qyyhg6bp 于 2021-05-29 发布在 Hadoop

关注(0)|答案(3)|浏览(456)

我正在为传感器数据和预测分析研究大数据解决方案。我对大数据还很陌生，并且读过关于lambda架构的书。我考虑过将cassandra数据库与hadoop结合使用。cassandra是一个高可用性和分区容限的数据库，hadoop hdfs是一个用于大型分析作业的文件系统。
如果我从物联网设备接收到数据，数据应该先保存在hadoop中，然后再保存到cassandra吗？lambda体系结构在批处理层使用hadoop，接收数据并将其发送到服务层到nosql数据库。
为什么在hadoop中数据应该放在第一位？如果hadoop包含原始数据，那么cassandra中会存储什么样的数据呢？
流层目前没有焦点。我只是想了解一下cassandra和hadoop的用法。
hadoop中的数据是用于大型分析的，而cassandra中应该有我hadoop工作的结果。
这是否意味着我可以将原始数据同时存储在这两个数据库中？我可以将我的原始数据存储在cassandra和hadoop中，如果不仅大型分析作业对我的应用程序有用？
例子

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (’1234ABCD’,’2013-04-03 07:02:00′,’73F’);

如果这是我的插页，我在一分钟内就有成千上万的插页。我想用hadoop做一些大的工作？
但我也需要我的应用程序的每一个数据行没有分析。Cassandra也在储存？

hadoop cassandra bigdata

来源：https://stackoverflow.com/questions/40735285/big-data-lambda-architecture-with-cassandra-and-hadoop

3条答案

按热度按时间

zpf6vheq1#

在延迟和吞吐量之间进行权衡。hadoop应该提供高吞吐量，但是延迟相当高。因此hadoop被用于lambda体系结构中的批处理。但是，当您想将预先计算的数据（或汇总的数据）传递到另一个层（如可视化层）时，可能会有这样的要求，这些预先计算的数据基本上存储在cassandra或hbase中，以降低延迟。

赞(0）回复(0）举报 2021-05-30

brqmpdu12#

当您从物联网设备接收数据时，您需要尽快保存这些数据。这正是Cassandra所擅长的。
由于数据量很大，在实际情况中，您不希望进行实时数据处理，而是希望进行批处理（例如，每夜）。
现在轮到hadoop了。
因此，您必须从cassandra中提取数据，然后放入hadoop的文件系统（hdfs），然后进行一些处理（通过hive或spark）。
您也可以考虑使用cassandra spark direct streaming作业，但我建议先从cassandra复制数据，因为这样可以将此数据用作沙盒（调试作业、测试新算法等），而不会对cassandra群集性能产生任何影响。

赞(0）回复(0）举报 2021-05-29

uqcuzwp83#

你可以在这里阅读Cassandra和大数据。
免责声明：我是这篇文章的作者。

赞(0）回复(0）举报 2021-05-29