工业大数据架构(传感器数据)

2ledvvac 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(410)

一个新的项目来到我的手中，我自己看起来很有趣。我需要存储来自工业plc（控制工厂内的机器）的所有数据，plc中的每个事件都会生成一个输出，需要保存以供数据分析后使用。我想知道对于这种类型的数据（时间序列）来说，什么将是一个完美的匹配，以形成一个管理数据io的孔结构，并且目前只查询它的图形（稍后将应用机器学习分析进行预测性维护）。
我不知道我的工作方向是否正确，如果能从这方面的Maven那里学到一些知识，那将是一件好事。
io生产者（这是一个自己做的项目，不能不改变）
io事件层-->是ApacheKafka的一个选项，用于管理来自许多不同计算机（收集到PLC）的大量信号，并管理保存到nosql数据库的数据(适合吗？有更好的选择吗）
nosql数据库-->选择cassandra存储时间序列，这一点更清楚。
queryng nosql data-->我们选择spark进行快速查询和稍后的一些数据分析。
我比较怀疑的那一层是在存储之前管理io数据的那一层，我严重怀疑Kafka是正确的选择。
谢谢你的阅读，对不起我的英语不好；）请随便发表你的观点。

cassandra apache-kafka apache-spark bigdata

来源：https://stackoverflow.com/questions/28324323/big-data-architecture-for-industry-sensor-data

1条答案

按热度按时间

xt0899hw1#

我们有一个基于传感器数据的类似项目。我们每天有大约30GB的数据。我们使用kafka流化数据并将其存储在hdfs中。我们有一套python（numpy、pandas和pyspark）以及spark，用于任何基本上用于预测部分的数据处理。至于你对Kafka的怀疑。。。它能够处理大型数据集。另一个好处是Kafka可以处理多种来源，而且更容易扩展。就数据存储而言，我建议您使用hdfs，因为它可以以多种方式使用数据。如果将来需要，您可以利用hive或hbase。

赞(0）回复(0）举报 2021-06-09

我来回答

工业大数据架构(传感器数据)

1条答案

相关问题

热门标签

最新问答