工业大数据架构(传感器数据)

2ledvvac  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(410)

一个新的项目来到我的手中,我自己看起来很有趣。我需要存储来自工业plc(控制工厂内的机器)的所有数据,plc中的每个事件都会生成一个输出,需要保存以供数据分析后使用。我想知道对于这种类型的数据(时间序列)来说,什么将是一个完美的匹配,以形成一个管理数据io的孔结构,并且目前只查询它的图形(稍后将应用机器学习分析进行预测性维护)。
我不知道我的工作方向是否正确,如果能从这方面的Maven那里学到一些知识,那将是一件好事。
io生产者(这是一个自己做的项目,不能不改变)
io事件层-->是ApacheKafka的一个选项,用于管理来自许多不同计算机(收集到PLC)的大量信号,并管理保存到nosql数据库的数据(适合吗?有更好的选择吗)
nosql数据库-->选择cassandra存储时间序列,这一点更清楚。
queryng nosql data-->我们选择spark进行快速查询和稍后的一些数据分析。
我比较怀疑的那一层是在存储之前管理io数据的那一层,我严重怀疑Kafka是正确的选择。
谢谢你的阅读,对不起我的英语不好;)请随便发表你的观点。

xt0899hw

xt0899hw1#

我们有一个基于传感器数据的类似项目。我们每天有大约30GB的数据。我们使用kafka流化数据并将其存储在hdfs中。我们有一套python(numpy、pandas和pyspark)以及spark,用于任何基本上用于预测部分的数据处理。至于你对Kafka的怀疑。。。它能够处理大型数据集。另一个好处是Kafka可以处理多种来源,而且更容易扩展。就数据存储而言,我建议您使用hdfs,因为它可以以多种方式使用数据。如果将来需要,您可以利用hive或hbase。

相关问题