使用hadoop存储和处理时间序列

t98cgbkg  于 2021-05-29  发布在  Hadoop
关注(0)|答案(3)|浏览(509)

我想从设备存储大量的时间序列。此外,这些时间序列必须经过验证,可以由操作员修改,并且必须导出到其他系统。必须找到时间序列中的漏洞。时间序列必须在按序列号和日期范围筛选的ui中显示。
我们考虑过在这个场景中使用hadoop、hbase、opentsdb和spark。
你觉得怎么样?spark能否轻松连接到opentsdb?
谢谢

cu6pst1q

cu6pst1q1#

看看axibase时间序列数据库,它有一个非常独特的版本控制功能,可以维护相同时间戳的值更改历史。一旦启用了每度量粒度,数据库将跟踪值修改的源、状态和时间,以进行审计跟踪或数据协调。
我们有客户使用网络api从spark应用程序流式传输数据,通常是在数据通过附加元数据(aks系列标记)进行丰富后,用于下游报告。
您可以使用restapi或sql从atsd查询数据。
免责声明:我为axibase工作。

8i9zcol2

8i9zcol22#

opentsdb非常适合存储大量的时间序列数据。在内部,它是由hbase支持的—这意味着它必须找到一种绕过hbase限制的方法才能很好地运行。结果,时间序列的表示被高度优化并且不容易解码。另外,没有现成的连接器可以将opentsdb中的数据提取到spark中。
以下github项目可能会为您提供一些指导:
achak1987连接器
如果您正在寻找可以帮助您处理时间序列的LIB,请查看spark ts—它还包含用于缺失数据插补的有用函数。

iq0todco

iq0todco3#

warp10提供了warpscript语言,可以从spark/pig/flink使用它来操纵时间序列,并通过warp10inputformat访问存储在warp10中的数据。
warp10是开源的,可以在www.warp10.io
免责声明:我是cityzen data的cto,warp 10的制造商。

相关问题