cloudera中从sqlserver到hdfs的近实时数据摄取

j0pj023g  于 2021-06-08  发布在  Kafka
关注(0)|答案(3)|浏览(369)

我们在sql server中有plc数据,每5分钟更新一次。必须在同一时间间隔内将数据推送到cloudera分发中的hdfs。有哪些可用的工具?

i86rm4rw

i86rm4rw1#

你可以用谷歌搜索名为sqoop的工具。它是一个开源软件。

c3frrgcw

c3frrgcw2#

我建议用合流的Kafka来完成这个任务(https://www.confluent.io/product/connectors/).
其思路如下:
sqlserver-->[jdbc连接器]-->kafka-->[hdfs连接器]-->hdfs
所有这些连接器都已通过合流网站提供。

ds97pgxw

ds97pgxw3#

我假设您的数据正在本地fs的某个目录中写入。你可以使用一些流引擎来完成这个任务。既然你把这个贴上了 apache-spark ,我会给你Spark流解决方案。
使用结构化流媒体,流媒体消费者将监视您的数据目录。spark streaming以可配置的微批量(流等待时间)读取和处理数据,在您的情况下,这将是5分钟的持续时间。您可以将每个微批中的数据保存为文本文件,这些文本文件将使用cloudera hadoop集群进行存储。
如果这有帮助,请告诉我。干杯。

相关问题