我们在sql server中有plc数据,每5分钟更新一次。必须在同一时间间隔内将数据推送到cloudera分发中的hdfs。有哪些可用的工具?
i86rm4rw1#
你可以用谷歌搜索名为sqoop的工具。它是一个开源软件。
c3frrgcw2#
我建议用合流的Kafka来完成这个任务(https://www.confluent.io/product/connectors/).其思路如下:sqlserver-->[jdbc连接器]-->kafka-->[hdfs连接器]-->hdfs所有这些连接器都已通过合流网站提供。
ds97pgxw3#
我假设您的数据正在本地fs的某个目录中写入。你可以使用一些流引擎来完成这个任务。既然你把这个贴上了 apache-spark ,我会给你Spark流解决方案。使用结构化流媒体,流媒体消费者将监视您的数据目录。spark streaming以可配置的微批量(流等待时间)读取和处理数据,在您的情况下,这将是5分钟的持续时间。您可以将每个微批中的数据保存为文本文件,这些文本文件将使用cloudera hadoop集群进行存储。如果这有帮助,请告诉我。干杯。
apache-spark
3条答案
按热度按时间i86rm4rw1#
你可以用谷歌搜索名为sqoop的工具。它是一个开源软件。
c3frrgcw2#
我建议用合流的Kafka来完成这个任务(https://www.confluent.io/product/connectors/).
其思路如下:
sqlserver-->[jdbc连接器]-->kafka-->[hdfs连接器]-->hdfs
所有这些连接器都已通过合流网站提供。
ds97pgxw3#
我假设您的数据正在本地fs的某个目录中写入。你可以使用一些流引擎来完成这个任务。既然你把这个贴上了
apache-spark
,我会给你Spark流解决方案。使用结构化流媒体,流媒体消费者将监视您的数据目录。spark streaming以可配置的微批量(流等待时间)读取和处理数据,在您的情况下,这将是5分钟的持续时间。您可以将每个微批中的数据保存为文本文件,这些文本文件将使用cloudera hadoop集群进行存储。
如果这有帮助,请告诉我。干杯。