cloudera中从sqlserver到hdfs的近实时数据摄取

j0pj023g 于 2021-06-08 发布在 Kafka

关注(0)|答案(3)|浏览(383)

我们在sql server中有plc数据，每5分钟更新一次。必须在同一时间间隔内将数据推送到cloudera分发中的hdfs。有哪些可用的工具？

apache-kafka apache-spark sql-server cloudera real-time

来源：https://stackoverflow.com/questions/45609785/near-real-time-data-ingestion-from-sql-server-to-hdfs-in-cloudera

3条答案

按热度按时间

i86rm4rw1#

你可以用谷歌搜索名为sqoop的工具。它是一个开源软件。

赞(0）回复(0）举报 2021-06-08

c3frrgcw2#

我建议用合流的Kafka来完成这个任务(https://www.confluent.io/product/connectors/).
其思路如下：
sqlserver-->[jdbc连接器]-->kafka-->[hdfs连接器]-->hdfs
所有这些连接器都已通过合流网站提供。

赞(0）回复(0）举报 2021-06-08

ds97pgxw3#

我假设您的数据正在本地fs的某个目录中写入。你可以使用一些流引擎来完成这个任务。既然你把这个贴上了 apache-spark ，我会给你Spark流解决方案。
使用结构化流媒体，流媒体消费者将监视您的数据目录。spark streaming以可配置的微批量（流等待时间）读取和处理数据，在您的情况下，这将是5分钟的持续时间。您可以将每个微批中的数据保存为文本文件，这些文本文件将使用cloudera hadoop集群进行存储。
如果这有帮助，请告诉我。干杯。

赞(0）回复(0）举报 2021-06-08

我来回答

cloudera中从sqlserver到hdfs的近实时数据摄取

3条答案

相关问题

热门标签

最新问答