我们的mysql和hadoop平台部署在不同的网络中,hadoop不能访问mysql,但mysql可以连接到hadoop。那么,有没有一种工具可以像sqoop fetch data那样将大量数据从rds推送到hdfs呢?或者有没有其他方法可以解决这个问题?感谢您的帮助。顺便说一句,hadoop集群通过在两边部署flume并连接在一起,消耗了我们网络中的一个kafka主题。但对于海量rds数据,如何做到这一点呢?
jtoj6r0c1#
在这里,为了将大量数据从mysql移动到hadoop,您有另一个选项/解决方案,即spark jdbc连接到mysql数据库,将数据引入hadoop集群。使用sqoop进行数据移动是将数据从rdbms导入hadoop集群的老技术。但是sparkjdbc解决方案是基于spark内存执行引擎的,它具有良好的性能记录和可靠的使用。
1条答案
按热度按时间jtoj6r0c1#
在这里,为了将大量数据从mysql移动到hadoop,您有另一个选项/解决方案,即spark jdbc连接到mysql数据库,将数据引入hadoop集群。
使用sqoop进行数据移动是将数据从rdbms导入hadoop集群的老技术。但是sparkjdbc解决方案是基于spark内存执行引擎的,它具有良好的性能记录和可靠的使用。