apachespark可以代替sqoop吗

falq053o  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(905)

我曾尝试将spark与jdbc连接起来,从mysql/teradata或类似的rdbms获取数据,并能够分析数据。
spark可以用来将数据存储到hdfs吗?spark是否有可能超越sqoop的活动。
寻找有价值的答案和解释。

mlmc2os5

mlmc2os51#

主要有两件事 Sqoop 以及 Spark . 主要的区别是sqoop将从rdm读取数据,这与您拥有的数据无关,而且您不需要太担心表的配置方式。
使用jdbc连接的spark与加载数据的方式略有不同。如果您的数据库没有任何列(如numeric id或timestamp),spark将在一个分区中加载所有数据。然后将尝试处理和保存。如果有一列用作分区,那么spark有时甚至可以比sqoop更快。
我建议你看看这个文件。在这里输入链接说明
结论是,如果您要做一个简单的导出,并且需要每天进行,而不需要进行转换,那么我建议sqoop使用简单,不会对您的数据库造成太大的影响。如果您的表已经准备好使用spark,那么使用spark会很好,此外,sqoop也是如此

相关问题