如何将一个2tb表从rds示例导出到s3或hive?

ep6jt1vc  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(444)

我正在尝试将整个表从我的rds示例(mysql 5.7)迁移到s3(csv文件)或hive。
该表总共有2tb的数据。它有一个blob列,其中存储一个zip文件(通常为100kb,但可以达到5mb)。
我用spark、sqoop和awsdms做了一些测试,但都有问题。我没有使用这些工具从rds导出数据的经验,所以我非常感谢您的帮助。
对于这项任务,最推荐哪一个?你认为什么策略更有效?

yzckvree

yzckvree1#

您可以使用aws管道将rds数据复制到s3。这是一个例子,它做的事情。
一旦以csv格式转储到s3,就可以很容易地使用spark读取数据并将其注册为配置单元表。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive

相关问题