我正在尝试将整个表从我的rds示例(mysql 5.7)迁移到s3(csv文件)或hive。该表总共有2tb的数据。它有一个blob列,其中存储一个zip文件(通常为100kb,但可以达到5mb)。我用spark、sqoop和awsdms做了一些测试,但都有问题。我没有使用这些工具从rds导出数据的经验,所以我非常感谢您的帮助。对于这项任务,最推荐哪一个?你认为什么策略更有效?
yzckvree1#
您可以使用aws管道将rds数据复制到s3。这是一个例子,它做的事情。一旦以csv格式转储到s3,就可以很容易地使用spark读取数据并将其注册为配置单元表。
val df = spark.read.csv("s3://...") df.saveAsTable("mytable") // saves as hive
1条答案
按热度按时间yzckvree1#
您可以使用aws管道将rds数据复制到s3。这是一个例子,它做的事情。
一旦以csv格式转储到s3,就可以很容易地使用spark读取数据并将其注册为配置单元表。