我们在hbase中有数据,我们想迁移到aws aurora(mysql),我们需要使用现有的数据,因此必须以某种方式将nosql数据加载到aurora中。
这不是一个很大的数据库。只有几张table。
有什么最佳实践/工具可以将数据从nosql迁移到关系数据库吗?我在网上看到了很多相反的问题(db->nosql),但是我的要求有点不同,我没有找到任何有用的信息。
有人能帮忙吗?我从哪里开始?
我们在hbase中有数据,我们想迁移到aws aurora(mysql),我们需要使用现有的数据,因此必须以某种方式将nosql数据加载到aurora中。
这不是一个很大的数据库。只有几张table。
有什么最佳实践/工具可以将数据从nosql迁移到关系数据库吗?我在网上看到了很多相反的问题(db->nosql),但是我的要求有点不同,我没有找到任何有用的信息。
有人能帮忙吗?我从哪里开始?
1条答案
按热度按时间vmjh9lq91#
在不编写太多自定义代码的情况下,一种简单的方法是使用hortonworks(shc)的spark hbase connector将hbase表中的数据读入spark dataframe,并将该dataframe写入mysql表。关键的挑战是让shc工作起来,因为根据我的经验,它对版本非常敏感。因此,诀窍是正确地协调spark、hbase和shc的版本(找到正确的组合比你想象的要复杂得多)。
但是,如果您成功地获得了所有的依赖项,那么在jupyter notebook或pyspark中只需编写几行代码就可以完成上述操作。您可以在yarn上运行它来并行化工作负载,以防工作量过大。应该有用。试试看。