我需要从hadoopdatalake(kerberos认证)导入数据到aws的建议。配置单元表中的所有表都应该在s3中着陆,然后需要加载到awsrds。我考虑过以下几种选择:1)aws胶水?2) spark连接到hive metastore?3) 从aws连接到 Impala ?
大约有50张table需要进口。如何维护模式?导入数据然后在rds中创建一个单独的模式是否更好?
我需要从hadoopdatalake(kerberos认证)导入数据到aws的建议。配置单元表中的所有表都应该在s3中着陆,然后需要加载到awsrds。我考虑过以下几种选择:1)aws胶水?2) spark连接到hive metastore?3) 从aws连接到 Impala ?
大约有50张table需要进口。如何维护模式?导入数据然后在rds中创建一个单独的模式是否更好?
1条答案
按热度按时间ss2ws0br1#
就我个人而言,我会把所有需要移动的表的列表都转储掉。
从那开始,快跑
SHOW CREATE TABLE
然后保存查询。运行distcp,或者以其他方式将数据移动到s3/ebs
编辑每个create table命令以指定云数据存储中的配置单元表位置。我相信您需要将所有这些都作为外部表,因为您不能将数据直接放入hive仓库目录并让metastore立即知道它。
在aws配置单元连接上运行所有命令。
我的同事都坐过马戏团的火车
Impala 和星火是用来加工的。你需要处理的主要是Hive元存储。