hivecontext-datacopy从一个表复制到配置单元中的另一个表

whitzsjs  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(227)

我正在用sparksql代码将数据从一个配置单元表复制到另一个配置单元表(外部),数据量为7400万行(~50gb)。插入操作需要40多分钟。

hiveContext.sql("insert overwrite table dev_work.WORK_CUSTOMER select * from  dev_warehouse.CUSTOMER")

我尝试过其他数据复制方法,例如:
这些外部表的hdfs-cp: hdfs dfs -cp hdfs:/home/dummy/dev_dwh/CUSTOMER hdfs:/home/dummy/dev_work/WORK_CUSTOMER 进出口:

export table dev_warehouse.CUSTOMER to 'hdfs_exports_location/customer';
import external table dev_work.WORK_CUSTOMER from 'hdfs_exports_location/CUSTOMER';

群集详细信息:
cdh 5.8,19节点群集
请您帮助调整性能,以找到执行快速数据复制的替代方法。
谢谢,阿文

mnowg1ta

mnowg1ta1#

尝试 Hadoop DistCp 这是一个用于大型集群间/集群内复制的工具
http://hadoop.apache.org/docs/r2.7.3/hadoop-distcp/distcp.html

相关问题