我正在尝试使用将Parquet文件从hadoop集群复制到边缘节点 hadoop fs -get . Parquet文件大小约为2.4gb,但由数千个文件组成,每个文件大小约为2kb。这个过程需要很长时间。我能做些什么来加速进程,或者增加并发性?我不拥有群集,无法对其进行配置更改。
hadoop fs -get
nfeuvbwi1#
您可以尝试distcp而不是使用-get命令,前提是运行该命令的集群具有mapreduce支持https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html#basic_usage
1条答案
按热度按时间nfeuvbwi1#
您可以尝试distcp而不是使用-get命令,前提是运行该命令的集群具有mapreduce支持
https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html#basic_usage