如何加速从hdfs检索大量小文件

c7rzv4ha 于 2021-07-13 发布在 Hadoop

关注(0)|答案(1)|浏览(386)

我正在尝试使用将Parquet文件从hadoop集群复制到边缘节点 hadoop fs -get . Parquet文件大小约为2.4gb，但由数千个文件组成，每个文件大小约为2kb。这个过程需要很长时间。
我能做些什么来加速进程，或者增加并发性？
我不拥有群集，无法对其进行配置更改。

hadoop hdfs parquet

来源：https://stackoverflow.com/questions/67057974/how-to-speed-up-retrieval-of-a-large-number-of-small-files-from-hdfs

1条答案

按热度按时间

您可以尝试distcp而不是使用-get命令，前提是运行该命令的集群具有mapreduce支持
https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html#basic_usage

赞(0）回复(0）举报 2021-07-13

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 7个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 7个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 7个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 7个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 7个月前