将小文件合并成大文件以用于hadoop分布式缓存？

kupeojn6 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(330)

我有很多小文件（大小~1mb）需要分发。众所周知，hadoop和hdfs更喜欢大文件。但我不知道这是否也可以应用于分布式缓存，因为分布式文件存储在本地机器上。
如果需要合并它们，在hdfs上以编程方式合并文件的最佳方法是什么？
还有一个问题：使用symlink有什么好处？谢谢

hadoop hdfs

来源：https://stackoverflow.com/questions/15854374/merge-small-files-into-large-files-for-hadoop-distributed-cache

2条答案

按热度按时间

hsgswve41#

您可以创建所有小文件的存档（tar或zip），并将其添加到分布式缓存中，如下所示：

DistributedCache.addCacheArchive(new URI("/myapp/myzip.zip", job);

并在Map器/还原器中获取文件，如下所示：

public void configure(JobConf job) {
         // Get the cached archives/files
         File f = new File("./myzip.zip/some/file/in/zip.txt");
       }

在这里阅读更多

赞(0）回复(0）举报 2021-06-03

p8ekf7hl2#

下面是cloudera关于小文件问题的博客。

赞(0）回复(0）举报 2021-06-03

我来回答

将小文件合并成大文件以用于hadoop分布式缓存？

2条答案

相关问题

热门标签

最新问答