如何在google云存储中存储大量的小html文件来优化dataproc?

arknldoa  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

我有兴趣在html解析任务中尝试googleclouddataproc。我们目前有很多(2亿+)的小html文件在谷歌存储。我们希望能够将所有这些文件拉入hadoop(mapreduce或spark)进行处理。
然而,我的理解是,dataproc在列出和读取大量小文件时性能很差,hadoop通常也是这样。所以我的问题是,我应该如何将大量的小文件打包成更大的文件,以便能够高效地列出和读取?
我考虑过tar/zip之类的标准内容,但我的理解是它们是不可拆分的,因此并发性是有限的。
对于这样的事情,有没有其他推荐的格式?我考虑过使用avro,只是将htmls作为字节字段存储在avro记录中,但我不认为avro真的适合这种用例。

jobtbby3

jobtbby31#

您可以使用hadoop sequencefile来解决这个问题。

相关问题