以hdfs格式保存图像文件(jpeg、png)的输入格式

kyks70gy  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(534)

我想在hdfs(hadoop文件系统)上保存图像文件(如jpeg、png等)。我试过两种方法:
使用将图像文件原样(即相同格式)保存到hdfs中 put 命令。完整的命令是: hadoop fs -put /home/a.jpeg /user/hadoop/ . 已成功放置。
将这些图像文件转换为hadoop的 Sequence File 格式化,然后使用 put 命令。
我想知道应该用哪种格式保存在hdfs中。
使用它的好处是什么 Sequence File 格式。我知道的一个优点是它是可拆分的。还有别的吗?

vjhs03f7

vjhs03f71#

与hdfs存储的块大小相比,图像的大小非常小。小文件的问题是对处理性能的影响,这就是为什么应该使用序列文件、har、hbase或合并解决方案的原因。查看这两个线程的更多信息。
存储图像文件的有效方法
现代hdp集群上有多少文件太多?
处理一个1mb的文件有一个开销。因此,处理1281MB文件的“管理”开销是处理128mb文件的128倍。在纯文本中,该1mb文件可能包含1000条记录。128MB的文件可能包含128000条记录。

相关问题