hadoop hdfs和序列文件

hpxqektj  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(422)

我想到了一个更基本的概念级问题,hdfs和各种文件格式之间的区别和关系是什么——序列文件(基于它的Map文件)、har文件?
我认为答案是,HDFS是基础文件系统,我们可以把原始二进制文件上传到HDFS(不使用序列文件、HAR文件等),并且我们也可以使用一些特殊设计的文件格式来编写基于HDFS的文件——比如序列文件(基于它的MAP文件)格式、HAR文件格式。这是正确的理解吗?

slmsl1lt

slmsl1lt1#

hdfs是一个文件系统,不受任何特定文件格式的限制。它是一个分布式文件系统,抽象出关于文件如何在磁盘上实际持久化的大多数内部细节(就像nfs/fat一样)。它为我们提供了一个文件和目录结构的连续视图,但在内部,文件实际上是在集群中的各个节点上复制和存储的。
像sequence file这样的文件格式特别适合map-reduce编程范式,因为它可以很容易地在数据节点之间进行拆分,从而实现并行处理。然而,hdfs没有这样的偏好,它可以将任何文件格式划分为块(即。二进制/纯文本)并存储它。

相关问题