hadoop分布式文件系统与分布式缓存

mbskvtky  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(557)

hadoop中的b/w分布式文件系统和分布式缓存有什么区别?

0vvn1miw

0vvn1miw1#

分布式文件系统,如hadoop分布式文件系统(hdfs),是一种允许您在许多机器的硬盘中存储一个或多个大文件的体系结构。每台机器都持有这个文件的一部分(称为块)。通常,每个块被复制多次(默认情况下是三次),以防某些机器崩溃。在这种情况下,可以通过从其他计算机获取丢失的块的副本来恢复丢失的块。你的电脑也有一个文件系统,但它很可能不是分布式的。它是文件按层次结构组织和存储的地方。
分布式缓存是在作业运行时向所有计算机提供相同输入文件的一种方法。这些文件已加载到这些计算机的内存中。例如,假设您有一个不希望wordcount程序计算的stopwords列表。然后,在每个mapreduce作业开始时,将此stopwords文件分发给所有map任务,这些map任务读取它并跳过这些stopwords的计数。这样,所有任务共享一个公共输入文件。作业完成后,没有分布式缓存。。。
我的答案在很多方面可能在技术上不正确,但我希望它能给出一个正确的直觉。

相关问题