hadoop理解::基础知识

mspsb9vt  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(405)

只是一些关于hadoop的问题。请分享你的经历。
1) 如果我必须在hadoop集群上存储一个1tb的文件,假设复制因子是3,这是否意味着我上传了一个3tb的文件?
2) 客户机是如何配置到hadoop集群的?请提供需要修改的文件的细节。
3) hadoop集群与传统的网络分布式系统有何不同?我们知道传统的分布式系统也有主从结构,但是在执行任何任务时,从系统之间都有这种通信。问题是hadoop数据节点之间是否存在类似的通信机制?
4) 如果hadoop数据节点之间没有通信,那么一旦map任务完成,sort和shuffle阶段如何在数据节点上进行数据传输?
5) 这是关于cloudera quickstart vm 5.5的,当我在终端窗口中执行“sudo jps”时,没有与jobtracker和tasktracker相关的进程正在运行,但是我的mr作业正在被提交,输出被写入hdfs。这是因为在键入“sudojps”命令时显示正在运行的进程名“jobhistoryserver”?
6) 假设jobtracker将一个mr作业提交给一个datanode(dn1),datanode已经运行了这么多的任务并且不能再接受了,具有机架感知知识的namenode将把这个mr作业委托给同一机架中的其他节点。假设新节点现在是dn2,问题是dn2是从dn1复制块的数据并运行mr作业,还是仅仅代表dn1运行mr作业,因为数据块在hadoop分布式集群中是可见的?
提前谢谢你的回答。
最好的,斯里

e5njpo68

e5njpo681#

以下是对您的问题的回答:
您只上载1 tb文件。该文件被分割成128 mb的块(默认值为yarn)。现在,每个块被复制到三个不同的节点中。所以最后通牒你上传1 tb,3次复制由hadoop负责。
您可以在单个节点以及计算机集群上安装hadoop。请浏览下面的博客,它给出了如何配置它的分步步骤和详细图片。
http://teamvj.blogspot.in/2014/02/installing-hadoop-single-node-cluster.html
http://teamvj.blogspot.in/
hadoop namenode是主节点,它包含了所有数据节点的信息。datanodes向namenode发送称为heartbeat的周期性信号,表示它们处于活动状态并准备好执行任务。namenode具有关于哪个datanode包含哪个块的信息。因此,当提交一个作业时,处理将转到正确的节点,该节点包含必须进行处理的数据。如果datanode失败,则具有相同块的另一个datanode(由于复制)将被赋予任务。hadoop集群和以前的分布式计算一样,但它的特殊之处在于它的操作方式,如容错、推测性执行等。
数据节点总是相互通信,以便将数据块从一个数据节点传输到另一个数据节点。假设一个datanode关闭了,那么其中存储的数据的复制也会关闭。此时,需要将数据块从一个数据节点传输到另一个数据节点。
数据将转到已经有块副本的dn。这是存储副本背后的真实想法。如果具有块的一个datanode不可用,则请求将转到具有块的另外两个datanode中的一个,假设复制因子仍然是默认值3。
希望这有帮助

相关问题