了解hadoop中的文件处理

vbopmzt1  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(174)

我是hadoop生态系统的新手,有一些基本的想法。请从以下问题开始提供帮助:
如果文件大小(试图复制到hdfs中的文件)非常大,并且无法适应hadoop生态系统中可用的商品硬件,那么可以做什么?文件是否会等待,直到它得到一个空的空间或出现错误?
在hadoop生产环境中,如何提前发现或预测上述场景会发生在我们继续接收来自外部源的文件的环境中?
如何向活动的hdfs生态系统添加新节点?有很多方法,但我想知道哪些文件我需要修改?
一个节点有多少个块?如果我假设一个节点是一个带有存储(hdd-500mb)、ram(1gb)和处理器(双核)的cpu。在这个场景中是500gb/64吗?假设每个块配置为容纳64 gb ram
如果我 copyFromLocal 一个1tb的文件转换成hdfs,文件的哪一部分将放在哪个块的哪个节点上?我怎么知道?
如何在hadoop拆分的多个文件中的哪个文件中找到输入文件的哪个记录/行?
配置每个xmls的目的是什么(core site.xml、hdfs-site.xml和mapred site.xml)。在分布式环境中,哪些文件应该放在所有从属数据节点中?
如何知道任何读/写活动将运行多少map和reduce作业?写操作是否总是有0个减速机?
抱歉问了一些基本问题。请建议方法,以找到上述所有问题的答案。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题