我是hadoop新手。这是一个高级人员要求我检查hadoop管理能力的场景。
场景:您需要为从任何源向hdfs导入数据的客户机提供支持。你没有电脑或关于他正在提取的文件,只有你需要通过电话支持。假设他要导入700个文件,但导入后hdfs只包含550个文件。剩下的文件哪里出错了?您如何设法给出不同的解决方案,让他检查并提取hdfs中正确数量的数据?客户什么都不知道,这意味着他不是开发人员。因此,如果你要给出任何解决方案,你需要简单地给出。
他可能会使用来自sqoop、mr、hive、pig、hbase的任何组件。请简单地给出组件的解决方案。而且,它可能不是来自组件,可能是配置设置。
你需要提供不同的可能性,让他检查或提供准确的解决方案。
提前谢谢。
1条答案
按热度按时间jmp7cifd1#
客户端使用什么命令提取数据?
客户端使用什么命令来检查hdfs上的文件量?
使用hdfs webui
http://<namenode>:50070
检查namenodes和datanodes的运行状况使用hdfswebui检查文件是否真的丢失了。从那里他可以很容易地浏览fs和查看文件内容,他还可以通过将文件夹内容复制到记事本来计算文件的数量
如果客户使用过
hdfs dfs -put
命令应该有一个上传数据的日志(它将错误转储到stdout,这样他应该在控制台中看到java堆栈跟踪)。问他有没有发现什么问题在同一webui中,您有一个指向namenode日志的链接。要求客户打开文件
hadoop-hdfs-namenode-*.log
,复制到记事本,滚动到最后,并搜索错误(区分大小写)倒置,给你关于错误的信息,他看到那里事实上,总体逻辑实际上取决于前两个答案,因为将文件“加载”到hdfs中可能有很多方法,而进一步对话的逻辑实际上取决于客户使用了什么