当导入的数据与原始数据不同时,如何给出不同的解决方案?

ca1c2owp  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(311)

我是hadoop新手。这是一个高级人员要求我检查hadoop管理能力的场景。
场景:您需要为从任何源向hdfs导入数据的客户机提供支持。你没有电脑或关于他正在提取的文件,只有你需要通过电话支持。假设他要导入700个文件,但导入后hdfs只包含550个文件。剩下的文件哪里出错了?您如何设法给出不同的解决方案,让他检查并提取hdfs中正确数量的数据?客户什么都不知道,这意味着他不是开发人员。因此,如果你要给出任何解决方案,你需要简单地给出。
他可能会使用来自sqoop、mr、hive、pig、hbase的任何组件。请简单地给出组件的解决方案。而且,它可能不是来自组件,可能是配置设置。
你需要提供不同的可能性,让他检查或提供准确的解决方案。
提前谢谢。

jmp7cifd

jmp7cifd1#

客户端使用什么命令提取数据?
客户端使用什么命令来检查hdfs上的文件量?
使用hdfs webui http://<namenode>:50070 检查namenodes和datanodes的运行状况
使用hdfswebui检查文件是否真的丢失了。从那里他可以很容易地浏览fs和查看文件内容,他还可以通过将文件夹内容复制到记事本来计算文件的数量
如果客户使用过 hdfs dfs -put 命令应该有一个上传数据的日志(它将错误转储到stdout,这样他应该在控制台中看到java堆栈跟踪)。问他有没有发现什么问题
在同一webui中,您有一个指向namenode日志的链接。要求客户打开文件 hadoop-hdfs-namenode-*.log ,复制到记事本,滚动到最后,并搜索错误(区分大小写)倒置,给你关于错误的信息,他看到那里
事实上,总体逻辑实际上取决于前两个答案,因为将文件“加载”到hdfs中可能有很多方法,而进一步对话的逻辑实际上取决于客户使用了什么

相关问题