当导入的数据与原始数据不同时，如何给出不同的解决方案？

ca1c2owp 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(311)

我是hadoop新手。这是一个高级人员要求我检查hadoop管理能力的场景。
场景：您需要为从任何源向hdfs导入数据的客户机提供支持。你没有电脑或关于他正在提取的文件，只有你需要通过电话支持。假设他要导入700个文件，但导入后hdfs只包含550个文件。剩下的文件哪里出错了？您如何设法给出不同的解决方案，让他检查并提取hdfs中正确数量的数据？客户什么都不知道，这意味着他不是开发人员。因此，如果你要给出任何解决方案，你需要简单地给出。
他可能会使用来自sqoop、mr、hive、pig、hbase的任何组件。请简单地给出组件的解决方案。而且，它可能不是来自组件，可能是配置设置。
你需要提供不同的可能性，让他检查或提供准确的解决方案。
提前谢谢。

hadoop bigdata

来源：https://stackoverflow.com/questions/28038191/how-to-give-different-solution-when-the-imported-data-is-not-same-as-original

1条答案

按热度按时间

jmp7cifd1#

客户端使用什么命令提取数据？
客户端使用什么命令来检查hdfs上的文件量？
使用hdfs webui http://<namenode>:50070 检查namenodes和datanodes的运行状况
使用hdfswebui检查文件是否真的丢失了。从那里他可以很容易地浏览fs和查看文件内容，他还可以通过将文件夹内容复制到记事本来计算文件的数量
如果客户使用过 hdfs dfs -put 命令应该有一个上传数据的日志（它将错误转储到stdout，这样他应该在控制台中看到java堆栈跟踪）。问他有没有发现什么问题
在同一webui中，您有一个指向namenode日志的链接。要求客户打开文件 hadoop-hdfs-namenode-*.log ，复制到记事本，滚动到最后，并搜索错误（区分大小写）倒置，给你关于错误的信息，他看到那里
事实上，总体逻辑实际上取决于前两个答案，因为将文件“加载”到hdfs中可能有很多方法，而进一步对话的逻辑实际上取决于客户使用了什么

赞(0）回复(0）举报 2021-06-04

我来回答

当导入的数据与原始数据不同时，如何给出不同的解决方案？

1条答案

相关问题

热门标签

最新问答