运行spark作业时发生blockmissingexception

cygmwpex 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(341)

我正在通过pyspark运行spark作业，它始终返回一个错误： Diagnostics: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-908041201-10.122.103.38-1485808002236:blk_1073741831_1007 file=/hdp/apps/2.5.3.0-37/spark/spark-hdp-assembly.jar 错误总是在同一块上，即 BP-908041201-10.122.103.38-1485808002236:blk_1073741831_1007 .
当我查看hadoop跟踪url时，消息显示：

Application application_1505726128034_2371 failed 2 times due to AM Container 
for appattempt_1505726128034_2371_000002 exited with exitCode: -1000

我只能从这个假设，有一些损坏的数据？如何通过hadoop命令行查看数据/块，并准确查看此可能损坏的块上的数据。
不幸的是，在查看基于web的日志时，在特定的故障节点上似乎没有更详细的日志。
另外-pyspark中有没有一种方法可以忽略任何“损坏”的块，而忽略它无法完全读取的任何文件/块？
谢谢

hadoop hdfs apache-spark pyspark

来源：https://stackoverflow.com/questions/46449534/blockmissingexception-on-running-spark-job

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

运行spark作业时发生blockmissingexception

暂无答案！

相关问题

热门标签

最新问答