从pyspark访问hdfs失败

tag5nh1u  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(446)

我已经在ubuntu17.04上安装了hadoop2.7.3和pyspark2.2.0。
hadoop和pyspark似乎都能自己正常工作。但是,我没有设法从pyspark中的hdfs获取文件。当我尝试从hdfs获取文件时,出现以下错误:
https://imgur.com/j6dy2u7
我在另一篇文章中读到,需要设置环境变量hadoop\u conf\u dir来访问hdfs。我也这样做了(见下一个屏幕截图),但我得到了另一个错误,pyspark不再工作了。
https://imgur.com/ampj6tb
如果我删除环境变量,一切都像以前一样工作。
如何修复在pyspark中打开hdfs文件的问题?我花了很长时间在这方面,并将高度感谢任何帮助!

9o685dep

9o685dep1#

虽然这个答案有点晚,但你应该用 hdfs:///test/PySpark.txt (注意三点 / s) 相反。

相关问题