我已经在ubuntu17.04上安装了hadoop2.7.3和pyspark2.2.0。
hadoop和pyspark似乎都能自己正常工作。但是,我没有设法从pyspark中的hdfs获取文件。当我尝试从hdfs获取文件时,出现以下错误:
https://imgur.com/j6dy2u7
我在另一篇文章中读到,需要设置环境变量hadoop\u conf\u dir来访问hdfs。我也这样做了(见下一个屏幕截图),但我得到了另一个错误,pyspark不再工作了。
https://imgur.com/ampj6tb
如果我删除环境变量,一切都像以前一样工作。
如何修复在pyspark中打开hdfs文件的问题?我花了很长时间在这方面,并将高度感谢任何帮助!
1条答案
按热度按时间9o685dep1#
虽然这个答案有点晚,但你应该用
hdfs:///test/PySpark.txt
(注意三点/
s) 相反。