我是pyspark的新用户。我刚刚下载并安装了一个spark集群(“spark-2.0.2-bin-hadoop2.7.tgz”),安装之后我想访问文件系统(将本地文件上传到集群)。但当我试图在命令中键入hadoop或hdfs时,它会说“找不到命令”。我要安装hadoop/hdfs吗(我以为它是spark内置的,我不明白)?提前谢谢。
8e2ybdfx1#
你没有 hdfs 或者 hadoop 在类路径上,所以这就是您收到消息的原因:“找不到命令”。如果你跑了 \yourparh\hadoop-2.7.1\bin\hdfs dfs -ls / 它应该工作并显示根内容。但是,你可以添加你的 hadoop/bin ( hdfs , hadoop …)类路径的命令如下:
hdfs
hadoop
\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /
hadoop/bin
export PATH $PATH:$HADOOP_HOME/bin
哪里 HADOOP_HOME 是你的环境。带路径的变量 hadoop 安装文件夹(需要下载并安装)
HADOOP_HOME
c0vxltue2#
必须先安装hadoop才能访问hdfs。跟着这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/从apache站点选择最新版本的hadoop。一旦你完成了hadoop设置,就去sparkhttp://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz 下载这个,提取文件。在spark-env.sh中安装java\u home和hadoop\u home。
2条答案
按热度按时间8e2ybdfx1#
你没有
hdfs
或者hadoop
在类路径上,所以这就是您收到消息的原因:“找不到命令”。如果你跑了
\yourparh\hadoop-2.7.1\bin\hdfs dfs -ls /
它应该工作并显示根内容。但是,你可以添加你的
hadoop/bin
(hdfs
,hadoop
…)类路径的命令如下:哪里
HADOOP_HOME
是你的环境。带路径的变量hadoop
安装文件夹(需要下载并安装)c0vxltue2#
必须先安装hadoop才能访问hdfs。跟着这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
从apache站点选择最新版本的hadoop。一旦你完成了hadoop设置,就去sparkhttp://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz 下载这个,提取文件。在spark-env.sh中安装java\u home和hadoop\u home。