我使用hortonworks沙盒hdp2.6.5和putty来使用linux shell。我的操作系统是window10。
我在hdfs上放了一些json文件,我想用pyspark打开这个文件。
我在linux上使用下面的python文件,在shell上键入“spark submit example.py”
from pyspark.sql import SparkSession
if __name__ == "main":
spark = SparkSession.builder.appName('JSONRead').getOrCreate()
jsonData = spark.read.json('hdfs://localhost/user/maria_dev/example.json')
jsonData.printSchema()
jsonData.createOrReplaceTempView('Users')
userNames = spark.sql('SELECT _id, name, age, email, phone, gender, index from Users')
spark.stop()
但我收到了这个错误信息
“从sandbox hdp.hortonworks.com/172.18.0.2呼叫”localhost:8020 failed “连接异常”
我在stackoverflow上搜索了这个问题,人们通常说name节点运行的端口不同或者没有运行。但是我不知道如何知道name节点的状态以及如何重新启动它。
我键入“sudo service hadoop hdfs namenode restart”,但putty return“unit hadoop-hdfs-namenode.service could not found.”
我能做什么?你能帮帮我吗?
暂无答案!
目前还没有任何答案,快来回答吧!