如何在hadoop上运行pyspark

oyxsuwqo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(571)

我只是hadoop的新手。我打算在我的电脑上安装一个独立版本的hadoop,将文件保存在hdfs上(当然是1个节点),然后运行pyspark从hdfs读取文件并进行处理。我不知道怎样才能把这些碎片拼在一起。谁能给我一个清晰的组件,我需要安装的顺序?

u1ehiz5o

u1ehiz5o1#

如果您使用的是windows pc,那么您必须安装vmplayer或oracle virtualbox
1.a。在您的虚拟机中安装任何linux发行版,如centos、rhel、ubuntu等
1.b。在虚拟机中安装java
1.c从步骤2.b开始
如果您使用的是linux机器,那么
第二章。安装java2b下载稳定版apachehadoop
2.c然后在/usr/your/目录中提取tar文件
2.d在~/.bash\u配置文件中为hadoop路径进行配置,例如。 export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME 2.e通过以下方式在core-site.xml hdfs-site.xml mapred-site.xml和yarn-site.xml中进行配置:core-site hdfs site mapred site和yarn-site.xml必须具有core-site hdfs site mapred site和yarn-site.xml的属性
2.f格式化名称节点,然后启动rest守护进程
注意:请按照中提供的步骤安装单节点群集或apache文档
在pc中安装和配置hadoop之后
3.下载apache spark
3.b提取tar文件,并遵循与bash\u概要文件中导出路径相同的说明
3.c启动Spark壳或pyspark壳
注意:按照步骤安装Spark塞

相关问题