如何在hadoop上运行pyspark

oyxsuwqo 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(571)

我只是hadoop的新手。我打算在我的电脑上安装一个独立版本的hadoop，将文件保存在hdfs上（当然是1个节点），然后运行pyspark从hdfs读取文件并进行处理。我不知道怎样才能把这些碎片拼在一起。谁能给我一个清晰的组件，我需要安装的顺序？

hadoop hdfs python pyspark

来源：https://stackoverflow.com/questions/41590992/how-to-run-pyspark-on-hadoop

1条答案

按热度按时间

u1ehiz5o1#

如果您使用的是windows pc，那么您必须安装vmplayer或oracle virtualbox
1.a。在您的虚拟机中安装任何linux发行版，如centos、rhel、ubuntu等
1.b。在虚拟机中安装java
1.c从步骤2.b开始
如果您使用的是linux机器，那么
第二章。安装java2b下载稳定版apachehadoop
2.c然后在/usr/your/目录中提取tar文件
2.d在~/.bash\u配置文件中为hadoop路径进行配置，例如。 export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME 2.e通过以下方式在core-site.xml hdfs-site.xml mapred-site.xml和yarn-site.xml中进行配置：core-site hdfs site mapred site和yarn-site.xml必须具有core-site hdfs site mapred site和yarn-site.xml的属性
2.f格式化名称节点，然后启动rest守护进程
注意：请按照中提供的步骤安装单节点群集或apache文档
在pc中安装和配置hadoop之后
3.下载apache spark
3.b提取tar文件，并遵循与bash\u概要文件中导出路径相同的说明
3.c启动Spark壳或pyspark壳
注意：按照步骤安装Spark塞

赞(0）回复(0）举报 2021-05-29

我来回答

如何在hadoop上运行pyspark

1条答案

相关问题

热门标签

最新问答