在linux上正确配置pyspark和anaconda3

ru9i0ody 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(685)

以下是我迄今为止采取的步骤：
我安装了anaconda3和目录里的所有东西 $HOME/anaconda3/bin .
我进入了 $HOME/anaconda3/bin 执行命令 ./conda install -c conda-forge pyspark . 它是成功的。
我什么也没做。更具体地说，在我的 .bashrc 以下是一些重要的细节：
我在一个运行hadoop的分布式集群上，所以在我的主文件夹之外可能还有其他目录我还没有发现，但我可能需要。我也没有管理员权限。
jupyter笔记本运行正常。
我的目标是：
目标。添加变量或者配置一些文件，这样我就可以在jupyter笔记本上运行pyspark了。
为了达到这个目标，在第三步之后我还需要做些什么？

hadoop linux pyspark jupyter-notebook jupyter

来源：https://stackoverflow.com/questions/46734202/properly-configuring-pyspark-and-anaconda3-on-linux

1条答案

按热度按时间

06odsfpq1#

既然你已经安装了pyspark conda ，正如你所说的jupyter笔记本运行良好（大概是相同的Python分布），没有进一步的步骤需要-你应该能够打开一个新的笔记本和 import pyspark .
但请注意，这样安装pyspark（即 pip 或者 conda )只提供有限的功能；从文件包中：
spark的python打包并不打算取代所有其他用例。spark的这个python打包版本适合与现有集群（spark standalone、yarn或mesos）交互，但不包含设置您自己的独立spark集群所需的工具。您可以从apachespark下载页面下载完整版本的spark。
使用安装Pypark pip 或者 conda 是一个相对较新的附加组件，针对上述文档中描述的情况。我不知道你可能会面临什么限制（从未尝试过），但如果你需要完整的功能，你应该下载完整的spark发行版（其中pyspark是不可分割的一部分）。

赞(0）回复(0）举报 2021-06-02

我来回答

在linux上正确配置pyspark和anaconda3

1条答案

相关问题

热门标签

最新问答