以下是我迄今为止采取的步骤:
我安装了anaconda3和目录里的所有东西 $HOME/anaconda3/bin
.
我进入了 $HOME/anaconda3/bin
执行命令 ./conda install -c conda-forge pyspark
. 它是成功的。
我什么也没做。更具体地说,在我的 .bashrc
以下是一些重要的细节:
我在一个运行hadoop的分布式集群上,所以在我的主文件夹之外可能还有其他目录我还没有发现,但我可能需要。我也没有管理员权限。
jupyter笔记本运行正常。
我的目标是:
目标。添加变量或者配置一些文件,这样我就可以在jupyter笔记本上运行pyspark了。
为了达到这个目标,在第三步之后我还需要做些什么?
1条答案
按热度按时间06odsfpq1#
既然你已经安装了pyspark
conda
,正如你所说的jupyter笔记本运行良好(大概是相同的Python分布),没有进一步的步骤需要-你应该能够打开一个新的笔记本和import pyspark
.但请注意,这样安装pyspark(即
pip
或者conda
)只提供有限的功能;从文件包中:spark的python打包并不打算取代所有其他用例。spark的这个python打包版本适合与现有集群(spark standalone、yarn或mesos)交互,但不包含设置您自己的独立spark集群所需的工具。您可以从apachespark下载页面下载完整版本的spark。
使用安装Pypark
pip
或者conda
是一个相对较新的附加组件,针对上述文档中描述的情况。我不知道你可能会面临什么限制(从未尝试过),但如果你需要完整的功能,你应该下载完整的spark发行版(其中pyspark是不可分割的一部分)。