入门-spark，ipython笔记本和pyspark

xwbd5t1u 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(364)

我想了解如何设置一切能够有一个ipython笔记本和pyspark工作。
我目前有一个ec2示例。
如果我错了，告诉我，但我想我可以用这个：

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

（spark.apache.org）
或者这个：

aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

(http://docs.aws.amazon.com/)
这两者真的有很大区别吗？
要编写和执行脚本，我应该在主节点上，对吗？
所以，我用来运行spark的ec2示例不会被使用？
（我必须在主节点上安装ipython笔记本？）
事先谢谢你的帮助。
（我找过教程，但没有找到我要找的东西。
你知道好的吗？）

hadoop python apache-spark pyspark ipython-notebook

来源：https://stackoverflow.com/questions/33306047/getting-started-spark-ipython-notebook-with-pyspark

1条答案

按热度按时间

0ejtzxu11#

你提到的第一个教程是迄今为止我发现的最好的。我不确定你提到的两种方法有什么区别。
我曾经 ./spark-ec2 成功地在ec2上构建了一个spark集群。要让它与ipython一起工作需要一些额外的安装。
首先用 ./spark-ec2 过程。我在以下方面取得了成功：
在主节点和所有工作节点上安装anaconda和py4j。anaconda应该设置在路径的前面（例如path=/home/ec2 user/anaconda2/bin:$path）。
下一步，ssh到master，然后 $cd /root/spark 要运行：

MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark

访问：8888以访问笔记本。如果您想将其公开，请在master的安全组中打开8888端口。否则，创建一个ssh隧道。

赞(0）回复(0）举报 2021-05-30

我来回答

入门-spark，ipython笔记本和pyspark

1条答案

相关问题

热门标签

最新问答