我需要集成多用户使用PypSpark运行在顶纱jupyterhub。
你可以看到。我有一个1主2从的集群。我在所有节点上安装了hadoop,在主节点上安装了spark、pyspark和jupyterhub。我使用jupyterhub进行多用户笔记本工作,每个用户都可以使用pyspark,在cell中创建一些交互式代码,并通过yarn在集群上运行。
我用过:
Spark3.0.1
hadoop 3.2.0版
jupyterhub 1.3.0版
我找到了一些解决办法:
1.通过pyspark cell导出sys env变量以运行代码
但这只适用于一个用户
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
2.使用findspark模块
我想知道这个解决方案能在Yarn上运行吗?对于多用户呢?
3.使用toree/jupyter内核
toree0.3.0删除了对pyspark的支持,当我使用旧版本时,出现了一些错误->错误
4.使用livy和sparkmagic
livy0.7.0只支持spark3.x,当我使用spark3.x时出现了错误->错误
5.Yarn产卵器
似乎这个解决方案是有人贡献的,我正在寻找官方的解决方案
如何使用PyperHub上的Pypark,在Yarn上运行?同样的齐柏林飞艇笔记本
非常感谢
暂无答案!
目前还没有任何答案,快来回答吧!