我刚在jupyterhub上用了spark和pyspark。我知道在创建emr之前,我可以设置引导来设置每个集群中的环境,比如python包/库。但是,如果我已经启动了emr,如何在不重新启动emr的情况下安装更多的python包/库呢?
我搜索并得到了一些答案,我可以安装它通过细胞在jupyterhub。例如,
%%spark
sc.install_pypi_package("matplotlib")
我试过了,结果出错了
RuntimeError: install_pypi_packages can only use called when spark.pyspark.virtualenv.enabled is set to true
所以我试着在 /usr/lib/spark/conf/spark-defaults.conf
在主集群上,通过将此行添加到该文件中。
"spark.pyspark.virtualenv.enabled": "true"
但它不起作用,jupyterhub仍然返回一个错误。
所以我想知道
在我已经启动emr的情况下,如果我想在集群中安装更多的python包/库,那么最佳实践是什么?
如何配置 "spark.pyspark.virtualenv.enabled": "true"
或者我可以在创建emr之前在软件设置中设置它吗?
先谢谢你。
暂无答案!
目前还没有任何答案,快来回答吧!