在创建aws emr之后,为每个集群安装更多的python包/库

tkclm6bt  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(390)

我刚在jupyterhub上用了spark和pyspark。我知道在创建emr之前,我可以设置引导来设置每个集群中的环境,比如python包/库。但是,如果我已经启动了emr,如何在不重新启动emr的情况下安装更多的python包/库呢?
我搜索并得到了一些答案,我可以安装它通过细胞在jupyterhub。例如,

%%spark
sc.install_pypi_package("matplotlib")

我试过了,结果出错了

RuntimeError: install_pypi_packages can only use called when spark.pyspark.virtualenv.enabled is set to true

所以我试着在 /usr/lib/spark/conf/spark-defaults.conf 在主集群上,通过将此行添加到该文件中。

"spark.pyspark.virtualenv.enabled": "true"

但它不起作用,jupyterhub仍然返回一个错误。
所以我想知道
在我已经启动emr的情况下,如果我想在集群中安装更多的python包/库,那么最佳实践是什么?
如何配置 "spark.pyspark.virtualenv.enabled": "true" 或者我可以在创建emr之前在软件设置中设置它吗?
先谢谢你。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题