我正在开发一个web应用程序,从datalake中检索数据,数据存储在hdfs中,我想使用pyspark进行一些分析。换句话说,我们在ipython笔记本中有一个脚本,我们想将它与django一起使用。我看到pyspark也可以在pypi上使用,所以我用pip安装了它,并将相同的脚本作为 .py
当我运行时,笔记本上的文件运行良好 python myscript.py
很好用。因此,如果我在django中导入该脚本,它也应该可以正常工作。所以,这是正确的方法,否则我将不得不运行 spark-submit myscript.py
? 我想在群集模式下使用spark。
暂无答案!
目前还没有任何答案,快来回答吧!