在Google Colab上设置PySpark的过程中,我用来实现这个代码片段:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
!tar xf spark-3.2.0-bin-hadoop3.2.tgz
!pip install -q findspark
字符串
直到昨天才出现问题。以前不到10秒就可以完成。今天已经超过30分钟了,我正在等待它完成运行。它卡在下面的代码行上:
!wget -q https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
型
我是PySpark的新手。
1条答案
按热度按时间yacmzcpb1#
使用
wget -q
,您看不到wget
的输出。尝试运行相同的命令,但不使用-q
选项,看看会发生什么。请记住,您试图下载的文件大约为287 M,因此可能需要一段时间...如果你只想使用PySpark,不需要管理自己的Spark引擎,你可以下载PySpark和
pip
:字符串
PySpark发行版自带Spark引擎。使用
spark-submit
提交作业。无需设置任何环境变量。如果你需要一个特定的Spark/PySpark(例如这里的3.3)版本用途:
型
(see https://spark.apache.org/docs/latest/api/python/getting_started/install.html)
另外,在Google Colab上运行PySpark不需要安装Java,因为Java已经在那里了。你可以检查Java是否在路径中,并且它有所需的版本(11)。你可以通过运行以下命令来查看:
型