PySpark在Colab上安装

yebdmbv4  于 2023-11-16  发布在  Spark
关注(0)|答案(1)|浏览(183)

在Google Colab上设置PySpark的过程中,我用来实现这个代码片段:

  1. !apt-get install openjdk-8-jdk-headless -qq > /dev/null
  2. !wget -q https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
  3. !tar xf spark-3.2.0-bin-hadoop3.2.tgz
  4. !pip install -q findspark

字符串
直到昨天才出现问题。以前不到10秒就可以完成。今天已经超过30分钟了,我正在等待它完成运行。它卡在下面的代码行上:

  1. !wget -q https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz


我是PySpark的新手。

yacmzcpb

yacmzcpb1#

使用wget -q,您看不到wget的输出。尝试运行相同的命令,但不使用-q选项,看看会发生什么。请记住,您试图下载的文件大约为287 M,因此可能需要一段时间...
如果你只想使用PySpark,不需要管理自己的Spark引擎,你可以下载PySpark和pip

  1. !pip install pyspark

字符串
PySpark发行版自带Spark引擎。使用spark-submit提交作业。无需设置任何环境变量。
如果你需要一个特定的Spark/PySpark(例如这里的3.3)版本用途:

  1. !PYSPARK_HADOOP_VERSION=3 pip install pyspark


(see https://spark.apache.org/docs/latest/api/python/getting_started/install.html
另外,在Google Colab上运行PySpark不需要安装Java,因为Java已经在那里了。你可以检查Java是否在路径中,并且它有所需的版本(11)。你可以通过运行以下命令来查看:

  1. !which java
  2. # Out:
  3. # /usr/bin/java
  4. !java -version
  5. # Out:
  6. # openjdk version "11.0.20.1" 2023-08-24
  7. # OpenJDK Runtime Environment (build 11.0.20.1+1-post-Ubuntu-0ubuntu122.04)
  8. # OpenJDK 64-Bit Server VM (build 11.0.20.1+1-post-Ubuntu-0ubuntu122.04, mixed mode, sharing)

展开查看全部

相关问题