pyspark在没有安装的情况下使用colab

eaf3rand  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(417)

我和spark一起在google colab上工作。但是,当我示例化sparksession时:

import pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder.master("local[*]").appName("word count").getOrCreate()

它正常工作,即使我没有安装Spark,也没有设置环境变量。
因此,即使我没有添加下面的代码块,它也可以正常工作。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz  #install Apache Spark
!tar xf spark-3.0.1-bin-hadoop2.7.tgz
import os 
os.environ['JAVA_HOME']='/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME']='/content/spark-3.0.1-bin-hadoop2.7'

有人有这样的理由吗?

kyks70gy

kyks70gy1#

正如@rafaeldourado所说
可能您已经执行了一次安装,所以不需要再次执行,除非您重置了环境。

相关问题