我和spark一起在google colab上工作。但是,当我示例化sparksession时:
import pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder.master("local[*]").appName("word count").getOrCreate()
它正常工作,即使我没有安装Spark,也没有设置环境变量。
因此,即使我没有添加下面的代码块,它也可以正常工作。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz #install Apache Spark
!tar xf spark-3.0.1-bin-hadoop2.7.tgz
import os
os.environ['JAVA_HOME']='/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME']='/content/spark-3.0.1-bin-hadoop2.7'
有人有这样的理由吗?
1条答案
按热度按时间kyks70gy1#
正如@rafaeldourado所说
可能您已经执行了一次安装,所以不需要再次执行,除非您重置了环境。