pyspark在没有安装的情况下使用colab

eaf3rand 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(445)

我和spark一起在google colab上工作。但是，当我示例化sparksession时：

import pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
spark = SparkSession.builder.master("local[*]").appName("word count").getOrCreate()

它正常工作，即使我没有安装Spark，也没有设置环境变量。
因此，即使我没有添加下面的代码块，它也可以正常工作。

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz  #install Apache Spark
!tar xf spark-3.0.1-bin-hadoop2.7.tgz
import os 
os.environ['JAVA_HOME']='/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME']='/content/spark-3.0.1-bin-hadoop2.7'

有人有这样的理由吗？

apache-spark pyspark google-colaboratory

来源：https://stackoverflow.com/questions/66390909/pyspark-working-on-colab-without-installations