我在Windows10x64上使用anaconda。我用的是vs代码。最近我成功运行了以下程序:
(一)
import pyspark
from pyspark.sql import SparkSession
spark=SparkSession.builder.master("local[1]").appName("local").getOrCreate()
rdd=spark.sparkContext.parallelize([1,2,3,4,56])
print(rdd.count())
然后我单击文件->打开文件夹并打开了一个文件夹,所以现在它出现在屏幕左侧的一个窗格中。问题1:这是做什么的?我曾经认为这只是一个快速查看一些常用文件的方法。
现在我的文件夹在我的左侧窗格中,上面的代码会出错(见下文),其中包含一个包含短语的错误 Python worker failed to connect back.
. 问题2:为什么会这样?
问题3:如果我想在vs代码中打开一个文件夹的同时避免上述错误,我应该怎么做?你知道我应该看什么样的环境吗?
如果我关闭文件夹,我的代码会再次工作。
3条答案
按热度按时间68de4m5k1#
错误:每次它都会给我一个稍微不同的错误,但它总是以这样的方式开始:
(它总是“阶段x中的任务0失败y次”,但x不总是3,y不总是1。)
ndh0cuux2#
其他结果:如果运行以下命令,则会出现类似错误:
(二)
如果运行以下操作,则不会出现错误:
(三)
另外,如果我从打开的文件夹中的.ipynb文件运行它,上述三个代码块(i、ii、iii)都不会出错。
i86rm4rw3#
背景:我的计算机上有以下文件和文件夹:
anaconda目录:c:\users\me\anaconda3
spark目录:c:\spark\spark-3.1.1-bin-hadoop2.7
java目录:c:\spark\java\jre1.8.0\u 231
在c:\users\me\anaconda3\lib\site包中没有名为pyspark的东西
c:\rocksamples.csv中的.csv文件
c:\hadoop\bin\winutils.exe中的winutils文件
我当前的环境变量(我想清理,但现在恐怕要清理)包括以下内容:
hadoop\u home=c:\hadoop
java\u home=c:\spark\java\jre1.8.0\u 231
路径=(其他内容);c:\spark\spark-3.1.1-bin-hadoop2.7\bin;c:\spark\java\jre1.8.0\u 231\bin版本
pyspark\驱动程序\u python=jupyter
pyspark\u driver\u python\u opts=笔记本
pyspark\u python=Python
pythonpath=c:\spark\spark-3.1.1-bin-hadoop2.7\python
spark\u home=c:\spark\spark-3.1.1-bin-hadoop2.7
我认为python找到了正确的pyspark,因为如果我尝试
from pyspark import this_does_not_exist
我明白了ImportError: cannot import name 'this_does_not_exist' from 'pyspark' (C:\Spark\spark-3.1.1-bin-hadoop2.7\python\pyspark\__init__.py)
.
我在vs代码中使用“open folder”打开的文件夹位于包含空格的unc路径上(即\blablabla\bla\my folder)。