这是我正在学习的一个教程中的代码。我的同学没有在相同的代码中得到这个错误:
ImportError Traceback (most recent call last)
<ipython-input-1-c6e1bed850ab> in <module>()
----> 1 from pyspark import SparkContext
2 sc = SparkContext('local', 'Exam_3')
3
4 from pyspark.sql import SQLContext
5 sqlContext = SQLContext(sc)
ImportError: No module named pyspark
这是代码:
from pyspark import SparkContext
sc = SparkContext('local', 'Exam_3')
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
data = sc.textFile("exam3")
parsedData = data.map(lambda line: [float(x) for x in line.split(',')])
retail = sqlContext.createDataFrame(parsedData,
['category_name','product_id', 'product_name', 'product_price'])
retail.registerTempTable("exam3")
print parsedData.take(3)
7条答案
按热度按时间v8wbuo2f1#
你没有在你正在使用的python安装中安装
pyspark
。要确认这一点,在你的命令行终端上,激活你的virtualenv
,输入你的REPL(python
)并键入import pyspark
:如果您看到
No module name 'pyspark'
ImportError,则需要安装该库。退出REPL并键入:然后重新输入repl以确认其工作:
请注意,激活虚拟环境非常重要。当在虚拟环境的目录中时:
这些说明适用于基于Unix的计算机,对于Windows,这些说明可能会有所不同。
hmtdttj42#
只需用途:
如果您没有findspark模块,请使用以下命令安装它:
s2j5cfk03#
您可以使用
findspark
使spark在运行时可访问。通常findspark
会找到您安装spark的目录,但如果它安装在一个非标准位置,您可以将其指向正确的目录。一旦您安装了findspark
,如果spark安装在/path/to/spark_home
,只需将在脚本/笔记本的最顶部,现在您应该能够访问pyspark模块。
khbbv19g4#
这是最新的解决方案,只适用于MAC用户。我已经通过
pip install pyspark
安装了pyspark。但是,当我在终端甚至python导入pyspark中执行pyspark
时,它不起作用。我检查了一下,pyspark已经安装在我的笔记本电脑上了。最后,我找到了解决方案。您只需要添加到bash配置文件中。
请遵循以下步骤:
1)在终端窗口中键入以下内容以转到您的个人文件夹。
cd ~
2)然后执行以下操作以创建.bash_profile。(如果它已经存在,则可以跳过。)
touch .bash_profile
3)
open -e .bash_profile
然后添加以下变量。
您需要更改py4j-x.x.x-src.zip最后一行中的www.example.com版本号
4)分配完所有这些变量后,保存并关闭.bash_profile。然后键入以下命令重新加载文件。
. .bash_profile
insrf1ej5#
请确保首先使用conda安装pyspark:
yfjy0ee76#
导入findspark文件
回溯(最近的呼叫排在最后):文件“"得第1行位于ImportError:没有名为“findspark”的模块
$ pip安装findspark
它将工作
2guxujil7#
我解决这个问题的方法是
$pip安装pyspark
我输出是:
$导入pyspark
您也可以尝试直接在实验室环境中运行pip命令。