我尝试在Jupyter笔记本中运行以下PySpark-Kafka流example。下面是我在笔记本中使用的代码的第一部分:
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
sc = pyspark.SparkContext(master='local[*]',appName="PySpark streaming")
ssc = StreamingContext(sc, 2)
topic = "my-topic"
brokers = "localhost:9092"
kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers})
如果我运行该单元,我会收到以下错误/说明:
Spark Streaming's Kafka libraries not found in class path. Try one of the following.
1. Include the Kafka library and its dependencies with in the
spark-submit command as
$ bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 ...
2. Download the JAR of the artifact from Maven Central http://search.maven.org/,
Group Id = org.apache.spark, Artifact Id = spark-streaming-kafka-0-8-assembly, Version = 2.3.0.
Then, include the jar in the spark-submit command as
$ bin/spark-submit --jars <spark-streaming-kafka-0-8-assembly.jar> ...
我的问题是:我如何将--jars或--package参数传递给Jupyter Notebook?2或者,我是否可以下载这个包并将其永久链接到Python/Jupyter(可能通过.bashrc中的一个导出)?
2条答案
按热度按时间kuhbmx9i1#
至少有两种方法可以执行此操作,大致对应于错误消息中建议的两个选项:
第一种方法是相应地更新您各自的Jupyter内核(如果您还没有使用Jupyter内核,您应该--请参阅此答案,了解在Jupyter for Pyspark中使用内核的详细一般性信息)。
更具体地说,您应该使用
env
下的以下条目更新Pyspark的相应kernel.json
配置文件(如果您使用--master local
以外的内容,请进行相应修改):第二种方法是将以下条目放入
spark-defaults.conf
文件:在这两种情况下,您都不需要手动下载任何东西--第一次使用更新的配置运行Pyspark时,将下载必要的文件并将其放在适当的目录中。
vmjh9lq92#
这是我如何配置运行PySpark(版本与scala 2.12 Spark 3.2.1)结构流与Kafka在jupyter实验室
首先,我下载了5个jar文件,并将它们放在我当前项目文件夹下的文件夹/jars中(我认为只是用于本地运行):
jars的配置值如下所示:”
下面是实际代码: