我正在使用kafka和spark流处理一个用python编程的项目。我想把Kafka制作人的数据发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时,它工作得很顺利:
/spark submit——包org.apache。spark:spark-streaming-kafka-0-8_2.11:2.1.0./kafkastreaming.py
是否有任何方法可以指定依赖项并直接运行流式代码(即不使用spark submit或使用spark submit但不指定依赖项)
我尝试在spark的conf dir中的spark-defaults.conf中指定依赖项。指定的依赖项是:1.org.apache。spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache。spark:spark-streaming-kafka-0-8-assembly:2.1.1
注意-我参考了spark streaming guide,使用的是来自https://spark.apache.org/docs/latest/streaming-programming-guide.html 它没有使用spark submit命令,因此我想知道我是否可以用kafka和spark streaming做同样的事情。
1条答案
按热度按时间omvjsjqw1#
在spark发行版的“jars”文件夹中提供其他依赖项。停止并重新启动Spark。这样,依赖关系将在运行时解析,而无需在命令行中添加任何附加选项