来自pyspark中本地文本文件的流

btxsgosb  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(532)

我正在尝试从本地文本文件流。

conf = SparkConf().setMaster("spark://antonis-dell:7077").setAppName("Kafka_Spark")
sc = SparkContext(conf=conf)  # .getOrCreate()
sc.setLogLevel("WARN")
ssc = StreamingContext(sc, 2)

lines = ssc.textFileStream("file:///home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
lines.pprint()
ssc.start()
ssc.awaitTermination()

以前对stackoverflow的响应似乎没有任何效果。
我试过空的 dataset 然后把txt文件传给文件夹,我试过了 file:/ ,但什么都不管用。
有人能帮我吗?

8yoxcaq7

8yoxcaq71#

你能试着用spark会话而不是像这样的spark上下文吗

sparkSession = SparkSession.builder().config(conf).getOrCreate()
lines = sparkSession.readStream.textFile("file:///home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
1u4esq0p

1u4esq0p2#

您需要使用ssc.start和ssc.waittermination调用完成代码示例。

...
lines = ssc.textFileStream("/home/antonis/repos/GLASSEAS/Anomaly_Detector/dataset/")
  .pprint()
ssc.start()
ssc.awaitTermination()

这个spark文档非常适合入门(在他们的示例中,他们使用sockettextstream,但其他所有内容都适用于您的案例)

相关问题