apache spark—跨多个批处理组合数据的有状态转换

pgvzfuti  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(262)

对于sparkdstream应用程序,我需要访问以前的批处理dataframes/rdd,因此我尝试重新创建一个玩具示例,以便更好地理解。
用例:每5分钟获取一次字数,但当某个条件为真时,我应该能够获取最后30分钟的字数。
在spark文档中,检查点特性描述如下。
数据检查点—将生成的RDD保存到可靠的存储中。在一些跨多个批处理组合数据的有状态转换中,这是必需的。在这种转换中,生成的rdd依赖于前一批的rdd,这导致依赖链的长度随着时间的推移而不断增加
我不确定,一旦我检查点数据,如何访问以前的批RDD。
我尝试使用localcheckpoint,但在处理程序(rdd)方法的“else”中失败,这表明它找不到df。
注意:我知道我们有reducebykey和updatestatebykey这样的选项,但这些选项在我的情况下不适用。如果我能访问上一批的df或rdd,那就容易多了。

import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, StringType

spark = SparkSession.builder.master("local").appName("Word Count").getOrCreate()
flag = True

def handler(rdd):
    global flag
    if not rdd.isEmpty():
        if flag:
            df=spark.read.json(rdd)
            df = df.localCheckpoint()
            flag=False
        else:
            df1=spark.read.json(rdd)
            df = df.union(df1)
            df = df.localCheckpoint()
        df.show()

if __name__ == "__main__":
    sc=spark.sparkContext 
    ssc = StreamingContext(sc, 2)
    brokers, topic = sys.argv[1:]
    kvs = KafkaUtils.createDirectStream(ssc, [topic],{"metadata.broker.list": brokers})
    lines = kvs.map(lambda x: x[1])
    lines.foreachRDD(handler)
    ssc.start()
    ssc.awaitTermination()

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题