运行多个apache spark流作业

2j4z5cfb  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(286)

我是新的Spark流,因为我可以看到有不同的方式做同样的事情,这让我有点困惑。
这是一个场景:我们每分钟都有多个事件(超过50个不同的事件)发生,我想做一些数据转换,然后将格式从json更改为parquet,并将数据存储在s3 bucket中。我正在创建一个管道,从中获取数据并将其存储在s3存储桶中,然后进行转换(spark jobs)。我的问题是:
1-如果我运行一个lambda函数,在一个单独的子目录中对每个事件类型进行排序,然后在sparkstreaming中读取文件夹,这样做好吗?还是将所有事件存储在同一个目录中,然后在我的spark流中读取它更好?
2-如何同时运行多个SparkStreaming(我试图循环浏览模式和文件夹列表,但显然不起作用)
3-我需要一个编排工具(气流)为我的目的?我需要一直寻找新的事件,中间没有停顿。
我将使用,kinesisfirehose->s3(数据湖)->emr(spark)->s3(数据仓库)
非常感谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题