运行多个apache spark流作业

2j4z5cfb 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(286)

我是新的Spark流，因为我可以看到有不同的方式做同样的事情，这让我有点困惑。
这是一个场景：我们每分钟都有多个事件（超过50个不同的事件）发生，我想做一些数据转换，然后将格式从json更改为parquet，并将数据存储在s3 bucket中。我正在创建一个管道，从中获取数据并将其存储在s3存储桶中，然后进行转换（spark jobs）。我的问题是：
1-如果我运行一个lambda函数，在一个单独的子目录中对每个事件类型进行排序，然后在sparkstreaming中读取文件夹，这样做好吗？还是将所有事件存储在同一个目录中，然后在我的spark流中读取它更好？
2-如何同时运行多个SparkStreaming(我试图循环浏览模式和文件夹列表，但显然不起作用）
3-我需要一个编排工具（气流）为我的目的？我需要一直寻找新的事件，中间没有停顿。
我将使用，kinesisfirehose->s3（数据湖）->emr（spark）->s3（数据仓库）
非常感谢！

streaming apache-spark amazon-emr amazon-web-services

来源：https://stackoverflow.com/questions/63752301/running-multiple-apache-spark-streaming-jobs

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

运行多个apache spark流作业

暂无答案！

相关问题

热门标签

最新问答