需要数据管道创建的设计输入

yiytaume  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(320)

对于所有的awsMaven,我需要你的帮助来设计和构建大数据管道scenario:-
我在s3中有很大的.gz扩展名文件,大小从mb到gb不等。这些是w3c格式的日志文件压缩格式。现在,我希望在bigdata管道中接收这些文件,从文件中解压数据,然后将数据转换为所需的数据列。
请各位awsMaven为我提供一些设计方案,使用现成的工具或开源工具或任何自定义工具来实现上述数据管道。

odopli94

odopli941#

根据spark文件
spark的所有基于文件的输入方法,包括textfile,都支持在目录、压缩文件和通配符上运行。例如,可以使用textfile(“/my/directory”)、textfile(“/my/directory/.txt”)和textfile(“/my/directory/.gz”)。
你所要做的就是把这些读入rdd(不需要单独解压),你可以做任何你想做的转换。

logsRDD = sc.textFile("s3a://<directory>/*gz")

参考文献:
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html

相关问题