对于所有的awsMaven,我需要你的帮助来设计和构建大数据管道scenario:-我在s3中有很大的.gz扩展名文件,大小从mb到gb不等。这些是w3c格式的日志文件压缩格式。现在,我希望在bigdata管道中接收这些文件,从文件中解压数据,然后将数据转换为所需的数据列。请各位awsMaven为我提供一些设计方案,使用现成的工具或开源工具或任何自定义工具来实现上述数据管道。
odopli941#
根据spark文件spark的所有基于文件的输入方法,包括textfile,都支持在目录、压缩文件和通配符上运行。例如,可以使用textfile(“/my/directory”)、textfile(“/my/directory/.txt”)和textfile(“/my/directory/.gz”)。你所要做的就是把这些读入rdd(不需要单独解压),你可以做任何你想做的转换。
logsRDD = sc.textFile("s3a://<directory>/*gz")
参考文献:https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.htmlhttp://spark.apache.org/docs/latest/rdd-programming-guide.html
1条答案
按热度按时间odopli941#
根据spark文件
spark的所有基于文件的输入方法,包括textfile,都支持在目录、压缩文件和通配符上运行。例如,可以使用textfile(“/my/directory”)、textfile(“/my/directory/.txt”)和textfile(“/my/directory/.gz”)。
你所要做的就是把这些读入rdd(不需要单独解压),你可以做任何你想做的转换。
参考文献:
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html