需要数据管道创建的设计输入

yiytaume 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(320)

对于所有的awsMaven，我需要你的帮助来设计和构建大数据管道scenario:-
我在s3中有很大的.gz扩展名文件，大小从mb到gb不等。这些是w3c格式的日志文件压缩格式。现在，我希望在bigdata管道中接收这些文件，从文件中解压数据，然后将数据转换为所需的数据列。
请各位awsMaven为我提供一些设计方案，使用现成的工具或开源工具或任何自定义工具来实现上述数据管道。

hadoop apache-spark amazon-web-services amazon-kinesis

来源：https://stackoverflow.com/questions/55160743/need-design-inputs-on-data-pipeline-creation

1条答案

按热度按时间

odopli941#

根据spark文件
spark的所有基于文件的输入方法，包括textfile，都支持在目录、压缩文件和通配符上运行。例如，可以使用textfile（“/my/directory”）、textfile（“/my/directory/.txt”）和textfile（“/my/directory/.gz”）。
你所要做的就是把这些读入rdd（不需要单独解压），你可以做任何你想做的转换。

logsRDD = sc.textFile("s3a://<directory>/*gz")

参考文献：
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html

赞(0）回复(0）举报 2021-05-27

我来回答

需要数据管道创建的设计输入

1条答案

相关问题

热门标签

最新问答