如何使用distcp在s3中将hdfs文件作为orc文件移动?

jecbmhm3  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(414)

我需要将hdfs中的文本文件移动到awss3。hdfs中的文件是文本文件和非分区文件,迁移后的s3文件的输出应该在orc中,并在特定列上分区。最后,在这个数据上创建一个配置单元表。
实现这一点的一种方法是使用spark。但我想知道,这是否可能使用distcp复制文件作为orc。
想知道有没有其他最好的选择来完成上述任务。
提前谢谢。

66bbxpm5

66bbxpm51#

distcp只是一个copy命令;它不做任何转换。您正在尝试执行一个查询,生成一些orc格式的输出。您必须使用hive、spark或hadoopmapreduce这样的工具来完成。

相关问题