以文件格式创建输出

juzqafwq  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(409)

我需要创建文件格式的输出。根据本页(http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/)这是最好的。
问题?
1) 我应该使用什么编解码器来创建文件格式的文件?2) 使用-text选项(例如。
hadoop fs-cat-text/tmp/a.orc
3) 还有其他的指示吗?现在使用这种格式还为时过早吗?利弊?
谢谢。

ni65a41a

ni65a41a1#

要在配置单元的orcfile中创建数据,只需在表定义末尾使用短语“storageasorc”并加载数据。您还可以使用sqoop,使用hcatalog导入选项直接导入orc。
还有一个名为orcfiledump的工具,可以帮助您分析存储为orc的数据,提供列、类型和统计信息的列表。
您不能使用-cat直接读取orc,但可以轻松地将orc数据导出到csv文件。

dsf9zpds

dsf9zpds2#

1) 我应该使用什么编解码器来创建文件格式的文件?
好吧,压缩的折衷是性能。如果数据大小不是瓶颈,最好不要使用任何压缩,因为这样可以提供最大的性能。
它的顺序是none->snappy->zlib(性能和大小都在下降)

相关问题