hive文件格式的优缺点

f45qwnt8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(434)

我开始和Hive一起工作。我想知道对于以下格式中的每种表格式应该使用哪些查询:rcfile、orcfile、parquet、分隔文本

lmvvr0a8

lmvvr0a81#

当您有大量列的表,并且您倾向于经常使用特定的列时,rc文件格式将是一个不错的选择。与读取整行数据相比,您只需检索所需的列,从而节省了时间。数据被分成行组,行组又被分成列组。
分隔文本文件是通用的文件格式。

kpbwa7wx

kpbwa7wx2#

对于orc文件格式,请查看配置单元文档,其中有详细说明:https://cwiki.apache.org/confluence/display/hive/languagemanual+orc
Parquet文件格式以列形式存储数据。例:col1 col2 a 1 b 2 c 3
正常数据存储为a1b2c3。使用parquet,数据存储为123。对于Parquet文件格式,请阅读https://blog.twitter.com/2013/dremel-made-simple-with-parquet

cld4siwp

cld4siwp3#

我看到有几个答案,但由于你的问题没有要求任何特定的文件格式,答案解决了一个或另一个文件格式。
在hive中可以使用很多文件格式。值得一提的是avro,Parquet地板。rcfile和orc。如果您想比较这些文件格式的性能和空间利用率,您可以参考网上提供的一些好的文档。以下是一些有用的链接,会让你去。
此博客帖子
来自mapr的链接[他们不讨论Parquet地板]
来自inquidia的链接
以上给出的链接将使你去。我希望这能回答你的问题。
谢谢!

相关问题