配置单元orc文件格式

zu0ti5jz  于 2021-06-26  发布在  Hive
关注(0)|答案(2)|浏览(596)

当我们在hive中创建orc表时,我们可以看到数据是压缩的,在hdfs中不完全可读。那么,hive如何将压缩的数据转换成可读的格式,当我们对该表发出一个简单的select*查询时,它会显示给我们?
谢谢你的建议!!

ffdz8vbo

ffdz8vbo1#

hive使用“serde”(序列化-反序列化)来实现这一点。当你创建一个表时,你提到了文件格式,例如:在你的例子中,它是orc“存储为orc”,对吧。hive在内部使用orc库(jar文件)来转换为可读的格式。要了解更多有关配置单元内部的信息,请搜索“hiveserde”,这样您就可以知道数据是如何转换为对象的,反之亦然。

9udxz4iz

9udxz4iz2#

在创建表时使用orcserde。你必须提供serde类的包名。行格式“”。serde所做的是将特定格式的数据序列化到hive可以处理的对象中,然后反序列化以将其存储回hdfs中。

相关问题