当我们在hive中创建orc表时,我们可以看到数据是压缩的,在hdfs中不完全可读。那么,hive如何将压缩的数据转换成可读的格式,当我们对该表发出一个简单的select*查询时,它会显示给我们?谢谢你的建议!!
ffdz8vbo1#
hive使用“serde”(序列化-反序列化)来实现这一点。当你创建一个表时,你提到了文件格式,例如:在你的例子中,它是orc“存储为orc”,对吧。hive在内部使用orc库(jar文件)来转换为可读的格式。要了解更多有关配置单元内部的信息,请搜索“hiveserde”,这样您就可以知道数据是如何转换为对象的,反之亦然。
9udxz4iz2#
在创建表时使用orcserde。你必须提供serde类的包名。行格式“”。serde所做的是将特定格式的数据序列化到hive可以处理的对象中,然后反序列化以将其存储回hdfs中。
2条答案
按热度按时间ffdz8vbo1#
hive使用“serde”(序列化-反序列化)来实现这一点。当你创建一个表时,你提到了文件格式,例如:在你的例子中,它是orc“存储为orc”,对吧。hive在内部使用orc库(jar文件)来转换为可读的格式。要了解更多有关配置单元内部的信息,请搜索“hiveserde”,这样您就可以知道数据是如何转换为对象的,反之亦然。
9udxz4iz2#
在创建表时使用orcserde。你必须提供serde类的包名。行格式“”。serde所做的是将特定格式的数据序列化到hive可以处理的对象中,然后反序列化以将其存储回hdfs中。