hdfs—创建表时配置单元中的文件格式

7dl7o3gd  于 2021-06-26  发布在  Hive
关注(0)|答案(2)|浏览(299)

我正在创建配置单元外部表。文件格式为文本文件。但是查询需要很长时间才能执行。
是否有任何文件格式,我可以使用,以便快速访问数据?

esyap4oy

esyap4oy1#

将其存储为orc格式并使用tez执行引擎 set hive.execution.engine=tez;

ru9i0ody

ru9i0ody2#

orc是迄今为止最好的文件格式,可以更快地从hive访问数据。请注意,您必须确保按所搜索列的排序顺序加载数据,以加快检索速度。这将使加载过程变慢。
我建议将分区与orc(zlib压缩)一起使用,因为这是我最近测试过的东西,并且看到了很好的性能改进。
有关orc文件格式的详细信息,您可以参考(也有许多好文章)https://cwiki.apache.org/confluence/display/hive/languagemanual+orc

相关问题