在hdfs文件系统中,每个insert查询都会创建一个文件,其中包含000000\u 0\u copy*。这是hive和hdfs的默认行为吗?是否有压缩的概念?如果有,那么压缩是如何工作的?
cbeh67ev1#
hdfs是一个仅附加的文件系统,这意味着要修改(update/delete语句)已经写入的文件的任何部分,必须重写整个文件并替换旧文件,或者编写一个新文件以插入甚至单个记录。压实不是一个自动过程。您需要编写自己的代码来查询一个表,然后插入另一种格式,如parquet/orc
1条答案
按热度按时间cbeh67ev1#
hdfs是一个仅附加的文件系统,这意味着要修改(update/delete语句)已经写入的文件的任何部分,必须重写整个文件并替换旧文件,或者编写一个新文件以插入甚至单个记录。
压实不是一个自动过程。您需要编写自己的代码来查询一个表,然后插入另一种格式,如parquet/orc